「会議の議事録、もっと楽に作れないかな……」
「Whisperってすごいらしいけど、APIを使うとお金がかかるの?」
こんなふうに悩んでいませんか?
高精度な文字起こしができると話題のOpenAIの「Whisper」。
開発者だけでなく、最近では効率化を目指すビジネスパーソンからも注目されていますよね。
ただ、いざ「API」を使って自動化しようと思うと、どうしても気になるのが料金です。
「知らない間に高額請求が来たらどうしよう」と不安になるのも無理はありません。
実は、Whisper APIの料金体系は非常にシンプルで、しかも驚くほど安価なんです。
私自身、最初は「難しそう」と敬遠していましたが、実際に使ってみると、そのコストパフォーマンスの良さに驚きました。
コーヒー1杯分の値段で、何十時間もの音声を文字にできてしまう世界がそこにはあります。
この記事では、現役のWEBライターである私が、Whisper APIの料金について、どこよりも分かりやすく解説します。
専門用語ばかりで頭が痛くなるような説明は抜きにして、明日からすぐに使える知識をお届けしますね。
この記事を読むと、以下の点についてスッキリと理解できます。
- Whisper APIの具体的な料金設定と、1時間あたりのコスト目安
- 無料で使える「Open Source版」と「有料API版」の決定的な違い
- OpenAIの管理画面で料金を確認する正しい手順
- GPT-4oなど、他のAPIと組み合わせた時の料金イメージ
Whisper API 料金の仕組みとコストの目安

まずは、一番気になる「結局いくらかかるの?」という疑問にお答えします。
結論から言うと、Whisper APIの料金は**「使った分だけ支払う従量課金制」**です。
月額固定費などは一切かかりません。
使わなければ0円、たくさん使えばその分だけ、という非常に分かりやすいシステムになっています。
ここでは、具体的な計算方法や、OpenAIの他のモデルとの料金比較について見ていきましょう。
Whisper文字起こし料金の計算方法
Whisper API(モデル名:whisper-1)の料金は、1分あたり0.006ドルです。
「ドル表記だとイメージしにくい……」という方も多いですよね。
そこで、日本円に換算して考えてみましょう。(※1ドル=150円で計算した場合)
- 1分間の文字起こし: 約0.9円
- 1時間の文字起こし: 約54円
- 10時間の文字起こし: 約540円
いかがでしょうか?
1時間の会議を文字起こししても、たったの54円程度なんです。
人間が手作業でテープ起こしをすると、相場は1分100円以上かかることも珍しくありません。
そう考えると、破壊的な安さだということが分かりますよね。
計算式は単純に「音声の長さ(分)× 0.006ドル」です。
ちなみに、ファイルサイズではなく「音声の再生時間」で課金される点も覚えておくと良いでしょう。
無音部分が多い長い音声などは、あらかじめカットしておくとさらに節約できますよ。
Whisper APIに無料枠はある?
「できれば最初は無料で試したい」
これは誰しも思うことですよね。
ここで重要なのが、「ChatGPTの無料版」と「OpenAI API」は別物だということです。
ChatGPT(チャット画面)は無料で使えますが、APIを利用するにはクレジットカードの登録が必要になります。
ただし、OpenAIのアカウントを初めて作成した直後には、**「無料トライアルクレジット(Free Trial Credits)」**が付与される場合があります。
これを使えば、最初の数ヶ月間は実質無料でWhisper APIを試すことが可能です。
もしこのクレジットを使い切ってしまった、あるいは期限が切れてしまった場合は、最低5ドル(約750円)からのプリペイド(前払い)チャージが必要になります。
「完全無料のプランが永続的にあるわけではない」という点は注意が必要ですね。
OpenAI API料金確認の手順
いくら安いとはいえ、使いすぎが怖いという方もいるでしょう。
OpenAIでは、現在の利用状況をリアルタイムで確認できる管理画面(ダッシュボード)が用意されています。
確認手順はとても簡単です。
- OpenAIの「Platform」ページにログインする
- 右上のアイコンから「Settings」または「Dashboard」を開く
- メニューの中にある**「Billing」または「Usage」**をクリックする
この画面を見れば、「今月あとどれくらい使えるか」「今日いくら使ったか」がグラフで一目瞭然です。
さらに、「Usage limits(利用制限)」を設定しておけば、「月額10ドルを超えたらAPIを停止する」といった安全策も講じられます。
これなら、うっかり使いすぎる心配もありませんね。
GPT 4o API料金との比較
文字起こしをした後、「その内容を要約したい」と考えることも多いはずです。
そこで活躍するのが、高性能な生成AIであるGPT-4oです。
Whisperで文字起こしをして、GPT-4oで要約する。
この黄金パターンを使う場合の料金も把握しておきましょう。
| モデル名 | 料金単位 | 料金(入力 / 出力) | 用途 |
| Whisper (v2/v3) | 1分あたり | $0.006 | 音声の文字起こし |
| GPT-4o | 100万トークン | $2.50 / $10.00 | テキストの要約・生成 |
| GPT-4o-mini | 100万トークン | $0.15 / $0.60 | コスト重視の要約 |
GPT-4oは非常に賢いですが、料金はWhisperに比べると少し複雑です。
もしコストを抑えて要約したいなら、軽量モデルであるGPT-4o-miniと組み合わせるのがおすすめです。
これなら、文字起こしから要約までをワンコイン以下で完了させることも夢ではありません。
Whisper API 料金を抑えて賢く使う方法

前述の通り、Whisper APIは非常に安価です。
しかし、塵も積もれば山となるもの。
大量の音声を処理するビジネス用途などでは、さらにコスト意識を持つことが大切です。
ここでは、料金を抑えつつ、Whisperの機能を最大限に活用するための「賢い使い方」や、無料版との使い分けについて深掘りしていきます。
Whisper無料版と有料APIの違い
実は、WhisperにはAPIを使わずに**完全に無料で使える「Open Source(オープンソース)版」**が存在します。
「えっ、無料があるならそっちの方がいいじゃん!」と思いますよね。
ただ、これには大きな落とし穴があります。
それぞれの違いを表で比較してみましょう。
| 特徴 | Whisper API(有料) | Whisper Open Source(無料) |
| 料金 | 1分 $0.006 | 完全無料 |
| 必要なもの | APIキーのみ | 高性能なPC(GPU必須) |
| 設定難易度 | 簡単(数行のコード) | 難しい(環境構築が必要) |
| 処理速度 | 超高速 | PCのスペックに依存(遅い場合も) |
| セキュリティ | OpenAIの規定に準拠 | ローカル完結で安心 |
私であれば、手軽さとスピードを重視してAPI版を選びます。
なぜなら、無料版を快適に動かすには、数十万円する「ゲーミングPC」のようなハイスペックなパソコンが必要になるからです。
その初期投資や電気代、設定にかかる時間を考えると、API代を払ったほうが結果的に安上がりというケースがほとんどなのです。
もちろん、「ハイスペックPCを既に持っていて、Pythonの環境構築も得意」という方であれば、無料版に挑戦する価値は大いにあります。
Whisper API 使い方の基礎
「APIってプログラマーしか使えないんでしょ?」
そう思っている方も多いですが、実はPythonというプログラミング言語を使えば、驚くほど短いコードで動かせます。
例えば、Google Colabなどのブラウザで動く環境を使えば、自分のPCに何もインストールせずに試すことも可能です。
基本的な流れは以下の通りです。
- OpenAIのAPIキーを取得する
- Pythonで
openaiライブラリをインストールする - 音声ファイルを読み込ませて、APIに送信する
たったこれだけです。
最近では、ChatGPTに「Whisper APIを使うPythonコードを書いて」と頼めば、そのまま使えるコードを書いてくれます。
プログラミング未経験者でも、AIの力を借りれば簡単に自動文字起こしツールが作れる時代になったのです。
もし、「もっと本格的に自分だけのアプリを作ってみたい」「社内の業務効率化ツールとして開発したい」と感じたら、Pythonを基礎から学んでみるのも一つの手です。
APIを扱えるようになると、Webライターやマーケターとしての市場価値もグンと上がりますよ。
長時間音声をお得に文字起こしするコツ
最後に、API料金を少しでも節約するためのテクニックをいくつか紹介します。
一つ目は、**「ファイル形式の圧縮」**です。
Whisper APIには、アップロードできるファイルサイズに上限(25MB)があります。
wav形式などの重いファイルは、mp3やm4aなどに変換して軽くしてから送るのが鉄則です。
これは料金に直接影響しませんが、エラーを防ぎ、通信時間を短縮する上で重要です。
二つ目は、**「無音カット」**です。
会議の録音データには、何も話していない「沈黙の時間」が含まれていることが多いですよね。
Pythonのライブラリなどを使って、この無音部分をあらかじめ削除してからAPIに投げれば、その分の分数が減り、料金の節約になります。
そしてもう一つは、**「プロンプトの活用」**です。
Whisper APIは、専門用語や社内用語を正しく認識させるために「プロンプト(指示出し)」を設定できます。
これを上手く使えば、一度の文字起こしで完璧な原稿が仕上がり、修正の手間や再実行のコストを減らすことができます。
これらを意識するだけで、運用コストは確実に変わってきます。
ぜひ試してみてくださいね。



Whisper API 料金まとめ

ここまで、Whisper APIの料金体系や安く使うコツについて解説してきました。
最後に、この記事の要点をまとめます。
振り返りとして活用してください。
- Whisper APIは従量課金制で月額固定費はない
- 料金は1分あたり0.006ドル(約0.9円)と激安
- 1時間の音声データなら約54円で文字起こし可能
- ファイルサイズではなく音声の再生時間で課金される
- ChatGPT(Plus)の料金とは完全に別枠である
- 初回登録時には無料トライアルクレジットがある場合も
- クレジット切れ後はプリペイド(前払い)が必要
- 料金確認はOpenAI管理画面の「Usage」から行う
- 使用上限額を設定すれば使いすぎを防げる
- GPT-4oなど他モデルとは料金体系が異なる
- 完全無料のオープンソース版はハイスペックPCが必要
- PCスペックがないならAPI版の方がコスパが良い
- Pythonを使えば初心者でも自動化ツールが作れる
- mp3圧縮や無音カットで効率的に運用できる
- API活用スキルは業務効率化の強力な武器になる
参考資料・出典
本記事の執筆にあたり、以下の公的情報・公式サイトを情報の根拠としています。
- OpenAI API Pricing(公式料金表) Whisper APIを含む、OpenAIの全モデルの最新料金体系が掲載されている一次情報源です。1分あたり$0.006という価格設定の根拠となります。
- OpenAI Platform Documentation – Speech to text 開発者向けの公式技術ドキュメントです。対応ファイル形式(mp3, wav等)や、ファイルサイズ制限(25MB)などの技術仕様に関する正確な記述が含まれています。
- Introducing Whisper (OpenAI Research) Whisperモデル発表時の公式リサーチ記事です。オープンソースとして公開されている背景や、英語以外の言語認識精度(多言語対応)に関する研究結果が示されています。

