何が起きているか、一言で

2026年3月、NVIDIAのJensen HuangがGTC 2026の基調講演でこう宣言した。「推論の変曲点が到来した(The inference inflection has arrived)」。ほぼ同時期、OpenAIのSam Altmanはインタビューで「我々がやらなければならないのはトークン工場、いや、インテリジェンス工場になることだ」と述べている。

経営者の景気のいいコメントと聞き流したくなるが、今回は違う。この2つの発言は、AI産業のボトルネックが「大きなモデルを一度学習させること」から「より多くのユーザーとエージェントに、低遅延・低コストで推論を届け続けること」へと構造的に移行した事実を指している。


数字で見る推論需要の爆発

この変化を最も透明に示しているのはGoogleのデータだ。月間トークン量の推移を並べると、その速度感がわかる。

  • 2024年:9.7兆トークン
  • 2025年5月:480兆
  • 2025年10月:1,300兆(1.3京)
  • 2026年4月:毎分160億(直接API経由のみ)

1年足らずで約130倍。しかも2026年4月の数字はSearch、GmailといったコンシューマーUIを除いた、開発者API・企業ワークロードだけのカウントだ。推論負荷の重心がどこに移っているかが透けて見える。

Microsoft Azureも2025年1〜3月期の単月(3月)で50兆トークンを処理し、前年同期比5倍と開示している。


コスト構造の逆転という本質

学習は「1回の大きな資本支出」だが、推論は「永続的な運用支出」だ。Amazon CEOのAndy Jassyは2025年の株主書簡でこう書いている。「学習は定期的に行うが、推論は大規模アプリケーションで常時発生する。将来のAIコストの圧倒的大部分は推論になる」。

Gartnerの予測では、AI最適化IaaS支出に占める推論向けの割合は2026年に55%、2029年には65%超になるとされている。

ここで面白いのは、単価が下がっているのに総支出は増えているという構造だ。Stanford HAI AI Index 2025によれば、GPT-3.5相当の推論コストは2022年11月から2024年10月の約2年で280分の1以下に低下した。にもかかわらず、ハイパースケーラーのCapEx計画はAlphabet/Googleが1,750〜1,900億ドル、Amazonが約2,000億ドル、Microsoftが約1,900億ドル、Metaが最大1,350億ドルと、合計6,000〜7,000億ドル超に達する。

コスト低下が需要を壊すのではなく、新しいユースケースを解放して総需要を増幅する。経済学で言うJevonsのパラドクスが、AI推論市場でそのまま発現している。


エージェント型AIが「乗数」として機能している

この構造変化をさらに加速させているのがエージェント型AIだ。チャットボットは1往復ごとにトークンを消費するが、エージェントは計画・実行・検証・ループを繰り返すため、消費が線形ではなく乗数的に増える。

具体的な数字を見てみよう。

  • Claude Code:標準セッションの約7倍(平均12,000トークン/タスク)。企業利用では平均13ドル/アクティブ日/開発者、月150〜250ドル/人
  • Cursor:単一リクエストで最大370,000トークンを送信。通常チャットの約185倍、APIレート換算で約1.35ドル/リクエスト

Jensen Huangはこんな発言もしている。「年俸50万ドルのソフトウェアエンジニアは、年間少なくとも25万ドル分のトークンを消費すべきだ」。煽り気味の発言ではあるが、エージェントが標準的な開発ツールになれば、1人あたりの推論コストが無視できないコスト項目になるという方向性は正しい。


誰も予想しなかったCPU不足

ここからが、この話の中で最も「見落とされがちだが重要」な論点だ。

2026年4月23日のIntel Q1決算で、DCAI部門の売上が50.5億ドル(前年比+22.4%)となり、翌日の株価は+24%(1987年以来最大の単日上昇)を記録した。

CFOのDave Zinsnerはこう説明している。「学習ではGPU 7〜8基あたりCPU 1基だが、推論ではGPU 3〜4基あたりCPU 1基。エージェント型AIではパリティまたは逆転する可能性がある」。

なぜか。エージェント型AIはコードを実行し、サンドボックスを走らせ、RL環境を管理する。これらはGPUではなくCPU上で動く。過去2年、あらゆる予算がGPUに集中し、CPUは保守的な投資しかされてこなかった。そこにCOVID時代(2020〜21年)購入CPUの寿命到来が重なり、構造的なCPU不足が発生している。未充足需要の規模についてZinsnerは「Bで始まる(Billion以上)」と答えるにとどめた。

これは正直、盲点だった。GPU争奪戦に注目が集まる中、CPUという「古いコンポーネント」が推論時代の隘路になりつつある。


実務的な示唆——指標と設計を変える時期

ここからは見方の話になるが、この構造変化がエンジニアリングに与える影響は、ツールや言語の選択よりも深いレイヤーにある。

指標を変える必要がある。 モデル精度(Accuracy、F1スコア)だけを本番KPIにしている組織は、コスト爆発に気づくのが遅れる。トークンスループット、TTFT(Time To First Token)、cost-per-tokenを同列に並べる必要がある。今はまだやっていない組織が多いが、Claude Codeが月150〜250ドル/開発者、Cursorが1リクエストで37万トークンを送信する世界では、これは「FinOpsの話」ではなく「本番要件」だ。

エージェント設計でトークン効率を考える。 ツール呼び出し、検証ループ、マルチエージェントのハンドオフは、すべてトークンを消費する。「動けばいい」から「動いて、かつ効率的」への設計思想のシフトが、コスト競争力に直結し始めている。

CPU:GPU比率の前提を見直す。 インフラ設計で1:8を暗黙の前提にしているなら、エージェント型AIが主流になるにつれてその比率は1:4、場合によっては1:1に向かう。今すぐ変える必要はないが、次の設計サイクルで織り込まないと後手に回る。


次のニュースを見るときの軸

「推論コストが下がった」というニュースを見たとき、単価と総需要を分けて読むクセをつけると見え方が変わる。単価が下がっても総需要が増えれば、インフラ支出は増え続ける。これは今起きていることそのものだ。

また、エージェント型AIのトークン消費が今後どう変化するかは、まだ定まっていない。各社が効率化技術(量子化、Speculative Decoding、KVキャッシュ最適化)を進める一方で、エージェントの複雑度は上昇している。この綱引きがどちらに傾くかは、今後の数クォーターで見えてくるはずだ。

推論の時代は来た。ただ、その全容がどこに落ち着くかは、まだ途中の話だ。


参考元: AIの重心が「学習」から「推論」に移っている — エンジニアが知るべき構造変化の全体像