今月のAI業界をひと言で言うと

2026年4月、Anthropic・OpenAI・Google・Cursor・GitHubの五社が揃って、自律的に長時間タスクを回すためのエージェント関連アップデートを集中投下した。

Claude Opus 4.7のGA、OpenAIのAgents SDK次世代版GA、Deep Research Agent APIの正式公開、Cursor 3.0のリリース、GitHub CopilotのVS Code Autopilot。どれも4月の数週間に固まっている。偶然ではない。各社が「エージェントが次のフェーズだ」と確信して、意図的に投入タイミングを揃えている感がある。


なぜ「運用信頼性」が次の焦点になるのか

派手なベンチマークが出るたびに盛り上がるのがAI業界の常だが、今月の評価軸は少し変わってきた。

Gemini 3.1 Proはレイテンシスパイクの報告があり、AntigravityはSWE-bench Verified 76.2%という好スコアを叩き出しながらも「日常的な常用には不安定」との指摘を受けている。OpenAIも3〜5日ごとに15〜45分ほどの軽い劣化が定常的に発生していると、ユーザーレビューに繰り返し登場する。

エージェントは「人間が途中で監視しなくていい」ことを売りにしている。だとすれば、走り始めた途中でコケるのが一番困る。ベンチマークの数字が良くても、長時間タスクの途中でレート制限に引っかかったり、コンテキストを喪失したりすれば、実務では使い物にならない。「壊れずに走り切ってくれるか」という問いが、実用側から突きつけられている状況だ。


各社の動きを整理する

Anthropic:コーディングで「最も愛されるツール」の座を固める

Anthropicの4月は、数字で見ると相当に密度が高い。Claude Opus 4.7を4月16日にGAし、価格は$5/$25 per Mトークンのまま据え置きで、SWE-bench Proのコーディングスコアを13%向上、Rakuten-SWE-BenchのProduction taskは3倍、BigLaw Benchは90.9%を記録した。トークナイザーも刷新され、最大35%多くのトークンを処理できる。

それだけではない。Claude CodeがわずかV2.1.107からV2.1.117まで、10日余りで10バージョン以上を連続投入している。Managed Agents($0.08/session-hour)、ant CLI、Claude Design、Advisor toolを次々と追加した。

Pragmatic Engineerのシニア開発者調査では「最も愛されるコーディング支援ツール」として46%を獲得、JetBrainsのCSATは91%、NPSは54。2026 Developer Surveyの複雑タスク選好率でも44%で首位に立っている。「83%のPRをAIレビューだけでマージした」「40ページ資料を3時間で作成した」といった国内の具体的な導入事例も、ZennやNoteで継続的に出てきている。

弱点は動画・音声生成のモダリティ幅と、エンタープライズでの大型契約の薄さ。大企業の全社展開では「第二候補」になりがちな構造はまだ変わっていない。

OpenAI:ゼネラリスト路線を貫き、エンタープライズの導線を太くする

OpenAIはChatGPT週次9億アクティブユーザー、Codex週次400万開発者という圧倒的な規模を土台に動いている。

4月21日には、gpt-image-2の発表と同日に、Accenture・Capgemini・CGI・Cognizant・Infosys・PwC・TCSのSI七社との同時契約とCodex Labs(OpenAI社員常駐型パートナー)を発表した。エンタープライズへの導線の太さは現時点で他社の追随を許さない。

Agents SDK次世代版もGAされ、Blaxel・Cloudflare・Daytona・E2B・Modal・Runloop・Vercelとのネイティブサンドボックス連携が揃った。一方でSoraは2026年4月26日にWebとAppの提供が終了予定で、動画市場からは一時撤退する形になる。コア(推論・コード・Computer Use)にリソースを集中させる判断は明確だ。

Google:フラッグシップ一本をやめてモダリティの幅で差別化

Googleのここ数ヶ月で最も大きな戦略転換は、「フラッグシップ一本で押す」路線をやめたことだ。Gemini 3.1 Pro(ARC-AGI-2 77.1%、2Mコンテキスト、$2/$12)をトップに据えながら、Flash・Flash-Lite・Flash Live・Flash TTSという用途別モデルに役割を分けている。

Flash TTSは70言語以上に対応し、Artificial AnalysisのTTSリーダーボードでElo 1,211を記録。Veo 3.1の4K動画、Nano Banana 2の画像生成(Midjourney v6比6.3倍という評価)、Deep Research Agent APIの正式公開(4月21日)と、モダリティの幅で他社を引き離している。

日本語でのDeep Research品質は国内のNoteやZennでも繰り返し称賛されていて、リサーチ用途では「やっぱりGoogle」と指名で選ばれるシーンが増えている。

Cursor 3.0とGitHub Copilot:二層構造の定着

Cursor 3.0は4月2日にリリースされ、Agents Windowでローカル・worktree・クラウド・リモートSSHを並列実行できるUIを前面に押し出した。自社フロンティアモデルComposer 2はCursorBench 61.3(前世代比+37%)、Terminal-Bench 2.0で61.7、SWE-bench Multilingualで73.7。ARR 20億ドル、DAU 100万人、エンタープライズ売上は2025年に100倍成長と公表されている。

GitHub Copilotは4月13日にData Residency(US+EU)とFedRAMP準拠を同日発表し、規制業界への本格参入を明確にした。

重要なのは、CursorもCopilotも、Anthropic・OpenAI・Googleの三社モデルをユーザーが選んで使う構造になっていることだ。


AIおじさんの見方:「基盤モデルの勝者」と「IDEの勝者」は別物になる

ここが今月の最も重要な論点だと思っている。

CursorもCopilotも、Claude Opus 4.7・GPT-5.4・Gemini 3.1 Proを取り込める作りになっている。つまり、基盤モデル層が改善されれば、そのままIDE体験の向上に反映される構造だ。裏を返せば、「どのIDEを使うか」と「どの基盤モデルが優れているか」は、独立した問いになる。

これは少し前までと違う。以前は「GitHub CopilotはOpenAIのモデル」「CursorはAnthropicが得意」という整理がある程度成立していた。今はどちらのツールでも好きなモデルを選べる。ということは、IDEの勝負はUIと体験と価格と安定性で決まり、基盤モデルの勝負はベンチマークと信頼性で決まる、という二つの競争が並行して走っている。

使う側にとっては選択肢が増えてありがたい話だが、「どれを選ぶか」の判断基準が複雑になる。


実務的に何を考えるべきか

選ぶ基準が変わってきている。 機能の多さやベンチマークの高さではなく、「長時間の自律タスクを途中でコケずに完遂できるか」が判断軸になりつつある。

具体的には、レイテンシスパイクの頻度、レート制限の設計、コンテキスト喪失のリスクをどう管理するか、という観点でツールを評価する必要が出てきた。エンタープライズ導入を検討しているなら、FedRAMP準拠・Data Residency・ZDRといったガバナンス面の確認も必須になっている。

もう一点。コーディングツールと基盤モデルを「セット」で考えない方がいい。ClaudeがコーディングでNo.1評価を受けているとしても、CursorとCopilotのどちらを使うかは別の問いだ。この切り分けを意識しておくと、今後の各社の動きを読み違えずに済む。


まとめ

2026年4月は「エージェント元年の号砲が鳴った月」として記憶されるかもしれない。ただし、鳴り物入りの機能発表ラッシュの裏で、運用信頼性という地味だが本質的な問いが浮上している。

ベンチマークで勝った会社が実務で勝つとは限らない。「壊れずに走り切れるか」という問いへの答えを出した会社が、次のフェーズで頭一つ抜けることになるだろう。