AI駆動開発 2026年5月12日

「ステップ2は？」——AIが変革をもたらすという約束の、巨大な空白を直視する

「ステップ2が何なのかわかるまで、AIを止めろ」

2026年2月、ロンドンで開催されたアンチAIデモで配られたチラシがある。内容はこうだ。「ステップ1：デジタル超知性を育てる。ステップ2：？　ステップ3：？」——最後にはこう続く。「ステップ2が何なのかわかるまで、AIを一時停止してください。」

これはPause AIという活動家グループが作ったチラシだが、風刺としての切れ味が妙に鋭い。元ネタは1998年の『サウスパーク』に登場するノーム（妖精）のビジネスプランで、「フェーズ1：パンツを集める。フェーズ2：？　フェーズ3：利益を得る」というあれ。

MIT Technology Reviewのシニアエディター、ウィル・ダグラス・ヘブンがこのチラシを冒頭に置いたのは、単なる小ネタではない。AI業界の現状がまさにこの構造だと言いたかったからだ。企業はテクノロジーを構築し（ステップ1）、変革を約束した（ステップ3）。しかし、そこへどうたどり着くかは大きな疑問符のままだ。

最先端モデルでも「業務タスクの大半が完了できない」

このギャップを具体的な数字で示す研究が、2026年2月に2本発表された。

ひとつは、AI活用の人材採用スタートアップMercorの研究者たちが2026年2月に発表したもの。OpenAI、Anthropic、Google DeepMindの最先端モデルを搭載した複数のAIエージェントを対象に、銀行員・コンサルタント・弁護士が日常的に実施する480の業務タスクでテストを行った。結果は明確で、テストしたすべてのエージェントが担当業務の大半を完了できなかった。

もうひとつはAnthropicが発表した研究で、LLMによって最も影響を受ける職種を予測している。管理職、建築家、メディア関係者は変化に備えるべきで、造園業者や建設作業員はそれほどでもないという内容だ。

この2本を並べたとき、見逃せない違いがある。片方は「できそうなタスクの推測」、もう片方は「実際にやらせた実測」だ。そしてその結果には大きな乖離がある。

なぜ誇大広告は止まらないのか

ここからは構造の話になる。

まず「誰が言っているか」の問題がある。Anthropicは自社の技術が雇用に大きな影響を与えると予測しているが、Anthropic自身が利害関係者だ。この非対称性は意識的に差し引いて読む必要がある。

次に「コーディング成果の過度な一般化」という問題がある。AIが変革をもたらすと主張する人々の多くは、AIコーディングツールの急速な進化を根拠にしている。確かにコーディング領域での進化は目覚ましい。しかし戦略的判断、交渉、文脈を伴う意思決定といったタスクでは、LLMが苦手とする研究も出ている。「コードが書けるから何でもできる」は飛躍だ。

そして最大の構造的問題が「情報の真空地帯」だ。元記事の著者が指摘しているように、ステップ2に何があるかについての合意がないため、そこに毎週のように荒唐無稽な主張が流れ込んでくる。証拠がなくても主張はできる。そしてたった1つのソーシャルメディア投稿が市場を揺るがす状況が、実際に起きている。

さらに忘れがちな点として、実際にAIを導入するとき、それはクリーンな環境に置かれるわけではない。人間、既存のワークフロー、組織の慣性が混在する中で動かさなければならない。場合によっては導入で状況が悪化することもある。既存のワークフローを解体して再構築するには、時間だけでなく経営上の意思と腹づもりが要る。それがステップ2の実態だ。

実務担当者が今すぐ持つべき判断軸

同種のニュースを目にしたとき、まず確認すべきは「これは推測か、実測か」だ。ベンチマークとデモは推測に近い。実際のワークフローに組み込んで何が起きたかを示したデータが実測だ。

次に「誰の利害がどこにあるか」を先に見る。モデル開発者の発表、VCのポートフォリオ企業の成功事例、独立研究者の実測——これらは同列に扱えない。

そして自社でAI導入を検討している人に伝えておきたいことがある。「このツールが何のタスクを得意とするか」だけを問うのでは足りない。「既存の業務フローのどこに差し込むか」と「差し込んだ後に何が変わるか」を先に設計しないと、ステップ2の空白は自社の中にも生まれる。ツールを導入することとビジネス成果を出すことの間には、誰かが埋めなければならない工程がある。

次に問題になること

元記事は処方箋として3点を挙げている。モデル開発者の透明性、研究者と企業間の連携、そして実世界での評価手法の確立だ。これは正しい方向だと思う。

ただ付け加えるなら、評価手法の問題は技術的な課題であると同時に、インセンティブの問題でもある。透明性を高めることは、ある種のプレイヤーにとっては自分の首を絞めることになる。だから自発的な改善には限界があり、いずれ何らかの外圧——規制、顧客からの要求、あるいは目立った失敗事例——がトリガーになる可能性が高い。

労働への影響という論点も、今はまだ予測の段階だが、AIエージェントが実務タスクをこなせるようになった時点で一気に具体化する。そのタイミングに備えた議論は、技術の進化とは独立して今から始めておく必要がある。