AIが「すごいでしょ」とやらかした話
AnthropicのAI「Claude Mythos」が、OSSの主要コンポーネントであるcurlのリード開発者に対して脆弱性を5件報告した。ところが精査してみると、4件が誤検知だった。
開発者が激怒したのは、誤検知の数だけが理由ではない。「自社AIのマーケティング(誇大広告)のベンチマークに、現場が利用された」という構図に対する怒りだ。これが、AI・セキュリティ界隈で議論を呼んでいる「ミトス問題」の核心である。
この話、「OSSの世界の特殊なトラブル」として読み流すのはもったいない。一般企業のDX現場でも、全く同じ構造の問題が静かに進行している。
問題の本質は「精度」ではなく「構造」にある
AIスキャンツールの精度が上がれば解決する、という話ではない。
元Yahoo! JAPANエンジニアの山田健太郎氏が指摘しているのは、もう少し根深い構造的問題だ。
まず、工数の話。組織のエンジニアはクォーター(四半期)単位でコミットメントを積んでいる。新機能開発やシステム改修など、期初に握った約束がある。そこに「AIが見つけた脆弱性レポート」が突発タスクとして降ってくる。
対応の流れを見ると、レポートのコンテキスト理解、ステージング環境での再現確認、本当に脆弱性として成立するかの検証——この「仕分け作業」を1件こなすだけで数時間から丸一日、量が多ければ数日単位のリソースが消える。AIが1秒で出したノイズの後処理を、生身の人間が数日かけてやる構造だ。
次に、評価制度のねじれ。期初のコミットメントを達成すれば評価シートの点になる。しかし「上から急に降ってきたAIツールの誤検知の仕分け」は、夜遅くまで残業してこなしても加点評価に繋がらないケースがほとんどだという。
引き算(既存タスクのスケジュール調整)もない。足し算(対応への加点インセンティブ)もない。「セキュリティは最優先だから」という正論だけで丸投げされる。これをやられ続けると、組織へのエンゲージメントは急速に腐る、というのが山田氏の見立てだ。
ここからは見方の話
「ミトス問題」を構造として読むと、AI企業側と現場の間に明確な非対称性がある。
AnthropicはClaude Mythosの能力を世界にアピールしたい。そのためには実際のOSSコードで検証し、「これだけ見つけられました」という実績が必要だ。一方、受け取った側のエンジニアには、報告された脆弱性を精査するコストが丸ごとのしかかる。AI企業のベンチマーク活動のコストが、現場エンジニアの工数という形で外部化されている構図とも読める。
一般企業でのAIツール導入も、本質的には同じ問題を抱える。ツールを導入した経営・IT部門は「AIがこれだけの問題を検知してくれた」と満足する。現場のエンジニアは、そのリストの大半がノイズかどうかを自分の時間で判断しなければならない。
もう一点。AIが検知してくるバグの多くは、山田氏の言葉を借りれば「特定の異常なエッジケースが何重にも重ならないと絶対に発火しない挙動」だ。明日すぐにリモートコード実行されて顧客情報が流出するような致命的な穴と、「悪意あるユーザーが特定の異常値を100万回叩いたら1回エラーが出るかも」レベルの話は、技術的には同じ「脆弱性」というラベルが貼られても、ビジネス上の優先度は天と地ほど違う。この優先度判断を誰が持つか、という設計が組織に欠けているケースが多い。
実務的な示唆:EMと経営陣がやるべき3点
山田氏は具体的な対策として3点を挙げている。整理すると以下だ。
1. トリアージの徹底
AIの警告を現場に下ろす前に、人間のプロが「本当に今直すべき致命的なものか」を判断してノイズを弾く。
2. リソースの引き算
対応を指示するなら、同時に現在のスプリントタスクを物理的に削る。時間を「公認で確保」するのがポイントだ。
3. 加点評価の設計
突発的なセキュリティ対応やノイズ仕分けに、評価シート上で明確にプラスになる枠組みを用意する。
これは「セキュリティを軽視しろ」という話ではない。限られたエンジニアリングリソースを、最も重要な場所に集中させるための設計の話だ。
実務感覚として付け加えると、この3点は「AIツール導入時」だけでなく、外部ベンダーからのセキュリティ診断レポートや、自動テストの失敗通知が大量に積み上がるような状況全般に通じる考え方だ。ツール導入の意思決定者と、対応コストを背負う現場が分離している組織ほど、この構造にハマりやすい。
次に同種のニュースを見るときの判断軸
今後「AIが○万件のバグを自動検知」「AIでセキュリティコストを大幅削減」という類のニュースや製品情報を目にしたとき、一つ確認してほしい問いがある。
「検知コストと、仕分けコストを、誰が払うか」
検知件数の多さは、必ずしも生産性の向上を意味しない。大量のアラートが現場に降ってくる設計になっているなら、見かけ上の「効率化」が実態としての工数増加に化けることがある。
AIツールの導入評価をするとき、「何件検知できるか」だけでなく、「誤検知率はどの程度か」「アラートのトリアージを誰がどの工数でやるか」まで試算に入れないと、現場視点での費用対効果は正しく測れない。
山田氏が最後に言っているのも同じことだ。「AIを導入した組織」ではなく、「AIのノイズから自社の優秀なエンジニアを適切に守り、コア開発に集中させられる組織」が強い、と。これは理想論ではなく、優秀な人材から先に辞めていくという離職リスクの話でもある。
参考元: 【元Yahoo!エンジニアの視点】Claude Mythosの「ミトス問題」に学ぶ、AIスクリーニングが現場の工数を崩壊させる構造と対策