OpenAIで、安全性チームが3回消えた
2023年7月から2026年2月までの約18ヶ月間で、OpenAIの安全性専門チームが3回連続で解散した。最初のSuperalignmentチーム、その後継のSSC(安全委員会)、そして2024年9月に設立されたMission Alignmentチーム。どれも「次こそは」と設立され、どれも消えた。
偶発的な人事の失敗が3回続くことは、統計的にありにくい。これは事故ではなく、構造の帰結として読むのが正直なところだ。
何が約束されて、何が守られなかったのか
2023年7月5日、OpenAIはSuperalignmentチームを発足させた。共同リーダーはIlya SutskeverとJan Leike。超知能AIが人間の価値観に沿って動くよう制御する研究を担う、約25名体制のチームだった。
設立と同時に、OpenAIは「今後4年間、計算資源の20%をこのチームに充てる」と公約した。Fortune誌が6名の内部情報源に取材したところ、この約束は一度も果たされなかったという。
チーム自体は成果を出していた。旗艦論文「弱から強への汎化(Weak-to-Strong Generalization)」はICML 2024に採択され、被引用数200件以上を記録した。資源が約束通りに供給されていれば、どうなっていたかはわからない。ただ、約束が守られなかった事実は残る。
取締役会危機がトリガーになった
2023年11月、Sam Altmanが取締役会によって一時解任され、数日後に復帰した一件はニュースになった。あまり語られないのは、この危機においてSutskever自身がAltman解任を主導した側だったという点だ。彼は「Altmanは嘘をつき、幹部を弱体化させ、対立させるパターンを示している」と記した52ページのメモを取締役に送っていた。
Altmanが復帰した後、Sutskeverはオフィスに一度も戻らず、自分のチームにアクセスすることもできなかった。チームのリーダーがチームに近づけない状態が続いた。
同時に取締役会の構成も変わった。Axiosは「安全性志向の学者とEffective Altruism派が去り、商業経営者が支配的な構成になった」と評した。さらに2024年3月、AltmanはOpenAIの取締役にも復帰した。監視される側が監視する側に入った。
2024年5月、リーダー2人が連続離脱
2024年5月14日にSutskeverが退職し、3日後の17日にLeikeも辞任した。Leikeは辞任と同時に長い投稿を公開し、「安全性より製品優先だった」と明確に指摘した。彼は2023年11月のAltman復帰を求める従業員署名(96%が署名)に、署名しなかった人物でもある。
2人のリーダーが去った後、約25名のチームメンバーは即座に再配置され、チームとしての活動は終了した。その後もLilian Weng(安全性研究VP)が2024年11月に離脱するなど、安全性研究者の約50%がOpenAIを去ったという推計がある。さらに、1000万ドル規模の外部研究助成金プログラム「Superalignment Fast Grants」も静かに終了した。
NDAが口を封じた構造
ここからは、もう少し不快な話になる。
退職者に課されたNDAには「生涯にわたる非中傷条項」が含まれていた。OpenAIを批判することを生涯禁止するというものだ。それだけでなく、「NDA自体の存在を認めることすら違反」という条項もあった。秘密の存在も秘密にしろ、という二重の口封じだ。
さらに、この条件を拒否した場合には確定済みのエクイティ——すでに受け取る権利が確定している報酬——を没収するという脅しが加わっていた。Daniel Kokotajloというケースでは、離脱時に純資産の約85%に相当するエクイティを放棄している。
Vox誌のスクープで内容が暴露され、AltmanはXで「知らなかった、間違っていた」と謝罪した。ただしVoxの調査では、リーク文書に2024年4月29日付けでCOOの署名があったことも確認されている。
安全性への懸念を口にしようとした人間が、資産と法的脅しによって沈黙させられる仕組みが存在していた。これはOpenAIの安全性文化の劣化を示す事実として記録しておくべきだ。
ここからは見方の話だが
「同じパターンが3回繰り返された」という事実が持つ意味を、少し立ち止まって考えてほしい。
1回なら失敗、2回なら偶然、3回なら構造だ。Superalignmentチームの崩壊後にSSCが設立され、SSCにAltman本人がメンバーとして加わり、批判を受けて除外されるまで90日かかった。その後継のMission Alignmentチームも18ヶ月で消えた。新しいチームを作るたびに「今度こそ」というシグナルを出しつつ、同じ帰結を繰り返している。
これは「安全性担当者が商業化圧力に負ける」という個人の問題ではない。安全性への投資をコストとして扱う組織構造が、外部へのコミットメントを上書きし続けたという話だ。
決定的なのは、OpenAIのミッション声明から「safely」という単語が削除されていたことが、IRS申告書の分析によって2025年に判明したことだ。「安全に人類に恩恵をもたらす」という文章から「安全に」が消えた。これは文言の細部ではなく、組織が内部でどの方向を向いているかを示す。
人材流出が「分散」をもたらした側面
離脱した研究者たちの行き先も整理しておく。
Sutskeverは2024年6月にSSI(Safe Superintelligence Inc.)を共同設立した。設立から約1年で約30億ドルを調達し、評価額は約320億ドルに達した。2026年3月時点で公開製品もデモも論文も一切発表していない。AI投資の過熱を示すエピソードとしても読めるが、市場が安全性研究に本気のお金を出しているという事実でもある。
Jan Leikeは離脱の11日後にAnthropicに入社し、安全性チームを率いた。AnthropicはもともとOpenAIから同じ「安全性vs商業化」の構図で2020〜2021年に分離独立した会社だ。同じ理由が、同じパターンで繰り返されている。
AI安全性の知見と人材がOpenAIから業界全体に分散したことは、一方では「多様な視点からの研究が進む」という効果をもたらしている。ただしこれは、安全性チームが機能し続けた場合の成果ではない。崩壊の副産物として起きた分散だ。
外部規制が動き始めたこと
皮肉なのは、安全性チームが内部で機能しなかったことで、外からのチェックが加速した点だ。
2024年6月、OpenAIとGoogle DeepMindの現・元従業員13名が「警告する権利」書簡を公開し、HintonやBengioらAI研究の著名人が支持を表明した。2024年9月の米上院司法委員会では、元Superalignmentメンバーのウィリアム・ソーンダーズが「信頼を失い辞職した」と直接証言した。EU AI Actは2024年8月1日に発効し、元OpenAI政策研究者のMiles BrundageはAI監査機関「AVERI」を2026年1月に設立している。
Future of Life Instituteが2025年冬に実施したAI安全性評価では、OpenAIはC評価だった。ただし注目すべきは、調査対象の全社が「存在論的安全性」でD以下の評価だったことだ。これはOpenAI固有の問題ではなく、業界構造の問題として捉えるべき数字だ。
実務として、どこを見るべきか
この話を「OpenAIが悪い企業だった」という結論にするのは、ちょっと短絡的だと思っている。
より実務的な問いはこうだ。「AI企業の安全性コミットメントを、どう評価するか」。
今後同種のニュースを見るとき、チェックすべき点をいくつか挙げる。安全性チームは独立した予算と資源を持っているか。リーダーは製品・商業ラインから独立した報告経路を持っているか。離脱した研究者が何を言っているか(そして言えない構造になっていないか)。ミッション文書の文言が変わっていないか。これらは観察可能な指標だ。
「安全性を重視しています」という声明は、コストをかけて守られて初めて意味を持つ。資源の約束が守られなかった事実、「safely」が文書から消えた事実、NDAで口を封じた事実——これらは声明ではなく行動の記録だ。
次の論点は規制の実効性だ。EU AI Actや米国の公聴会は動き始めているが、「外部監査が実際に機能するか」はこれからの話だ。AVERIのような第三者機関が実質的な権限を持てるかどうか、AI企業が自己統治の限界を超えられるかどうかは、今後数年で試される問いになる。
繰り返されたパターンが示すのは、特定の誰かの悪意ではなく、「安全性をコストとして扱う構造が勝ち続けた」という事実だ。そしてその構造は、OpenAI一社の話ではない。