OpenAIで、安全性チームが3回消えた

2023年7月から2026年2月までの約18ヶ月間で、OpenAIの安全性専門チームが3回連続で解散した。最初のSuperalignmentチーム、その後継のSSC(安全委員会)、そして2024年9月に設立されたMission Alignmentチーム。どれも「次こそは」と設立され、どれも消えた。

偶発的な人事の失敗が3回続くことは、統計的にありにくい。これは事故ではなく、構造の帰結として読むのが正直なところだ。


何が約束されて、何が守られなかったのか

2023年7月5日、OpenAIはSuperalignmentチームを発足させた。共同リーダーはIlya SutskeverとJan Leike。超知能AIが人間の価値観に沿って動くよう制御する研究を担う、約25名体制のチームだった。

設立と同時に、OpenAIは「今後4年間、計算資源の20%をこのチームに充てる」と公約した。Fortune誌が6名の内部情報源に取材したところ、この約束は一度も果たされなかったという。

チーム自体は成果を出していた。旗艦論文「弱から強への汎化(Weak-to-Strong Generalization)」はICML 2024に採択され、被引用数200件以上を記録した。資源が約束通りに供給されていれば、どうなっていたかはわからない。ただ、約束が守られなかった事実は残る。


取締役会危機がトリガーになった

2023年11月、Sam Altmanが取締役会によって一時解任され、数日後に復帰した一件はニュースになった。あまり語られないのは、この危機においてSutskever自身がAltman解任を主導した側だったという点だ。彼は「Altmanは嘘をつき、幹部を弱体化させ、対立させるパターンを示している」と記した52ページのメモを取締役に送っていた。

Altmanが復帰した後、Sutskeverはオフィスに一度も戻らず、自分のチームにアクセスすることもできなかった。チームのリーダーがチームに近づけない状態が続いた。

同時に取締役会の構成も変わった。Axiosは「安全性志向の学者とEffective Altruism派が去り、商業経営者が支配的な構成になった」と評した。さらに2024年3月、AltmanはOpenAIの取締役にも復帰した。監視される側が監視する側に入った。


2024年5月、リーダー2人が連続離脱

2024年5月14日にSutskeverが退職し、3日後の17日にLeikeも辞任した。Leikeは辞任と同時に長い投稿を公開し、「安全性より製品優先だった」と明確に指摘した。彼は2023年11月のAltman復帰を求める従業員署名(96%が署名)に、署名しなかった人物でもある。

2人のリーダーが去った後、約25名のチームメンバーは即座に再配置され、チームとしての活動は終了した。その後もLilian Weng(安全性研究VP)が2024年11月に離脱するなど、安全性研究者の約50%がOpenAIを去ったという推計がある。さらに、1000万ドル規模の外部研究助成金プログラム「Superalignment Fast Grants」も静かに終了した。


NDAが口を封じた構造

ここからは、もう少し不快な話になる。

退職者に課されたNDAには「生涯にわたる非中傷条項」が含まれていた。OpenAIを批判することを生涯禁止するというものだ。それだけでなく、「NDA自体の存在を認めることすら違反」という条項もあった。秘密の存在も秘密にしろ、という二重の口封じだ。

さらに、この条件を拒否した場合には確定済みのエクイティ——すでに受け取る権利が確定している報酬——を没収するという脅しが加わっていた。Daniel Kokotajloというケースでは、離脱時に純資産の約85%に相当するエクイティを放棄している。

Vox誌のスクープで内容が暴露され、AltmanはXで「知らなかった、間違っていた」と謝罪した。ただしVoxの調査では、リーク文書に2024年4月29日付けでCOOの署名があったことも確認されている。

安全性への懸念を口にしようとした人間が、資産と法的脅しによって沈黙させられる仕組みが存在していた。これはOpenAIの安全性文化の劣化を示す事実として記録しておくべきだ。


ここからは見方の話だが

「同じパターンが3回繰り返された」という事実が持つ意味を、少し立ち止まって考えてほしい。

1回なら失敗、2回なら偶然、3回なら構造だ。Superalignmentチームの崩壊後にSSCが設立され、SSCにAltman本人がメンバーとして加わり、批判を受けて除外されるまで90日かかった。その後継のMission Alignmentチームも18ヶ月で消えた。新しいチームを作るたびに「今度こそ」というシグナルを出しつつ、同じ帰結を繰り返している。

これは「安全性担当者が商業化圧力に負ける」という個人の問題ではない。安全性への投資をコストとして扱う組織構造が、外部へのコミットメントを上書きし続けたという話だ。

決定的なのは、OpenAIのミッション声明から「safely」という単語が削除されていたことが、IRS申告書の分析によって2025年に判明したことだ。「安全に人類に恩恵をもたらす」という文章から「安全に」が消えた。これは文言の細部ではなく、組織が内部でどの方向を向いているかを示す。


人材流出が「分散」をもたらした側面

離脱した研究者たちの行き先も整理しておく。

Sutskeverは2024年6月にSSI(Safe Superintelligence Inc.)を共同設立した。設立から約1年で約30億ドルを調達し、評価額は約320億ドルに達した。2026年3月時点で公開製品もデモも論文も一切発表していない。AI投資の過熱を示すエピソードとしても読めるが、市場が安全性研究に本気のお金を出しているという事実でもある。

Jan Leikeは離脱の11日後にAnthropicに入社し、安全性チームを率いた。AnthropicはもともとOpenAIから同じ「安全性vs商業化」の構図で2020〜2021年に分離独立した会社だ。同じ理由が、同じパターンで繰り返されている。

AI安全性の知見と人材がOpenAIから業界全体に分散したことは、一方では「多様な視点からの研究が進む」という効果をもたらしている。ただしこれは、安全性チームが機能し続けた場合の成果ではない。崩壊の副産物として起きた分散だ。


外部規制が動き始めたこと

皮肉なのは、安全性チームが内部で機能しなかったことで、外からのチェックが加速した点だ。

2024年6月、OpenAIとGoogle DeepMindの現・元従業員13名が「警告する権利」書簡を公開し、HintonやBengioらAI研究の著名人が支持を表明した。2024年9月の米上院司法委員会では、元Superalignmentメンバーのウィリアム・ソーンダーズが「信頼を失い辞職した」と直接証言した。EU AI Actは2024年8月1日に発効し、元OpenAI政策研究者のMiles BrundageはAI監査機関「AVERI」を2026年1月に設立している。

Future of Life Instituteが2025年冬に実施したAI安全性評価では、OpenAIはC評価だった。ただし注目すべきは、調査対象の全社が「存在論的安全性」でD以下の評価だったことだ。これはOpenAI固有の問題ではなく、業界構造の問題として捉えるべき数字だ。


実務として、どこを見るべきか

この話を「OpenAIが悪い企業だった」という結論にするのは、ちょっと短絡的だと思っている。

より実務的な問いはこうだ。「AI企業の安全性コミットメントを、どう評価するか」。

今後同種のニュースを見るとき、チェックすべき点をいくつか挙げる。安全性チームは独立した予算と資源を持っているか。リーダーは製品・商業ラインから独立した報告経路を持っているか。離脱した研究者が何を言っているか(そして言えない構造になっていないか)。ミッション文書の文言が変わっていないか。これらは観察可能な指標だ。

「安全性を重視しています」という声明は、コストをかけて守られて初めて意味を持つ。資源の約束が守られなかった事実、「safely」が文書から消えた事実、NDAで口を封じた事実——これらは声明ではなく行動の記録だ。

次の論点は規制の実効性だ。EU AI Actや米国の公聴会は動き始めているが、「外部監査が実際に機能するか」はこれからの話だ。AVERIのような第三者機関が実質的な権限を持てるかどうか、AI企業が自己統治の限界を超えられるかどうかは、今後数年で試される問いになる。


繰り返されたパターンが示すのは、特定の誰かの悪意ではなく、「安全性をコストとして扱う構造が勝ち続けた」という事実だ。そしてその構造は、OpenAI一社の話ではない。


参考元: OpenAI安全性チーム崩壊の全記録 — 2年間で3チームが消えた日