医師を「スコアで上回る」AIが登場した

OpenAIが2026年4月、医療従事者向けの専用ツール「ChatGPT for Clinicians」を発表した。米国の医師・上級資格を持つ看護師・医師助手・薬剤師を対象に、無料で提供される。

同時に公開されたベンチマーク「HealthBench Professional」では、Clinicians向けにカスタマイズされたGPT-5.4が59.0点を記録。対して、無制限の時間とインターネットアクセスを与えられた医師の回答は43.7点だった。他の主要モデルと比べてもこの差は際立っており、ベースのGPT-5.4が48.1点、Anthropic Claude Opus 4.7が47.0点、Google Gemini 3.1 Proが43.8点、xAI Grok 4.2が36.1点という結果だ。

「時間もネットも無制限の医師」を上回るというのは、単純に見えて重い意味を持つ。AIの強みは速さだけではない、という主張をデータで示した形だ。


なぜ今このタイミングで重要なのか

この発表の背景には、医療現場でのAI普及が加速しているという現実がある。米国医師会(AMA)の2026年調査によれば、**米国の医師の72%**がすでにAIを臨床の現場で使用しており、前年の48%から大幅に増加した。OpenAI自身も、世界中の臨床従事者が毎週ChatGPTを利用しており、その数は過去1年で倍以上になったと述べている。

医療AIの競争も本格化している。AnthropicもMicrosoftもGoogleも医療市場に力を入れており、特にGoogleはDeepMind経由で創薬分野に集中投資している。そうした中でOpenAIが「臨床専用」のツールをパッケージとして出してきた意味は、単なる機能拡張ではなく、医療セクターへの本格参入宣言に近い。


具体的に何ができるツールなのか

ChatGPT for Cliniciansの機能は以下の3点が中心だ。

臨床検索:数百万の査読済み論文をリアルタイムで参照しながら引用を提示する。Cliniciansバージョンは、独立した医師3名が正解ソースを特定した355件のサブセットで、人間の医師よりも高頻度でそのソースを引用したとされている。

再利用可能なワークフロー(スキル):紹介状・事前承認書・患者向け指示書など、繰り返し発生する業務をテンプレート化できる。これはいわゆる「型の自動化」であり、地味だが現場では相当な時間節約になる。

CMEクレジット認識:ChatGPT内で行った臨床リサーチが、継続医学教育(CME)のクレジットとして認定される仕組みが組み込まれている。これは医療AIのツールとしては珍しい機能で、医師の日常業務に組み込みやすくする狙いが読める。

プライバシー面では、会話がモデルの学習に使われないと明言されており、患者の保護医療情報(PHI)を扱うユーザーには、HIPAA準拠のためのBusiness Associate Agreement(BAA)も用意されている。


ベンチマークをどう読むか——数字の信頼性と限界

ここで冷静に見ておきたい点がある。

HealthBench ProfessionalはOpenAI自身が設計し、自社モデルをテストしたベンチマークだ。競合他社のモデルが低スコアになる設計になっていないか、という問いは避けられない。OpenAIはStanfordのMedHELMやMedMarksといったサードパーティの評価でも上位だと指摘しており、ベンチマークとデータセットはオープンに公開しているとも述べている。が、「自分でルールを決めて自分が勝つ」構造への疑いは消えない。

また、「99.6%の回答が安全かつ正確だった」という数字は、6,924件の会話を医師がテストした結果だが、その評価基準と独立性の詳細は明確ではない。ベンチマーク上の高スコアが、実際の臨床現場での判断精度に直接翻訳されるわけでもない。OpenAI自身も「あくまで医師の判断を補助するためのツール」と繰り返しており、これは免責でもあるが、正直な立場表明でもある。

さらに注目すべき数字がある。Clinicians向けGPT-5.4とベースのGPT-5.4の差は**約11点(59.0 vs 48.1)**だ。この差がどこから来るのか——臨床設定そのものか、ベンチマーク設計との相性か——は現時点では不明だと記事も認めている。


実務的な示唆と今後の論点

医師の仕事が「なくなる」という話ではない。ただ、AIが時間とアクセスを与えられた医師を上回る作業領域が存在するという事実は、医療教育・業務設計・責任の所在を考え直す起点になる。

特に実務的に興味深いのはCMEクレジットの組み込みだ。医師にとってCMEは義務的な負担であり、それをAI利用と接続することで「使う理由」を制度的に作っている。これはツールの普及戦略として洗練されている。単に「性能がいい」だけでは医療現場には入り込めない。ワークフローと資格要件に刺さる設計になっているかどうかが、普及の実際の鍵だ。

日本を含む国際展開は現時点では未定だが、OpenAIはBetter Evidence Networkとのパイロットプロジェクトを通じて米国外での展開も準備中だという。日本では医療情報の取り扱いやAI診断に関する規制が異なるため、そのまま移植できるわけではないが、方向性は見えてきた。


まとめ

ChatGPT for Cliniciansは、AIが医療現場に「本格的に使われるツール」として定着し始めたフェーズの象徴的な一手だ。ベンチマークの数字を鵜呑みにする必要はないが、72%の米国医師がすでに使っているという現実と合わせて読めば、これが単なる話題作りではないことはわかる。

医師を「超えた」かどうかよりも、「医師が使いたくなる設計かどうか」の方が、普及の観点では本質的な問いだ。その意味で、CMEクレジット連携やHIPAA対応といった地味な機能の方が、59.0点というスコアより長期的には重要かもしれない。