フィジカルAI 2026年6月4日

NVIDIA Cosmos 3が示す「物理AIの地殻変動」——世界モデルの中身を3点で読み解く

何の話か——「世界モデル」という言葉の実態

2026年6月1日、NVIDIAはCOMPUTEX 2026（GTC Taipei）でCosmos 3を発表した。「Physical AIのための世界基盤モデル（World Foundation Model）」という肩書きを持つが、この手の発表は「すごそうな単語」が並ぶわりに、何ができて、何ができないのかが見えにくい。

まず核心を先に言っておく。Cosmos 3が従来と最も異なるのは、テキスト・画像・動画に加えて、ロボットのアクション系列（動作）を同一モデルで扱える「オムニモデル」になった点だ。前世代のCosmos 2.xまでは、知覚（perception）と生成（generation）が別モデルに分かれていた。今回それが統合されたことで、「カメラ映像を入力に、次にどう動くべきかを出力する」という流れを一気通貫で処理できるようになった。

LLMが言語の確率分布をモデル化したとするなら、World Foundation Modelは「物理世界そのもの——物体・相互作用・意図・未来の状態遷移——」をモデル化しようとするものだ、とNVIDIAは説明している。言葉だけ聞くとふわっとしているが、中身を見ると現実的な作りになっている。

中身の整理——3点に絞って読む

アーキテクチャ：Two-Tower MoT

Cosmos 3のアーキテクチャはMixture-of-Transformers（MoT）で、各モデルが同サイズの2つのTransformerを持つ「Two-Tower」構造になっている。

Reasoner（推論タワー）：シーンを理解し、行動を計画し、生成を導く構造化表現を出力する
Generator（生成タワー）：実際のピクセル・音声波形・アクション系列を生成する

「考える側」と「作る側」が役割分担して同居している設計だ。リリースされたバリアントは2つ。

Cosmos 3 Nano：8B Reasoner + 8B Generator = 計16B、ベースはQwen3-VL 8B
Cosmos 3 Super：32B Reasoner + 32B Generator = 計64B、ベースはQwen3-VL 32B

Two-Tower構造なのでパラメータ数は合計値で数える。NVIDIA公式も「Nanoは16Bモデル（8B+8B）」「Superは64Bモデル（32B+32B）」と合計値を主表記にしている。なお、デバイス上でのリアルタイム推論向けのCosmos 3 Edgeは「Coming Soon」として予告されているが、執筆時点（2026年6月）では未リリースだ。

ライセンスはOpenMDW 1.1で商用利用可。重みはHugging Faceで公開され、6つの合成データ生成（SDG）データセット・学習レシピ・ベンチマークもオープンソース化されている。学習データは画像約10億枚、実写・合成あわせて4億本の動画、20兆トークン規模とされている。

合成データ：「データ問題を計算問題に」

NVIDIAがGTC 2026でこう表現した。「ロボティクスのデータ問題を計算問題に置き換える」と。個人的にはこの一言がリリース全体を象徴していると思う。

ロボットの学習には膨大な実機データが必要で、その収集には金も時間もかかる。Cosmos 3はここを次のフローで崩しにくる。

Omniverse（フォトリアルな3Dシミュレーション）で状況を作る
それを指導ビデオとしてCosmosに入力する
制御可能でフォトリアルな合成データを大量生成する

NVIDIAはこのワークフローを「数ヶ月かかっていたPhysical AIの訓練・評価サイクルを数日に短縮する」と謳っている。実際にヒューマノイドロボットの1Xは、Cosmos系モデルを使って新型ロボット「NEO Gamma」の訓練を行っていると公表している。

これは現場の実感として理解できる話だ。実機でデータを集める前に、シミュレーションと合成データで土台を作る——というワークフローは、すでに業界の標準的な方向性になりつつある。

エッジ推論：手元でどこまで動くか

「結局これはクラウドの中だけの話なのか」という問いへの答えを先に言うと、推論系はすでにエッジで動いている。

ポイントは、Cosmos 3本体（16B / 64B）とは別系統のCosmos Reasonという推論VLMの存在だ。

CES 2026（2026年1月）発表のCosmos Reason2は、2B / 8Bのサイズで最大256Kトークンの長コンテキストをサポート
Cosmos Reason2-2BをW4A16に量子化したものがJetson全ラインに最適化されており、Orin Nano 8GB（ユニファイドメモリ8GB）でも動作
量子化版の実測値として、max_model_length=2048で約5.8GBのRAMを使い、テキスト・画像・動画の推論で約16〜17 tokens/sが報告されている

500ドル未満のエッジモジュールがカメラ映像について物理推論できる、というのがこの量子化の意味するところだ。

一方、Cosmos 3本体のエッジ版（Cosmos 3 Edge）はまだ来ていない。「エッジでリアルタイムに物理推論する」部分は実現済みで、「世界モデル本体をデバイス上で完結させる」最後のピースが到着待ち、という状況だ。

ここからは見方だが——構造として何が起きているのか

Cosmos 3の採用状況を見ると、発表会デモで終わっていない事例がすでに出ている。

IntBotはGTC 2026で、Cosmos Reason2をロボットのエッジ計算機に直接載せた事例を実演。3台のロボットがカンファレンス会場で受付・案内・対話を台本なしでこなした
SalesforceはAgentforceとCosmos Reasonを組み合わせて自社ロボットの映像を解析し、インシデント解決時間を約2倍速にしたと公表
LEM Surgicalは手術支援ロボットDynamisの自律アームをJetson AGX Thor + Cosmos Transferで訓練・駆動
ハードウェア側ではBoston Dynamics・Figure・Franka・NEURA RoboticsがJetson AGX Thorを本番のヒューマノイドに組み込んでいる

日本企業の動きも見逃せない。ファナックはNVIDIA Isaac GR00TプラットフォームとCosmos Reason2を統合し、安川電機はJetsonモジュールをコントローラーに組み込んで生産ラインのエッジ推論を実現している。川崎重工はシリコンバレーに「Kawasaki Physical AI Center San Jose」を開設し、NVIDIA・富士通らと協業して配送ロボットや手術支援ロボット「hinotori」にフィジカルAIを組み合わせる動きを進めている。

日本はもともと世界のロボットの半分近くを作ってきた現場だ。そこに世界モデルが載り始めているというのは、単なるトレンドの追随ではなく、産業構造の変化として読んだほうがいい。

ここで一つ構造的な話をする。「モデルもエッジ土台もOSSで誰でも手に入る」時代になったことで、競争の軸が基礎モデルそのものから、現場での実装・統合・運用のレイヤーへ移っている、ということだ。

これはLLMの世界で先に起きたことと同じパターンだ。GPT-3が出た当初は「モデルを持っているか」が競争優位だったが、今やオープンなモデルが溢れ、差がつくのは「それをどう使い切るか」になっている。ロボティクス・物理AIの世界でも、同じ移行が始まっている。

実務への示唆と次の論点

開発者・プロダクト担当が今見るべきポイントはどこか。

まず、Cosmos Reason2-2Bの量子化版がOrin Nano 8GBで動く、という事実は実務的に大きい。クラウドに投げず、エッジで閉じた推論ができるということは、レイテンシとプライバシーの問題を同時に解決できる。IntBotのデモがまさにそれを示していた。自社のロボットや機器にエッジ推論を組み込む構想があるなら、今がアーキテクチャを設計するタイミングだ。

次に、合成データのワークフローについて。「訓練サイクルを数ヶ月から数日に短縮」という主張は過大広告に聞こえるかもしれないが、1X・NEO Gammaの事例を見ると実際に動いている話だ。ただし、合成データで作った土台と実機での転移学習の間に「現実のギャップ」がどの程度生じるか、という問いはまだ十分に公開されていない。ここは期待値を調整して見るべきポイントだ。

次の論点として最も気になるのは、Cosmos 3 Edgeのリリースタイミングだ。世界モデル本体（16B / 64B）がエッジデバイス上で完結して動く状態になれば、クラウド依存ゼロのリアルタイム物理AIが現実になる。Cosmos 3 Edgeが「Coming Soon」から「Released」に変わる瞬間が、物理AIのコモディティ化の分水嶺になると見ている。

もう一点、見落とされがちな論点として運用・責任のレイヤーがある。手術支援ロボットや自律移動ロボットに世界モデルが載ったとき、推論の誤りは誰の責任になるのか。Cosmos 3自体がオープンライセンスで配布されていることで、導入した側の責任が問われる構造になる。この問いは、Cosmos Reasonを手術ロボットに使っているLEM Surgicalのような事例が増えるほど、無視できなくなる。

まとめ

Cosmos 3を一言で言うなら、「物理AIの基盤が、クラウドの外に降りてきた第一歩」だ。

モデル構成：Two-Tower MoT。Nano=16B（8B+8B）/ Super=64B（32B+32B）
合成データ：Omniverse→Cosmosで訓練データを量産。データ問題を計算問題に変換
エッジ推論：Cosmos Reason2はすでにJetson Orin Nanoで動作（約16〜17 tokens/s）。本体エッジ版は Coming Soon

「世界をモデル化する」と言うと大げさに聞こえるが、Qwen3-VLベースの現実的な実装で、量子化すれば500ドル未満のモジュールでも物理推論が回る。それが今の実態だ。

Cosmos 3 Edgeのリリース時期を引き続き追うのと同時に、日本のロボットメーカーがこのスタックをどう「使い切るか」に注目したい。産業用ロボットの製造力があって、物理AIの基盤がOSSで手に入る——この組み合わせが現場でどう展開されるか、まだ答えは出ていない。

参考元: NVIDIA Cosmos 3 を読む — Physical AI の「世界モデル」とは何か

元記事を読む →

𝕏 この記事をシェアする

フィジカルAI の記事を見る →