何の話か——「世界モデル」という言葉の実態

2026年6月1日、NVIDIAはCOMPUTEX 2026(GTC Taipei)でCosmos 3を発表した。「Physical AIのための世界基盤モデル(World Foundation Model)」という肩書きを持つが、この手の発表は「すごそうな単語」が並ぶわりに、何ができて、何ができないのかが見えにくい。

まず核心を先に言っておく。Cosmos 3が従来と最も異なるのは、テキスト・画像・動画に加えて、ロボットのアクション系列(動作)を同一モデルで扱える「オムニモデル」になった点だ。前世代のCosmos 2.xまでは、知覚(perception)と生成(generation)が別モデルに分かれていた。今回それが統合されたことで、「カメラ映像を入力に、次にどう動くべきかを出力する」という流れを一気通貫で処理できるようになった。

LLMが言語の確率分布をモデル化したとするなら、World Foundation Modelは「物理世界そのもの——物体・相互作用・意図・未来の状態遷移——」をモデル化しようとするものだ、とNVIDIAは説明している。言葉だけ聞くとふわっとしているが、中身を見ると現実的な作りになっている。


中身の整理——3点に絞って読む

アーキテクチャ:Two-Tower MoT

Cosmos 3のアーキテクチャはMixture-of-Transformers(MoT)で、各モデルが同サイズの2つのTransformerを持つ「Two-Tower」構造になっている。

  • Reasoner(推論タワー):シーンを理解し、行動を計画し、生成を導く構造化表現を出力する
  • Generator(生成タワー):実際のピクセル・音声波形・アクション系列を生成する

「考える側」と「作る側」が役割分担して同居している設計だ。リリースされたバリアントは2つ。

  • Cosmos 3 Nano:8B Reasoner + 8B Generator = 計16B、ベースはQwen3-VL 8B
  • Cosmos 3 Super:32B Reasoner + 32B Generator = 計64B、ベースはQwen3-VL 32B

Two-Tower構造なのでパラメータ数は合計値で数える。NVIDIA公式も「Nanoは16Bモデル(8B+8B)」「Superは64Bモデル(32B+32B)」と合計値を主表記にしている。なお、デバイス上でのリアルタイム推論向けのCosmos 3 Edgeは「Coming Soon」として予告されているが、執筆時点(2026年6月)では未リリースだ。

ライセンスはOpenMDW 1.1で商用利用可。重みはHugging Faceで公開され、6つの合成データ生成(SDG)データセット・学習レシピ・ベンチマークもオープンソース化されている。学習データは画像約10億枚、実写・合成あわせて4億本の動画、20兆トークン規模とされている。

合成データ:「データ問題を計算問題に」

NVIDIAがGTC 2026でこう表現した。「ロボティクスのデータ問題を計算問題に置き換える」と。個人的にはこの一言がリリース全体を象徴していると思う。

ロボットの学習には膨大な実機データが必要で、その収集には金も時間もかかる。Cosmos 3はここを次のフローで崩しにくる。

  1. Omniverse(フォトリアルな3Dシミュレーション)で状況を作る
  2. それを指導ビデオとしてCosmosに入力する
  3. 制御可能でフォトリアルな合成データを大量生成する

NVIDIAはこのワークフローを「数ヶ月かかっていたPhysical AIの訓練・評価サイクルを数日に短縮する」と謳っている。実際にヒューマノイドロボットの1Xは、Cosmos系モデルを使って新型ロボット「NEO Gamma」の訓練を行っていると公表している。

これは現場の実感として理解できる話だ。実機でデータを集める前に、シミュレーションと合成データで土台を作る——というワークフローは、すでに業界の標準的な方向性になりつつある。

エッジ推論:手元でどこまで動くか

「結局これはクラウドの中だけの話なのか」という問いへの答えを先に言うと、推論系はすでにエッジで動いている

ポイントは、Cosmos 3本体(16B / 64B)とは別系統のCosmos Reasonという推論VLMの存在だ。

  • CES 2026(2026年1月)発表のCosmos Reason2は、2B / 8Bのサイズで最大256Kトークンの長コンテキストをサポート
  • Cosmos Reason2-2BをW4A16に量子化したものがJetson全ラインに最適化されており、Orin Nano 8GB(ユニファイドメモリ8GB)でも動作
  • 量子化版の実測値として、max_model_length=2048で約5.8GBのRAMを使い、テキスト・画像・動画の推論で約16〜17 tokens/sが報告されている

500ドル未満のエッジモジュールがカメラ映像について物理推論できる、というのがこの量子化の意味するところだ。

一方、Cosmos 3本体のエッジ版(Cosmos 3 Edge)はまだ来ていない。「エッジでリアルタイムに物理推論する」部分は実現済みで、「世界モデル本体をデバイス上で完結させる」最後のピースが到着待ち、という状況だ。


ここからは見方だが——構造として何が起きているのか

Cosmos 3の採用状況を見ると、発表会デモで終わっていない事例がすでに出ている。

  • IntBotはGTC 2026で、Cosmos Reason2をロボットのエッジ計算機に直接載せた事例を実演。3台のロボットがカンファレンス会場で受付・案内・対話を台本なしでこなした
  • SalesforceはAgentforceとCosmos Reasonを組み合わせて自社ロボットの映像を解析し、インシデント解決時間を約2倍速にしたと公表
  • LEM Surgicalは手術支援ロボットDynamisの自律アームをJetson AGX Thor + Cosmos Transferで訓練・駆動
  • ハードウェア側ではBoston Dynamics・Figure・Franka・NEURA RoboticsがJetson AGX Thorを本番のヒューマノイドに組み込んでいる

日本企業の動きも見逃せない。ファナックはNVIDIA Isaac GR00TプラットフォームとCosmos Reason2を統合し、安川電機はJetsonモジュールをコントローラーに組み込んで生産ラインのエッジ推論を実現している。川崎重工はシリコンバレーに「Kawasaki Physical AI Center San Jose」を開設し、NVIDIA・富士通らと協業して配送ロボットや手術支援ロボット「hinotori」にフィジカルAIを組み合わせる動きを進めている。

日本はもともと世界のロボットの半分近くを作ってきた現場だ。そこに世界モデルが載り始めているというのは、単なるトレンドの追随ではなく、産業構造の変化として読んだほうがいい。

ここで一つ構造的な話をする。「モデルもエッジ土台もOSSで誰でも手に入る」時代になったことで、競争の軸が基礎モデルそのものから、現場での実装・統合・運用のレイヤーへ移っている、ということだ。

これはLLMの世界で先に起きたことと同じパターンだ。GPT-3が出た当初は「モデルを持っているか」が競争優位だったが、今やオープンなモデルが溢れ、差がつくのは「それをどう使い切るか」になっている。ロボティクス・物理AIの世界でも、同じ移行が始まっている。


実務への示唆と次の論点

開発者・プロダクト担当が今見るべきポイントはどこか。

まず、Cosmos Reason2-2Bの量子化版がOrin Nano 8GBで動く、という事実は実務的に大きい。クラウドに投げず、エッジで閉じた推論ができるということは、レイテンシとプライバシーの問題を同時に解決できる。IntBotのデモがまさにそれを示していた。自社のロボットや機器にエッジ推論を組み込む構想があるなら、今がアーキテクチャを設計するタイミングだ。

次に、合成データのワークフローについて。「訓練サイクルを数ヶ月から数日に短縮」という主張は過大広告に聞こえるかもしれないが、1X・NEO Gammaの事例を見ると実際に動いている話だ。ただし、合成データで作った土台と実機での転移学習の間に「現実のギャップ」がどの程度生じるか、という問いはまだ十分に公開されていない。ここは期待値を調整して見るべきポイントだ。

次の論点として最も気になるのは、Cosmos 3 Edgeのリリースタイミングだ。世界モデル本体(16B / 64B)がエッジデバイス上で完結して動く状態になれば、クラウド依存ゼロのリアルタイム物理AIが現実になる。Cosmos 3 Edgeが「Coming Soon」から「Released」に変わる瞬間が、物理AIのコモディティ化の分水嶺になると見ている。

もう一点、見落とされがちな論点として運用・責任のレイヤーがある。手術支援ロボットや自律移動ロボットに世界モデルが載ったとき、推論の誤りは誰の責任になるのか。Cosmos 3自体がオープンライセンスで配布されていることで、導入した側の責任が問われる構造になる。この問いは、Cosmos Reasonを手術ロボットに使っているLEM Surgicalのような事例が増えるほど、無視できなくなる。


まとめ

Cosmos 3を一言で言うなら、「物理AIの基盤が、クラウドの外に降りてきた第一歩」だ。

  • モデル構成:Two-Tower MoT。Nano=16B(8B+8B)/ Super=64B(32B+32B)
  • 合成データ:Omniverse→Cosmosで訓練データを量産。データ問題を計算問題に変換
  • エッジ推論:Cosmos Reason2はすでにJetson Orin Nanoで動作(約16〜17 tokens/s)。本体エッジ版は Coming Soon

「世界をモデル化する」と言うと大げさに聞こえるが、Qwen3-VLベースの現実的な実装で、量子化すれば500ドル未満のモジュールでも物理推論が回る。それが今の実態だ。

Cosmos 3 Edgeのリリース時期を引き続き追うのと同時に、日本のロボットメーカーがこのスタックをどう「使い切るか」に注目したい。産業用ロボットの製造力があって、物理AIの基盤がOSSで手に入る——この組み合わせが現場でどう展開されるか、まだ答えは出ていない。


参考元: NVIDIA Cosmos 3 を読む — Physical AI の「世界モデル」とは何か