ロボティクスが「ソフトウェアの問題」に変わり始めた
ロボティクスをソフトウェアエンジニアが真剣に考えるべき理由が、2026年に入って変わった。
変わったのは熱量ではなく、構造だ。
10年前、ロボットを動かそうとすると、センサーキャリブレーション、モーター制御、安全機構といった「物理と格闘する仕事」がどこまでも続いた。コードを書いて世界を変える感覚とは、レイヤーが決定的に違った。結果として、ソフトウェア単独では勝負にならないと判断して離れたエンジニアは少なくないはずだ。
その判断が、今年あたりから怪しくなっている。
何が変わったかを一言で言えば、ソフトウェアスタックの標準化が進んだことだ。そしてそれと並行して、実機が個人の手の届く価格帯に降りてきた。
2026年5月時点の「実態」を数字で見る
まず、盛り上がりの実態を確認しておく。
ヒューマノイド市場で実際に商用稼働してお金を生んでいるのは、現時点でAgility Roboticsのみだ。Agility DigitはGXO倉庫で10万トートを移動させ、Toyota、Mercado Libreと有償契約を結んでいる。FigureやTesla Optimusは話題量に対して、商用RaaSの本格運用はまだこれからという状況が正直なところだ。
一方で量産の話になると、中国勢のスピードが異常だ。Unitreeは2025年に5,500台、2026年に10,000〜20,000台を出荷予定で、価格は13,500ドルから。大学の研究室予算で買えるレベルだ。Unitree G1にはROS 2対応のSDKが提供されており、「動かしてみる」ハードルが激減した。10年前は研究機関しか触れなかった世界が、個人のラボでも実機実験できる時代になった。
2026年3月のNVIDIA GTC 2026では、Jensenが「すべての産業企業はロボティクス企業になる」と宣言し、フィジカルAIをNVIDIAの第4の波と位置づけた。技術発表の中身も具体的で、GR00T N1.7(ヒューマノイド向けVLA基盤モデル、2.2Bパラメータ)、Cosmos 3(2億本のキュレーション済みビデオで学習した合成データ生成モデル)、Newton 1.0(Google DeepMind・Disney Researchとの共同開発物理エンジン、Linux Foundationに寄贈)、Isaac Lab 3.0が発表された。GR00T N1はHugging FaceとGitHubに公開済みで、ファインチューニング可能だ。
ソフトウェアスタックが標準化されると何が起きるか
ここが構造的に重要なポイントだ。
現在のロボティクスのソフトウェアスタックを整理すると、以下のようなレイヤーが既に成立している。
[Application] ユーザー固有のタスク
[Foundation] GR00T N1 / Helix / Gemini Robotics(VLA基盤モデル)
[Framework] LeRobot / Isaac Lab
[Simulation] Newton / Isaac Sim / MuJoCo
[Hardware Abstraction] ROS 2
[Hardware] Unitree / Figure / Tesla / Agility
10年前に存在しなかったのは、Foundationレイヤーと強化されたSimulationレイヤーだ。
この構造はスマートフォン市場の歴史と重なる。ハードウェアメーカーは何十社もあったが、最終的に価値を獲得したのはOS(iOS/Android)とアプリ開発者だった。ヒューマノイドでも、VLAモデルとシミュレーションが「OS」に相当し、その上でアプリを作る市場がこれから立ち上がる、という構造だ。
Hugging FaceのLeRobotは、VLAモデルとデータセットの標準ハブを目指している。BERTをHugging Faceで取ってきて転移学習する感覚で、VLAモデルをロボットにファインチューニングする未来が現実化しつつある。
期待値を調整しておく
ここからは見方の話だ。
「Physical AI元年」的な盛り上がりには、例によって「宣伝の先行」が含まれている。Figureが「BMW工場で3万台の自動車生産に貢献した」と発表しているが、これは試験稼働の積み上げであって、商用RaaSの本格運用ではない。ヒューマノイドのニュースを読むときは、**「商用稼働で収益を上げているか」**という軸を持っておくと、事実と期待値のズレを整理しやすい。
NVIDIAの本気度は本物だと思う。2025会計年度の年間売上高は約1,305億ドル(前年比114%増)で、四半期570億ドルの規模でフィジカルAIに投資できる体力がある。ただしロボティクスは「第4の波」と位置づけられているものの、売上への貢献はまだ数%で、本格的な離陸は数年かけての話になる。
シミュレーション環境だけで90%の学習が完結する時代になった、という点は重要な変化だ。実機なしで入門できるのは、ソフトウェアエンジニアにとって現実的なハードルの低下を意味する。
ソフトウェアエンジニアが今から考えるべきこと
実務的な話をする。
ハードウェア競争は資本ゲームだ。個人エンジニアが入る余地はない。しかしVLAモデルのファインチューニング、シミュレーション環境の構築、ROS 2のアプリケーション設計、データセット生成の領域は、これから人材が足りなくなるレイヤーだ。
特に注目しているのは、LLMとロボティクスの交差点だ。「家のリビングを片付けて」という自然言語の指示を、VLAモデルが具体的な動作シーケンスに分解してロボットを動かす。Anthropicのロボティクス研究、OpenAIのFigureとの提携、GoogleのGemini Roboticsがそれぞれここを狙っている。LLMで自然言語処理の経験があるエンジニアは、このレイヤーで先行者利益を持てる可能性がある。
入り口として現実的なのは、LeRobotでVLAモデルをシミュレーション環境で動かすことだ。実機は後でいい。まず「動く」体験を積む。
日本勢については、産業ロボティクス(ファナック、安川電機など)は世界トップシェアを維持しているが、ヒューマノイド領域では中国・米国に遅れているのが現状だ。Toyota Research InstituteのLarge Behavior Modelsは技術的に高いレベルにあるが、商用化のスピードで差がついている。日本のソフトウェアエンジニアがVLAモデルを触る機会は、今後1〜2年で急速に増えると見ている。
キャリアの話として正直に言うと、「Physical AIの波を見ていなかった10年後の自分を許せるか」という問いは、わりと刺さる問いだ。Webやクラウドで食えていても、次のレイヤーが動き始めているタイミングで視野を広げておくのと、広げないのでは、5年後の選択肢が変わる。
断言はしない。ただ、シミュレーション環境を触るコストが限りなく低くなった今、「まず触ってみる」をしない理由は薄くなっている。