ロボットに「世界を見て、意味を読み、次の動作を決める」——それを複数の専用モデルで実現していた時代は、終わりつつある。
NVIDIAがHuggingFaceで公開したWelcome NVIDIA Cosmos 3: The First Open Omni-model for Physical AI Reasoning and Actionは、視覚・言語・行動生成を単一アーキテクチャで統合した物理AI向けオープンモデルだ。Nano(8B)とSuper(32B)の2サイズで提供され、ロボティクス・自動運転・倉庫自動化などのユースケースに対応する。従来のCosmosシリーズは世界生成・推論・行動生成をそれぞれ別モデルで担っていたが、Cosmos 3はこれを一本化した。
何がひとつになったのか
技術的な核心は「Mixture-of-Transformers(MoT)」アーキテクチャにある。テキスト・画像・動画・アクション信号を共通の表現空間に統合し、自己回帰(推論)と拡散(生成)を同一モデル内で処理する。入出力の組み合わせは多様で、「画像+テキスト入力→動画+アクション出力」というポリシーモデルとしても機能する。
従来は「推論するモデル」「生成するモデル」「行動を出すモデル」を組み合わせる設計が一般的だった。単一モデルへの統合により、インターフェースの複雑さとレイテンシが減り、ファインチューニングの対象も明確になる。
誰にとって何が変わるか
最も直接的な恩恵を受けるのは、Physical AI開発に取り組む研究チームとエンジニアだ。オープンウェイトによりファインチューニングが可能で、NVIDIAが同時に公開したロボティクス・自動運転・倉庫作業向けの合成データセットと組み合わせれば、独自タスクへの適用が現実的になる。Diffusers統合で実装の敷居も低い。
実験サイクルが速くなるということは、失敗のコストが下がるということでもある。Physical AIの本番適用はまだ先だとしても、「試せる環境」が整うことでノウハウの蓄積と共有が加速する。物理世界への推論と行動生成を、クローズドな大企業だけが持つ技術からコミュニティが育てる領域へ——その転換の起点として、Cosmos 3は位置づけられる。
出典: Welcome NVIDIA Cosmos 3: The First Open Omni-model for Physical AI Reasoning and Action
関連記事
- AIエージェント実地観察記 #5
- Beyond the engine: 10 open source projects shaping how games actually get made
- 週刊 AI 懐疑論 #6
参考文献
コメント