物理AIの複雑さを、ひとつのモデルが引き受けた

ロボットに「世界を見て、意味を読み、次の動作を決める」——それを複数の専用モデルで実現していた時代は、終わりつつある。

NVIDIAがHuggingFaceで公開したWelcome NVIDIA Cosmos 3: The First Open Omni-model for Physical AI Reasoning and Actionは、視覚・言語・行動生成を単一アーキテクチャで統合した物理AI向けオープンモデルだ。Nano（8B）とSuper（32B）の2サイズで提供され、ロボティクス・自動運転・倉庫自動化などのユースケースに対応する。従来のCosmosシリーズは世界生成・推論・行動生成をそれぞれ別モデルで担っていたが、Cosmos 3はこれを一本化した。

何がひとつになったのか
誰にとって何が変わるか

何がひとつになったのか

技術的な核心は「Mixture-of-Transformers（MoT）」アーキテクチャにある。テキスト・画像・動画・アクション信号を共通の表現空間に統合し、自己回帰（推論）と拡散（生成）を同一モデル内で処理する。入出力の組み合わせは多様で、「画像＋テキスト入力→動画＋アクション出力」というポリシーモデルとしても機能する。

従来は「推論するモデル」「生成するモデル」「行動を出すモデル」を組み合わせる設計が一般的だった。単一モデルへの統合により、インターフェースの複雑さとレイテンシが減り、ファインチューニングの対象も明確になる。

誰にとって何が変わるか

最も直接的な恩恵を受けるのは、Physical AI開発に取り組む研究チームとエンジニアだ。オープンウェイトによりファインチューニングが可能で、NVIDIAが同時に公開したロボティクス・自動運転・倉庫作業向けの合成データセットと組み合わせれば、独自タスクへの適用が現実的になる。Diffusers統合で実装の敷居も低い。

実験サイクルが速くなるということは、失敗のコストが下がるということでもある。Physical AIの本番適用はまだ先だとしても、「試せる環境」が整うことでノウハウの蓄積と共有が加速する。物理世界への推論と行動生成を、クローズドな大企業だけが持つ技術からコミュニティが育てる領域へ——その転換の起点として、Cosmos 3は位置づけられる。

出典: Welcome NVIDIA Cosmos 3: The First Open Omni-model for Physical AI Reasoning and Action

関連記事

参考文献

Welcome NVIDIA Cosmos 3: The First Open Omni-model for Physical AI Reasoning and Action