Google I/O 2026で発表されたWatch 9 Google videos of Gemini Omni and Gemini 3.5 Flashは、9本のデモを通じて2つのモデルの実力を公開した。Gemini Omniは画像・音声・動画・テキストを入力に高品質な動画を生成し、会話形式で編集できる。Gemini 3.5 Flashは複雑なエージェントタスクと長期的なコーディングに特化し、実世界での実用性を大幅に引き上げた。
これまで「理解するモデル」と「生成するモデル」は別物だった。
理解系モデルは映像や画像を読み解いてテキストで答える。生成系モデルはプロンプトから動画や画像を作り出す。この2つをつなぐには複数モデルのパイプラインを設計する必要があり、それがAI活用現場における見えにくい摩擦だった。
Gemini Omniはその境界を取り払おうとしている。
「Gemini’s ability to reason meets the ability to create」——Googleの説明は簡潔だ。現実世界の知識に基づいて動画を生成し、さらに会話で編集できる。「作る」と「考える」が同一の文脈で動くことを意味する。映像素材を渡して「このシーンのトーンを変えて」と指示すれば、意図を理解した上で修正が返ってくる。ツールを切り替えるコストが消える。
一方、Gemini 3.5 Flashが狙うのは別の軸だ。複雑で長期的なタスクをこなすエージェント能力の強化——「実行」の領域への踏み込みである。単発の問い答えではなく、複数ステップにわたる作業を自律的に進める力が、実務のAI活用における次の壁になりつつあった。
2つのモデルが同時に発表されたことには意図が読める。一方は「何を作るか」の知性を深め、もう一方は「どう動かすか」の実行力を高める。この組み合わせは、AIを「使うもの」から「任せるもの」へと近づける設計思想の表れだ。
AI活用の設計を考えるとき、「推論と生成の統合」と「エージェント実行能力」の2軸は、もはや将来の話ではない。
関連記事
- Take our I/O 2026 quiz, vibe coded in Google AI Studio.
- A shared playbook for trustworthy third party evaluations
- How Braintrust turns customer requests into code with Codex
参考文献
コメント