「何でも入れて、何でも出す」——そう聞くと誇張に聞こえるかもしれない。だが Google I/O 2026 で発表された Gemini Omni は、それに近い設計思想で構築されたモデルだ。
Watch 12 Google I/O 2026 keynote videos of the top announcements and updates では、今年の I/O 主要 12 発表を動画付きで振り返っている。目玉の Gemini Omni は、画像・音声・動画・テキストを組み合わせて入力し、高品質な動画を生成できる新モデルだ。会話形式で動画を編集でき、Gemini の実世界知識に基づいてグラウンディングされているという。
これまでのマルチモーダル AI は「入力を理解する」方向で進化してきた。画像を読む、音声を文字に起こす——入力の幅は広がったが、出力の主役はテキストのままだった。Gemini Omni はその構図をずらす。入力と出力の両方で多様なモダリティを扱える設計として発表されており、「どんな素材からでも動画をつくれる」体験を目指している。
開発者にとって何が変わるか。これまで「AI に何を渡せるか」という入力形式の制約が設計の前提になることが多かった。モダリティを揃えるための前処理、パイプラインの分岐——そうした複雑さの多くは、モデルが受け付ける形式に合わせるためのものだった。Gemini Omni の方向性が実装に根付けば、その前提から解放される局面が出てくる可能性がある。
同じ I/O で発表された新 Search ボックス(テキスト・画像・ファイル・動画・Chrome タブを横断検索できる)も同じ方向を指している。入力モダリティの壁を下げることが、今年の I/O の一貫したテーマだったと読める。AI をどう組み込むかを考えるとき、「どのモダリティを扱えるか」より「何を達成したいか」から設計を始められる時代に、確実に近づいている。
関連記事
- Anthropic opens Milan office to support Italian enterprise, research, and developers
- Introducing Claude Opus 4.8
- Anthropic raises $65B in Series H funding at $965B post-money valuation
参考文献
コメント