入力を選ばない創造AIへ——Gemini Omniが示す転換点

動画生成AIは、テキストプロンプトを入力する前提で設計されてきた。指示を言語化できる人間が使うツール——そういう暗黙の前提があった。

GoogleはIntroducing Gemini Omniで、その前提を外すモデルを発表した。Gemini Omni Flashは、画像・音声・動画・テキストを組み合わせて入力し、高品質な動画を生成する。Googleの実世界知識を活用しながら出力でき、会話形式での動画編集も可能だ。すでにGeminiアプリ、Google Flow、YouTube Shortsへのロールアウトが始まっている。

注目したいのは「入力の多様化」ではなく、「入力の制約の消滅」という方向性だ。

従来のツールはユーザーに「言語化」を求めていた。作りたいものをいったんテキストに翻訳し、プロンプトとして入力する。この翻訳工程がプロンプトエンジニアリングという専門性を生む一方、多くのユーザーを遠ざけてきた。Gemini Omniはその工程ごと省くアプローチを採っている。手持ちの写真、撮影した動画、録音した音声——そのまま入力して何かを作れる。アイデアを持つ人間と形にするAIの間にあった「言語化できるか」という関門が、消えつつある。

Googleが「推論する能力と、創造する能力を結びつける」と表現するのも、このことを指す。単なるエフェクトツールではなく、知識と推論を組み合わせて現実に根ざした映像を生成できる点が本質的な違いだ。

動画制作に関わる人間にとって、これが突きつけているのはシンプルな問いだ——ツールを使いこなすための言語化スキルが不要になるとき、何が競争優位として残るか。Gemini Omni Flashは現時点では動画出力のみだが、今後は画像・音声も対応予定とされている。「どんな入力からでも何でも作れる」という方向への第一歩として、その射程は見ておく価値がある。

出典：Introducing Gemini Omni — Google DeepMind

関連記事

参考文献

Introducing Gemini Omni