エンコーダーなしで音声も画像も。Gemma 4 12Bが示すローカルAIの設計変化

マルチモーダルモデルには、専用のエンコーダーが必要だという前提がある。画像はビジョンエンコーダーで、音声は音声エンコーダーで処理してから言語モデルに渡す——それが「常識」だった。Gemma 4 12Bは、その前提を外している。

Google DeepMindは6月3日、Introducing Gemma 4 12Bを公開した。要点は三つ。エンコーダーを持たない統合アーキテクチャ、ラップトップで動作する12Bパラメータのサイズ感、そして中規模モデルとして初めてのネイティブ音声入力対応。Gemma 4シリーズの累計ダウンロードはすでに1億5,000万を超えている。

エンコーダーレスとは何を意味するか。画像や音声のトークンが、専用モジュールを経ずに直接言語モデルの入力に流れ込む構造だ。モデルの部品点数が減り、メモリフットプリントを抑えやすくなる。12Bというサイズで音声・画像・テキストを統合的に扱えるのは、この設計によるところが大きい。

何が変わるか。これまでローカルで動くマルチモーダルAIは、テキスト+画像の組み合わせが中心だった。音声入力がラップトップサイズのオープンモデルで使えるようになると、会議録音からのアクション抽出、音声+画像を組み合わせたエージェント実装を、クラウドなしで試せる選択肢が増える。ウェアラブルロボットアームや企業向けAIセキュリティへの応用事例がすでに出てきているのも、その広がりの一端だ。

「まずやってみる」ための障壁が、また一段下がった。

関連記事

参考文献

Introducing Gemma 4 12B