マルチモーダルモデルには、専用のエンコーダーが必要だという前提がある。画像はビジョンエンコーダーで、音声は音声エンコーダーで処理してから言語モデルに渡す——それが「常識」だった。Gemma 4 12Bは、その前提を外している。
Google DeepMindは6月3日、Introducing Gemma 4 12Bを公開した。要点は三つ。エンコーダーを持たない統合アーキテクチャ、ラップトップで動作する12Bパラメータのサイズ感、そして中規模モデルとして初めてのネイティブ音声入力対応。Gemma 4シリーズの累計ダウンロードはすでに1億5,000万を超えている。
エンコーダーレスとは何を意味するか。画像や音声のトークンが、専用モジュールを経ずに直接言語モデルの入力に流れ込む構造だ。モデルの部品点数が減り、メモリフットプリントを抑えやすくなる。12Bというサイズで音声・画像・テキストを統合的に扱えるのは、この設計によるところが大きい。
何が変わるか。これまでローカルで動くマルチモーダルAIは、テキスト+画像の組み合わせが中心だった。音声入力がラップトップサイズのオープンモデルで使えるようになると、会議録音からのアクション抽出、音声+画像を組み合わせたエージェント実装を、クラウドなしで試せる選択肢が増える。ウェアラブルロボットアームや企業向けAIセキュリティへの応用事例がすでに出てきているのも、その広がりの一端だ。
「まずやってみる」ための障壁が、また一段下がった。
関連記事
- Fluid, natural voice translation with Gemini 3.5 Live Translate
- From one-off prompts to workflows: How to use custom agents in GitHub Copilot CLI
- NeuroBait: I fine-tuned a model to spark dopamine for ADHD brain
参考文献
コメント