ローカルでLLMを動かすとき、もどかしいのは「賢さ」より「遅さ」だ。特にリアルタイム編集や対話型ワークフローでは、推論速度そのものがUXの壁になる。
Google DeepMindが公開したIntroducing DiffusionGemmaは、この問いに正面から答えようとしている。26BパラメータのMixture of Experts(MoE)モデルで、専用GPU上での推論速度を最大4倍に高めるとされる。Apache 2.0ライセンスで公開された実験的モデルだ。
なぜ4倍速いのか
既存のLLMは「オートリグレッシブ」方式——1トークンずつ順番に生成する。これが速度の根本的なボトルネックだ。
DiffusionGemmaはテキスト拡散(text diffusion)と呼ばれるアプローチで、ブロック単位のテキストを並列生成する。画像生成の拡散モデルが全ピクセルを一気に構築するように、出力をシーケンシャルに待たない。Gemma 4のアーキテクチャに専用の拡散ヘッドを組み込むことで、この並列化を実現している。
開発者にとっての意味
この構造転換が開くのは「速くなったLLM」ではなく、「ローカルリアルタイム推論」という新しい用途領域だ。インライン編集、高速プロトタイピング、非線形テキスト構造の生成——遅延が障壁だったユースケースに、実用の扉が開きつつある。
品質面ではオートリグレッシブ版に譲ると公式も明示しており、現時点の主な対象は研究・実験用途だ。ただ、生成方式の刷新による高速化は、スケールやファインチューニングで品質面も改善できる余地がある。速さと質の両立がどこまで進むか、今後の展開に注目したい。
(出典: Introducing DiffusionGemma — Google DeepMind)
関連記事
- Give GitHub Copilot CLI real code intelligence with language servers
- PRC-linked influence operations are targeting AI debates in the US
- Access OpenAI models and Codex through your Oracle cloud commitment
参考文献
コメント