テキスト生成は「1トークンずつ」でなくていい——DiffusionGemmaが開く速度の扉

ローカルでLLMを動かすとき、もどかしいのは「賢さ」より「遅さ」だ。特にリアルタイム編集や対話型ワークフローでは、推論速度そのものがUXの壁になる。

Google DeepMindが公開したIntroducing DiffusionGemmaは、この問いに正面から答えようとしている。26BパラメータのMixture of Experts（MoE）モデルで、専用GPU上での推論速度を最大4倍に高めるとされる。Apache 2.0ライセンスで公開された実験的モデルだ。

なぜ4倍速いのか
開発者にとっての意味

なぜ4倍速いのか

既存のLLMは「オートリグレッシブ」方式——1トークンずつ順番に生成する。これが速度の根本的なボトルネックだ。

DiffusionGemmaはテキスト拡散（text diffusion）と呼ばれるアプローチで、ブロック単位のテキストを並列生成する。画像生成の拡散モデルが全ピクセルを一気に構築するように、出力をシーケンシャルに待たない。Gemma 4のアーキテクチャに専用の拡散ヘッドを組み込むことで、この並列化を実現している。

開発者にとっての意味

この構造転換が開くのは「速くなったLLM」ではなく、「ローカルリアルタイム推論」という新しい用途領域だ。インライン編集、高速プロトタイピング、非線形テキスト構造の生成——遅延が障壁だったユースケースに、実用の扉が開きつつある。

品質面ではオートリグレッシブ版に譲ると公式も明示しており、現時点の主な対象は研究・実験用途だ。ただ、生成方式の刷新による高速化は、スケールやファインチューニングで品質面も改善できる余地がある。速さと質の両立がどこまで進むか、今後の展開に注目したい。

（出典: Introducing DiffusionGemma — Google DeepMind）

関連記事

参考文献

Introducing DiffusionGemma