DiffusionGemma: Googleの4倍高速な並列テキスト生成モデル

タイプライターAIの終焉

従来の自己回帰型Large Language Modelsは、タイプライターのようにテキストを処理し、厳密に左から右への順序で一度に1つのトークンを生成します。この逐次的、単語ごとの生成は、特に単一ユーザーのリクエストを簡単にバッチ処理できないローカル推論において、深刻なレイテンシーのボトルネックを生み出します。その結果、強力な専用GPUはしばしば大幅に活用されずに、動作時間のほとんどを次の出力トークンを待つことに費やしています。

研究者のBrendan DonoghueとSebastian Flennerhagによって2026年6月10日にリリースされたGoogleの実験的なオープンモデル、DiffusionGemmaは、根本的な転換をもたらします。それは印刷機のように動作し、256トークンからなる段落全体を同時に下書きし、繰り返し洗練させます。この並列アプローチは、モデルがトークンを1つずつ予測するのではなく、1回のフォワードパスで完全なテキストブロックを「キャンバス」として生成し、その後、複数のノイズ除去ステップでそれを洗練させることを意味します。

この方法は、推論のボトルネックをメモリ帯域幅に制約される操作から計算量に制約されるタスクへと根本的にシフトさせます。処理ユニットに大規模な同時ワークロードを提示することで、DiffusionGemmaはハードウェアの利用率を最大化し、専用GPU上で最大4倍速いテキスト生成を実現します。このアーキテクチャの再設計は、まさに現代のアクセラレータが構築された目的であり、対話型ローカルAIアプリケーション向けに前例のない速度を可能にします。

並列での思考方法

DiffusionGemmaは、画像拡散モデルが静止画を鮮明な画像に変えるのと非常によく似た、繰り返し洗練するプロセスとしてテキスト生成を再考します。それはランダムなプレースホルダートークン、本質的にはテキストノイズの「キャンバス」から始まります。複数回のパスを経て、モデルはこのブロックを繰り返し洗練させ、ランダムなトークンを首尾一貫した256トークンの段落へと収束させます。この逐次処理ではなく並列処理が、その速度を解き放ちます。

決定的に重要なことに、DiffusionGemmaは双方向アテンションを採用しています。生成されたブロック内のすべてのトークンは、それに先行するものと後続するものの両方を含む他のすべてのトークンを同時に考慮します。この包括的な視点はインテリジェントな自己修正を可能にします。モデルはテキストブロック全体を一度に評価し、リアルタイムで矛盾を特定し修正します。この能力は、複雑な非線形構造やインライン編集において非常に貴重です。

この新しいアプローチを支えているのは、効率的な26B Mixture of Experts (MoE) アーキテクチャです。モデルは合計260億のパラメータを持っていますが、推論時には約40億のパラメータのみをアクティブにします。このスパースなアクティベーションにより、DiffusionGemmaは多くのハイエンド消費者向けGPUのVRAM制限内に快適に収まり、高速なローカル実行をより利用しやすくします。

速度 vs 賢さ：真のトレードオフ

GoogleのDiffusionGemmaはテキスト生成を劇的に加速します。NVIDIA H100上で、一度に1つの単語を打ち出す逐次的な自己回帰型モデルのおなじみの待機時間とは対照的に、毎秒1000トークン以上を達成します。この並列処理はローカルGPUをはるかに効率的に活用し、開発者向けに最大4倍の速度向上を提供します。

しかし、この速度には実用的なトレードオフが伴います。Googleは、DiffusionGemmaの全体的な出力品質は標準のGemma 4モデルと比較して低く、重要なタスクにおいては事実の正確性が劣ると明示的に述べています。最大限の品質と精度を要求するアプリケーションには、開発者は引き続き標準のGemma 4をデプロイすべきです。

このトレードオフが明確な勝利となるのはどのような場面でしょうか？ DiffusionGemmaは、迅速な反復と最小限のレイテンシが最重要となるシナリオで優れた性能を発揮します。即座の提案が不可欠なインタラクティブなコードコパイロット、迅速なアイデア出しのためのコンテンツの高速ドラフト作成、および様々なレイテンシに敏感なローカルアプリケーションでその強みが際立ちます。この実験的なモデルに関するより技術的な詳細については、DiffusionGemma - Google DeepMindをご参照ください。そのApache 2.0ライセンスは、これらの速度が重視されるワークフローでの探求をさらに促進します。

この記事が気に入ったら、毎朝同じようなものをメールで受け取れます。

1日1通 · 2クリックで解除 · サードパーティのトラッキングなし

ローカルAIの新たなフロンティア

DiffusionGemmaは、戦略的な設計として、ローカルおよび低並行性ワークロード向けに特別に最適化されています。対照的に、高QPS（1秒あたりのクエリ数）のクラウド環境では、効率的なバッチ処理を活用して、自己回帰モデルで計算を飽和させます。DiffusionGemmaの並列デコーディングは、そのようなシナリオでは収穫逓減をもたらし、より高いサービスコストにつながる可能性があります。そのスループットの利点は、単一のアクセラレータ上で低から中程度のバッチサイズで最も強力に発揮されます。

開発者にとってのアクセシビリティは重要な利点です。26BのMixture of Experts (MoE) モデルは、推論時に3.8Bのパラメータのみをアクティブ化するため、量子化するとハイエンドの専用コンシューマーGPUの18GB VRAM制限内に快適に収まります。開発者は、vLLM、ファインチューニング用のUnsloth、NVIDIA NeMoなどの主要ツールを使用してDiffusionGemmaを統合でき、この革新的なアーキテクチャへのアクセスを民主化します。

最終的に、DiffusionGemmaは単に高速なモデル以上のものを表しています。それは、画期的なテキスト生成パラダイムの成功した概念実証（proof-of-concept）として機能します。シーケンシャルな「タイプライターAI」から並列な「印刷機」生成へのこの移行は、流動的で応答性の高いAIアプリケーションの新たなフロンティアを開きます。Brendan O'DonoghueとSebastian Flennerhagの功績は、ローカルAI推論が瞬時に感じられ、真にインタラクティブになる未来を告げています。

よくある質問

DiffusionGemmaはなぜ他のモデルよりもはるかに高速なのですか？

従来のモデルのようにトークンごとにテキストを生成する代わりに、DiffusionGemmaはテキスト拡散法を使用して256トークンブロック全体を並列に生成します。これにより、最新のGPUの計算能力を最大限に活用し、ローカル使用におけるスループットを劇的に向上させます。

DiffusionGemmaは標準のGemma 4モデルよりも優れていますか？

すべてのタスクに適しているわけではありません。大幅に高速ですが、全体的な出力品質は低いです。Googleは、最高の品質を要求するプロダクションアプリケーションには標準のGemma 4を、速度が重視されるインタラクティブなワークフローにはDiffusionGemmaを推奨しています。

DiffusionGemmaの最適なユースケースは何ですか？

リアルタイムのコード補完、インライン編集、数独パズルや数学グラフのような非線形構造の生成など、双方向アテンションが重要な利点となるローカルで低レイテンシのシナリオで優れた性能を発揮します。

自分のパーソナルコンピューターでDiffusionGemmaを実行できますか？

はい、ハイエンドのコンシューマーGPUをお持ちであれば可能です。モデルの量子化バージョンは18GBのVRAM内に収まるため、NVIDIA GeForce RTX 4090や5090のようなカードでローカル開発や実験に利用できます。

Found this useful? Share it.

For builders

Want Stork to write one of these about your product?

Send us a URL. We use the product, form a view, and publish what we actually think — in 8 languages, labeled Sponsored, with no copy approval on your side. That last part is what makes it worth quoting.

See how it works$500 · AI tools & software only

Googleの新しいAIは単語ではなく段落で考える