DiffusionGemma: GoogleのAIが1秒あたり1,000+ Tokens Per Secondの速度を達成

あなたのローカルLLMがほとんどアイドル状態である理由

ほとんどの大規模言語モデル（LLM）は、自己回帰的な原理で動作し、左から右へ、一度に1つのトークンを生成します。この逐次的なプロセスは、モデルが単語を書き、次に書かれたすべてを評価して次の単語を予測することを意味します。商用サーバーの場合、この非効率性は、数百人のユーザーをバッチ処理し、モデルの重みを一度ロードして256人のユーザーに同時にサービスを提供することで軽減されます。

しかし、ローカルLLMのデプロイメントは、メモリバウンドという重大なボトルネックに直面しています。ローカルGPUは、その動作時間のほとんどを、メモリからモデルの重みがロードされるのを待つことに費やし、積極的に計算しているわけではありません。それは大量の重みをロードし、1つのトークンに対してわずかな計算を行い、次のトークンのためにサイクルを繰り返す前にアイドル状態になり、高価なハードウェアがほとんど活用されていない状態になります。

Google DeepMindのDiffusionGemmaは、これを克服するために、根本的に異なるパラダイムを導入します。従来の「256ユーザーに1トークン」というアプローチの代わりに、DiffusionGemmaは、ランダムなプレースホルダートークン、つまり「ノイズ」のキャンバスから始めることで、単一ユーザーに対して256トークンを一度にすべて生成します。その後、すべての位置を同時に洗練して一貫性のあるテキストにし、GPUに実質的な計算負荷を提供し、メモリバウンドからコンピュートバウンドへと移行させ、理論的には毎秒1,000トークンを超える速度を解き放ちます。

画像AIからのトリックを拝借

テキストを逐次的に生成する代わりに、DiffusionGemmaは画像AIからトリックを拝借します。それは、ランダムなプレースホルダートークン、本質的には「ノイズ」のキャンバスから始まります。画像拡散モデルがノイズの多いピクセルを一貫性のある画像に洗練するのと同様に、DiffusionGemmaは、このテキストノイズを複数の双方向パスを介して意味のある出力へと繰り返し変換します。この並列処理により、モデルは出力全体に同時に取り組むことができ、一度に1単語ずつ生成するアプローチとは根本的に異なります。

Google DeepMindは、この概念をテキストに適用するためにUniform State Diffusionを導入しました。ここでは、ランダムに置き換えられた単語が「ノイズ」と見なされます。トレーニング中、実際の単語はランダムな単語に置き換えられ、モデルはこれらの破損を特定して修正することを学習します。この方法は、重要な機能を実現します。モデルは、生成プロセスの任意の時点でキャンバス上の任意のトークンを再評価および変更できます。

これは、トークンが単に空白にされるMasked Diffusionのようなより単純な方法とは大きく対照的です。Masked Diffusionは重大な制限に悩まされます。モデルがトークンにコミットすると、自己回帰モデルの厳格な左から右への生成と同様に、永久に固定されてしまいます。Uniform State Diffusionは、常にすべての位置にトークンを保持することでこれを克服し、進化するコンテキストに合わなくなった場合でも、以前に受け入れられた単語さえも交換することでモデルが自己修正できるようにします。

即時テキストのアーキテクチャ

DiffusionGemmaは、既存の260億パラメータのGemma 4モデルの上に構築された、革新的なEncode-Denoise Patchアーキテクチャを採用しています。この設計は、ユーザーのプロンプトを解釈し、コンテキストとガイダンスを抽出するエンコーダーモードと、テキストキャンバスを洗練するデノイザーモードの2つの動作モードを動的に切り替えます。エンコーダーはKVキャッシュを生成し、重要な情報をデノイザーに直接渡します。

デノイズ中、モデルは双方向アテンションを活用し、トークンの位置に関わらず、その「キャンバス」上のすべてのトークンを同時に「見て」処理することを可能にします。重要なのは、複数回のパスを通じて、各位置のすべてのトークンについて、すべての信頼度スコア (logits) を保持することです。この絶え間ない可視性と、以前の推測がその後の修正に情報を提供する反復的な洗練は、その並列処理能力の基礎となります。このアーキテクチャの詳細については、DiffusionGemma - Google DeepMindをご覧ください。

このアーキテクチャの転換は、計算上のボトルネックを根本的に再構築します。逐次的なトークン生成のためにしばしばmemory-boundとなるautoregressive modelsとは異なり、DiffusionGemmaはGPUを常にアクティブに保ちます。数百のトークンを並列処理することで、モデルはmemory-boundからcompute-boundへと転換し、現代のGPUの計り知れない処理能力を解き放ち、1,000 tokens per secondを超える生成速度を達成します。

この記事が気に入ったら、毎朝同じようなものをメールで受け取れます。

1日1通 · 2クリックで解除 · サードパーティのトラッキングなし

速度 vs. 品質：現実的な検証

DiffusionGemmaの実際の導入は、説得力のあるパフォーマンスプロファイルを示しています。H100 GPUで実施されたベンチマークでは、約700 tokens per secondという驚異的な速度を一貫して達成しました。これは、アーキテクチャで予測された理論上の1,000+ tokens per secondにはわずかに届きませんでしたが、従来のautoregressive modelsの1トークンずつのペースをはるかに超える画期的な飛躍を意味します。

この速度のブレークスルーは、明確な運用上のトレードオフをもたらします。DiffusionGemmaは、絶対的なテキストの完璧さの追求よりも迅速な出力が優先される、決定的な速度が求められるシナリオ向けに設計されています。対照的に、逐次生成と綿密な洗練を特徴とする標準的なautoregressive modelsは、最高の出力品質と一貫性が要求されるタスクにおいて、引き続き好ましい選択肢として機能します。

その結果、DiffusionGemmaは低レイテンシが最重要となるユースケースで理想的なアプリケーションを見出します。これには、迅速な提案が開発者のワークフローを向上させるインテリジェントなコード補完のようなタスクが含まれます。また、迅速なクリエイティブな反復作業にも優れており、ユーザーが多数のテキストドラフトを素早く探索することを可能にします。さらに、非線形生成タスクに革命をもたらし、ユーザーインタラクションのパラダイムを根本的に変える即時かつマルチトークンの応答を可能にします。

よくある質問

DiffusionGemmaとは何ですか？

Google DeepMindによる新しいテキスト生成モデルで、AI画像生成器と同様の拡散技術を使用し、1秒あたり1,000 tokens per secondを超える可能性のある非常に高速なテキスト生成を実現します。

DiffusionGemmaは従来のLLMsよりもどのように高速なのですか？

1つずつ（autoregressively）ではなく、並列の「パス」で一度に数百のトークンを生成します。これにより、プロセスはmemory-bound（データの待機）からcompute-bound（GPUを完全に活用）へと転換します。

DiffusionGemmaの主なトレードオフは何ですか？

主なトレードオフは、最高品質のための速度です。驚異的に高速である一方で、可能な限り最高の精度と一貫性が求められるタスクでは、標準的なautoregressive modelsが依然として優れていることがよくあります。

uniform state diffusionとは何ですか？

トレーニングのためにテキストに「ノイズ」を適用するために使用される核となる技術です。単に単語をマスクするのではなく、実際の単語をランダムな単語に置き換え、モデルが自身の以前の推測を修正し、さらには交換することを学習できるようにします。

Found this useful? Share it.

For builders

Want Stork to write one of these about your product?

Send us a URL. We use the product, form a view, and publish what we actually think — in 8 languages, labeled Sponsored, with no copy approval on your side. That last part is what makes it worth quoting.

See how it works$500 · AI tools & software only

Googleの1,000トークン/秒AIが登場