DiffusionGemma : L'IA de Google Atteint des Vitesses de Plus de 1 000 **Tokens Per Second**

Pourquoi votre LLM local est majoritairement inactif

La plupart des grands modèles linguistiques (LLM) fonctionnent sur un principe autorégressif, générant du texte un token à la fois, de gauche à droite. Ce processus séquentiel signifie que le modèle écrit un mot, puis évalue tout ce qui a été écrit pour prédire le suivant. Pour les serveurs commerciaux, cette inefficacité est atténuée en regroupant des centaines d'utilisateurs, chargeant les poids du modèle une seule fois pour servir 256 utilisateurs simultanément.

Cependant, les déploiements de LLM locaux sont confrontés à un goulot d'étranglement important : ils sont memory-bound. Un GPU local passe la majeure partie de son temps de fonctionnement à attendre que les poids du modèle se chargent de la mémoire, et non à calculer activement. Il charge une portion massive de poids, effectue un calcul minime pour un token, puis reste inactif avant de répéter le cycle pour le token suivant, laissant un matériel coûteux largement sous-utilisé.

DiffusionGemma de Google DeepMind introduit un paradigme radicalement différent pour surmonter cela. Au lieu de l'approche traditionnelle « un token pour 256 utilisateurs », DiffusionGemma génère 256 tokens pour un seul utilisateur, tout à la fois, en commençant par une toile de tokens de remplacement aléatoires, ou « bruit ». Il affine ensuite toutes les positions simultanément en un texte cohérent, fournissant au GPU une charge de calcul substantielle qui le fait passer de memory-bound à compute-bound, débloquant théoriquement des vitesses de plus de 1 000 tokens par seconde.

Voler une astuce à l'IA d'image

Au lieu de générer du texte séquentiellement, DiffusionGemma emprunte une astuce à l'IA d'image : il commence par une toile de tokens de remplacement aléatoires, essentiellement du « bruit ». Tout comme un modèle de diffusion d'images affine des pixels bruyants en une image cohérente, DiffusionGemma transforme itérativement ce bruit textuel en une sortie significative sur plusieurs passes bidirectionnelles. Ce traitement parallèle permet au modèle de travailler sur l'ensemble de la sortie simultanément, une approche radicalement différente de la génération mot par mot.

Google DeepMind a introduit la Uniform State Diffusion pour appliquer ce concept au texte. Ici, les mots échangés aléatoirement sont considérés comme du « bruit ». Pendant l'entraînement, les mots réels sont remplacés par des mots aléatoires, et le modèle apprend à identifier et à corriger ces corruptions. Cette méthode permet une capacité cruciale : le modèle peut réévaluer et modifier n'importe quel token sur la toile à tout moment du processus de génération.

Cela contraste fortement avec des méthodes plus simples comme la Masked Diffusion, où les tokens sont simplement masqués. La Masked Diffusion souffre d'une limitation significative : une fois que le modèle s'engage sur un token, celui-ci est définitivement figé, similaire à la génération rigide de gauche à droite des modèles autorégressifs. La Uniform State Diffusion surmonte cela en maintenant toujours un token à chaque position, permettant au modèle de s'auto-corriger en échangeant même des mots précédemment acceptés s'ils ne correspondent plus au contexte évolutif.

L'architecture de texte instantané

DiffusionGemma utilise une architecture innovante Encode-Denoise Patch, construite sur le modèle existant Gemma 4 de 26 milliards de paramètres. Cette conception bascule dynamiquement entre deux modes de fonctionnement : un mode encodeur pour interpréter l'invite de l'utilisateur, en extrayant le contexte et les directives, et un mode dénoiseur pour affiner la toile de texte. L'encodeur remplit un KV-cache, transmettant des informations cruciales directement au dénoiseur.

Pendant le dénoising, le modèle exploite l'attention bidirectionnelle, lui permettant de "voir" et de traiter tous les tokens sur son "canevas" simultanément, quelle que soit leur position. De manière cruciale, il conserve tous les confidence scores (logits) pour chaque token à chaque position tout au long de ses multiples passes. Cette visibilité constante et ce raffinement itératif, où les suppositions précédentes informent les corrections ultérieures, sont fondamentaux pour sa capacité de traitement parallèle. Pour une exploration plus approfondie de cette architecture, voir DiffusionGemma - Google DeepMind.

Ce changement architectural reconfigure fondamentalement le goulot d'étranglement computationnel. Contrairement aux modèles autorégressifs, qui sont souvent memory-bound en raison de la génération séquentielle de tokens, DiffusionGemma maintient le GPU constamment actif. En traitant des centaines de tokens en parallèle, le modèle passe de memory-bound à compute-bound, libérant l'immense puissance de traitement des GPU modernes et atteignant des vitesses de génération dépassant 1 000 tokens per second.

Cet article vous plaît ? Recevez-en un comme celui-ci chaque matin.

un e-mail par jour · désinscription en deux clics · aucun traqueur tiers

Vitesse vs Qualité : Un Bilan Réaliste

Le déploiement réel de DiffusionGemma révèle un profil de performance convaincant. Les benchmarks réalisés sur un H100 GPU ont démontré des vitesses impressionnantes, atteignant constamment environ 700 tokens per second. Bien que cela n'ait pas tout à fait atteint les plus de 1 000 tokens per second théoriques prédits pour l'architecture, cela représente néanmoins un bond radical par rapport au rythme d'un token à la fois des modèles autorégressifs traditionnels.

Cette percée en matière de vitesse introduit un compromis opérationnel clair. DiffusionGemma est conçu pour les scénarios exigeant une vélocité critique, où une production rapide l'emporte sur la recherche de la perfection textuelle absolue. Inversement, les modèles autorégressifs standards, avec leur génération séquentielle et leur raffinement méticuleux, restent le choix privilégié pour les tâches nécessitant une qualité et une cohérence maximales de la production.

Par conséquent, DiffusionGemma trouve son application idéale dans les cas d'utilisation où la low latency est primordiale. Cela inclut des tâches comme le remplissage intelligent de code (code in-filling), où des suggestions rapides améliorent le flux de travail des développeurs. Il excelle également dans l'itération créative rapide, permettant aux utilisateurs d'explorer rapidement de nombreux brouillons textuels. De plus, il révolutionne les tâches génératives non linéaires, permettant des réponses instantanées et multi-tokens qui modifient fondamentalement les paradigmes d'interaction utilisateur.

Foire Aux Questions

Qu'est-ce que DiffusionGemma ?

Un nouveau modèle de génération de texte de Google DeepMind qui utilise des techniques de diffusion, similaires aux générateurs d'images IA, pour produire du texte à des vitesses très élevées, potentiellement supérieures à 1 000 tokens per second.

Comment DiffusionGemma est-il plus rapide que les LLMs traditionnels ?

Il génère des centaines de tokens à la fois en "passes" parallèles plutôt qu'un par un (de manière autorégressive). Cela transforme le processus de memory-bound (attente de données) à compute-bound (utilisation complète du GPU).

Quel est le principal compromis avec DiffusionGemma ?

Le principal compromis est la vitesse au détriment de la qualité maximale. Bien qu'incroyablement rapide, pour les tâches nécessitant la plus grande précision et cohérence possible, les modèles autorégressifs standards sont souvent encore supérieurs.

Qu'est-ce que la uniform state diffusion ?

C'est la technique de base utilisée pour appliquer du "bruit" au texte pour l'entraînement. Au lieu de simplement masquer des mots, elle remplace les mots réels par des mots aléatoires, permettant au modèle d'apprendre à corriger et même à échanger ses propres suppositions précédentes.

Found this useful? Share it.

For builders

Want Stork to write one of these about your product?

Send us a URL. We use the product, form a view, and publish what we actually think — in 8 languages, labeled Sponsored, with no copy approval on your side. That last part is what makes it worth quoting.

See how it works$500 · AI tools & software only

L'IA de Google à 1 000 tokens/seconde est là