DiffusionGemma: La IA de Google Alcanza Velocidades de Más de 1.000 Tokens por Segundo

Por qué su LLM local está mayormente inactivo

La mayoría de los modelos de lenguaje grandes (LLM) operan bajo un principio autorregresivo, generando texto un token a la vez, de izquierda a derecha. Este proceso secuencial significa que el modelo escribe una palabra y luego evalúa todo lo escrito para predecir la siguiente. Para los servidores comerciales, esta ineficiencia se mitiga agrupando a cientos de usuarios, cargando los pesos del modelo una vez para servir a 256 usuarios simultáneamente.

Sin embargo, las implementaciones locales de LLM enfrentan un cuello de botella significativo: están limitadas por la memoria. Una GPU local pasa la mayor parte de su tiempo operativo esperando que los pesos del modelo se carguen desde la memoria, no computando activamente. Carga una porción masiva de pesos, realiza un cálculo mínimo para un token y luego permanece inactiva antes de repetir el ciclo para el siguiente token, dejando el hardware costoso en gran parte subutilizado.

DiffusionGemma de Google DeepMind introduce un paradigma radicalmente diferente para superar esto. En lugar del enfoque tradicional de "un token para 256 usuarios", DiffusionGemma genera 256 tokens para un solo usuario, todo a la vez, comenzando con un lienzo de tokens de marcador de posición aleatorios, o "ruido". Luego refina todas las posiciones simultáneamente en texto coherente, proporcionando a la GPU una carga computacional sustancial que la transiciona de estar limitada por la memoria a estar limitada por el cómputo, desbloqueando teóricamente velocidades superiores a 1,000 tokens por segundo.

Robando un truco de la IA de imágenes

En lugar de generar texto secuencialmente, DiffusionGemma roba un truco de la IA de imágenes: comienza con un lienzo de tokens de marcador de posición aleatorios, esencialmente "ruido". Al igual que un modelo de difusión de imágenes refina píxeles ruidosos en una imagen coherente, DiffusionGemma transforma iterativamente este ruido textual en una salida significativa a lo largo de múltiples pasadas bidireccionales. Este procesamiento paralelo permite que el modelo trabaje en toda la salida simultáneamente, un enfoque radicalmente diferente de la generación palabra por palabra.

Google DeepMind introdujo Uniform State Diffusion para aplicar este concepto al texto. Aquí, las palabras intercambiadas aleatoriamente se consideran "ruido". Durante el entrenamiento, las palabras reales se reemplazan por palabras aleatorias, y el modelo aprende a identificar y corregir estas corrupciones. Este método permite una capacidad crucial: el modelo puede reevaluar y modificar cualquier token en el lienzo en cualquier punto del proceso de generación.

Esto contrasta fuertemente con métodos más simples como Masked Diffusion, donde los tokens simplemente se ocultan. Masked Diffusion sufre de una limitación significativa: una vez que el modelo se compromete con un token, este queda permanentemente fijado, similar a la generación rígida de izquierda a derecha de los modelos autorregresivos. Uniform State Diffusion supera esto al mantener siempre un token en cada posición, permitiendo que el modelo se autocorrija intercambiando incluso palabras previamente aceptadas si ya no encajan en el contexto en evolución.

La Arquitectura del Texto Instantáneo

DiffusionGemma emplea una innovadora arquitectura Encode-Denoise Patch, construida sobre el modelo Gemma 4 existente de 26 mil millones de parámetros. Este diseño cambia dinámicamente entre dos modos operativos: un modo codificador para interpretar la instrucción del usuario, extrayendo contexto y guía, y un modo denoiser para refinar el lienzo de texto. El codificador rellena una KV-cache, pasando información crucial directamente al denoiser.

Durante la eliminación de ruido, el modelo aprovecha la atención bidireccional, lo que le permite "ver" y procesar todos los tokens en su "lienzo" simultáneamente, independientemente de su posición. Crucialmente, retiene todas las puntuaciones de confianza (logits) para cada token en cada posición a lo largo de sus múltiples pasadas. Esta visibilidad constante y el refinamiento iterativo, donde las suposiciones previas informan las correcciones subsiguientes, son fundamentales para su capacidad de procesamiento paralelo. Para una inmersión más profunda en esta arquitectura, consulte DiffusionGemma - Google DeepMind.

Este cambio arquitectónico reconfigura fundamentalmente el cuello de botella computacional. A diferencia de los modelos autorregresivos, que a menudo están limitados por la memoria debido a la generación secuencial de tokens, DiffusionGemma mantiene la GPU constantemente activa. Al procesar cientos de tokens en paralelo, el modelo pasa de estar limitado por la memoria a estar limitado por el cálculo, liberando la inmensa potencia de procesamiento de las GPU modernas y logrando velocidades de generación que superan los 1.000 tokens por segundo.

¿Te está gustando? Recibe uno así en tu bandeja cada mañana.

un correo al día · date de baja en dos clics · sin rastreadores de terceros

Velocidad vs. Calidad: Una Verificación de la Realidad

La implementación de DiffusionGemma en el mundo real revela un perfil de rendimiento convincente. Los benchmarks realizados en una GPU H100 demostraron velocidades impresionantes, alcanzando consistentemente alrededor de 700 tokens por segundo. Si bien esto no alcanzó del todo los más de 1.000 tokens por segundo teóricos predichos para la arquitectura, aún representa un salto radical más allá del ritmo de un token a la vez de los modelos autorregresivos tradicionales.

Este avance en velocidad introduce una clara compensación operativa. DiffusionGemma está diseñado para escenarios que exigen una velocidad crítica, donde la salida rápida supera la búsqueda de la perfección textual absoluta. Por el contrario, los modelos autorregresivos estándar, con su generación secuencial y refinamiento meticuloso, siguen siendo la opción preferida para tareas que requieren la máxima calidad y coherencia de salida.

En consecuencia, DiffusionGemma encuentra su aplicación ideal en casos de uso donde la baja latencia es primordial. Esto incluye tareas como el relleno inteligente de código, donde las sugerencias rápidas mejoran el flujo de trabajo del desarrollador. También destaca en la iteración creativa rápida, permitiendo a los usuarios explorar rápidamente numerosos borradores textuales. Además, revoluciona las tareas generativas no lineales, habilitando respuestas instantáneas de múltiples tokens que cambian fundamentalmente los paradigmas de interacción del usuario.

Preguntas Frecuentes

¿Qué es DiffusionGemma?

Un nuevo modelo de generación de texto de Google DeepMind que utiliza técnicas de difusión, similares a los generadores de imágenes de IA, para producir texto a velocidades muy altas, superando potencialmente los 1.000 tokens por segundo.

¿Cómo es DiffusionGemma más rápido que los LLMs tradicionales?

Genera cientos de tokens a la vez en "pasadas" paralelas en lugar de uno por uno (autorregresivamente). Esto cambia el proceso de estar limitado por la memoria (esperando datos) a estar limitado por el cálculo (utilizando completamente la GPU).

¿Cuál es la principal compensación con DiffusionGemma?

La principal compensación es la velocidad por la máxima calidad. Si bien es increíblemente rápido, para tareas que requieren la mayor precisión y coherencia posibles, los modelos autorregresivos estándar suelen ser aún superiores.

¿Qué es la difusión de estado uniforme?

Es la técnica central utilizada para aplicar "ruido" al texto para el entrenamiento. En lugar de solo enmascarar palabras, reemplaza palabras reales con palabras aleatorias, lo que permite al modelo aprender a corregir e incluso intercambiar sus propias conjeturas anteriores.

Found this useful? Share it.

For builders

Want Stork to write one of these about your product?

Send us a URL. We use the product, form a view, and publish what we actually think — in 8 languages, labeled Sponsored, with no copy approval on your side. That last part is what makes it worth quoting.

See how it works$500 · AI tools & software only

La IA de Google de 1,000 tokens/segundo ya está aquí