DiffusionGemma: A IA do Google Atinge Velocidades de Mais de 1.000 Tokens por Segundo

Por Que Seu LLM Local Está Principalmente Ocioso

A maioria dos grandes modelos de linguagem (LLMs) opera com um princípio autorregressivo, gerando texto um token por vez, da esquerda para a direita. Esse processo sequencial significa que o modelo escreve uma palavra e, em seguida, avalia tudo o que foi escrito para prever a próxima. Para servidores comerciais, essa ineficiência é mitigada pelo agrupamento de centenas de usuários, carregando os pesos do modelo uma vez para atender 256 usuários simultaneamente.

No entanto, as implantações locais de LLM enfrentam um gargalo significativo: elas são limitadas pela memória (memory-bound). Uma GPU local passa a maior parte do seu tempo operacional esperando que os pesos do modelo sejam carregados da memória, e não computando ativamente. Ela carrega uma porção massiva de pesos, realiza uma computação mínima para um token, e então fica ociosa antes de repetir o ciclo para o próximo token, deixando o hardware caro amplamente subutilizado.

DiffusionGemma do Google DeepMind introduz um paradigma radicalmente diferente para superar isso. Em vez da abordagem tradicional de "um token para 256 usuários", DiffusionGemma gera 256 tokens para um único usuário, tudo de uma vez, começando com uma tela de tokens de preenchimento aleatórios, ou "ruído". Ele então refina todas as posições simultaneamente em texto coerente, fornecendo à GPU uma carga computacional substancial que a transiciona de limitada pela memória (memory-bound) para limitada pelo processamento (compute-bound), teoricamente desbloqueando velocidades superiores a 1.000 tokens por segundo.

Roubando um Truque da IA de Imagem

Em vez de gerar texto sequencialmente, DiffusionGemma rouba um truque da IA de imagem: ele começa com uma tela de tokens de preenchimento aleatórios, essencialmente "ruído". Assim como um modelo de difusão de imagem refina pixels ruidosos em uma imagem coerente, DiffusionGemma transforma iterativamente esse ruído textual em uma saída significativa ao longo de múltiplas passagens bidirecionais. Esse processamento paralelo permite que o modelo trabalhe em toda a saída simultaneamente, uma abordagem radicalmente diferente da geração de uma palavra por vez.

Google DeepMind introduziu a Uniform State Diffusion para aplicar este conceito ao texto. Aqui, palavras trocadas aleatoriamente são consideradas "ruído". Durante o treinamento, palavras reais são substituídas por palavras aleatórias, e o modelo aprende a identificar e corrigir essas corrupções. Este método permite uma capacidade crucial: o modelo pode reavaliar e modificar qualquer token na tela em qualquer ponto do processo de geração.

Isso contrasta fortemente com métodos mais simples como Masked Diffusion, onde os tokens são meramente apagados. Masked Diffusion sofre de uma limitação significativa: uma vez que o modelo se compromete com um token, ele fica permanentemente bloqueado, semelhante à geração rígida da esquerda para a direita de modelos autorregressivos. Uniform State Diffusion supera isso mantendo sempre um token em cada posição, permitindo que o modelo se autocorrija trocando até mesmo palavras previamente aceitas se elas não se encaixarem mais no contexto em evolução.

A Arquitetura do Texto Instantâneo

DiffusionGemma emprega uma arquitetura inovadora Encode-Denoise Patch, construída sobre o modelo Gemma 4 existente de 26 bilhões de parâmetros. Este design alterna dinamicamente entre dois modos operacionais: um modo codificador para interpretar o prompt do usuário, extraindo contexto e orientação, e um modo denoiser para refinar a tela de texto. O codificador preenche um KV-cache, passando informações cruciais diretamente para o denoiser.

Durante a denoising, o modelo aproveita a atenção bidirecional, permitindo-lhe "ver" e processar todos os tokens em sua "tela" simultaneamente, independentemente de sua posição. Crucialmente, ele retém todos os scores de confiança (logits) para cada token em cada posição ao longo de suas múltiplas passagens. Essa visibilidade constante e refinamento iterativo, onde suposições anteriores informam correções subsequentes, são fundamentais para sua capacidade de processamento paralelo. Para um aprofundamento nesta arquitetura, consulte DiffusionGemma - Google DeepMind.

Essa mudança arquitetônica reconfigura fundamentalmente o gargalo computacional. Ao contrário dos modelos autorregressivos, que são frequentemente limitados pela memória (memory-bound) devido à geração sequencial de tokens, o DiffusionGemma mantém a GPU constantemente ativa. Ao processar centenas de tokens em paralelo, o modelo passa de ser limitado pela memória para ser limitado pelo processamento (compute-bound), liberando o imenso poder de processamento das GPUs modernas e alcançando velocidades de geração que excedem 1.000 tokens por segundo.

Gostando do artigo? Receba um assim na sua caixa de entrada toda manhã.

um e-mail por dia · cancele em dois cliques · sem rastreadores de terceiros

Velocidade vs. Qualidade: Uma Verificação da Realidade

A implementação do DiffusionGemma no mundo real revela um perfil de desempenho convincente. Benchmarks conduzidos em uma H100 GPU demonstraram velocidades impressionantes, atingindo consistentemente cerca de 700 tokens por segundo. Embora isso não tenha alcançado totalmente os mais de 1.000 tokens por segundo teóricos previstos para a arquitetura, ainda representa um salto radical além do ritmo de um token por vez dos modelos autorregressivos tradicionais.

Este avanço na velocidade introduz uma clara compensação operacional. O DiffusionGemma é projetado para cenários que exigem velocidade crítica, onde a saída rápida supera a busca pela perfeição textual absoluta. Por outro lado, os modelos autorregressivos padrão, com sua geração sequencial e refinamento meticuloso, continuam a ser a escolha preferida para tarefas que exigem máxima qualidade e coerência de saída.

Consequentemente, o DiffusionGemma encontra sua aplicação ideal em casos de uso onde a baixa latência é primordial. Isso inclui tarefas como preenchimento inteligente de código (intelligent code in-filling), onde sugestões rápidas aprimoram o fluxo de trabalho do desenvolvedor. Ele também se destaca na iteração criativa rápida, permitindo que os usuários explorem rapidamente inúmeros rascunhos textuais. Além disso, ele revoluciona as tarefas generativas não lineares, possibilitando respostas instantâneas e multi-token que mudam fundamentalmente os paradigmas de interação do usuário.

Perguntas Frequentes

O que é DiffusionGemma?

Um novo modelo de geração de texto da Google DeepMind que usa técnicas de difusão, semelhantes aos geradores de imagem de IA, para produzir texto em velocidades muito altas, potencialmente excedendo 1.000 tokens por segundo.

Como o DiffusionGemma é mais rápido que os LLMs tradicionais?

Ele gera centenas de tokens de uma vez em "passagens" paralelas, em vez de um por um (autorregressivamente). Isso transforma o processo de ser limitado pela memória (memory-bound, esperando por dados) para ser limitado pelo processamento (compute-bound, utilizando totalmente a GPU).

Qual é a principal compensação com o DiffusionGemma?

A principal compensação é velocidade por qualidade máxima. Embora incrivelmente rápido, para tarefas que exigem a maior precisão e coerência possíveis, os modelos autorregressivos padrão ainda são frequentemente superiores.

O que é difusão de estado uniforme?

É a técnica central usada para aplicar "ruído" ao texto para treinamento. Em vez de apenas mascarar palavras, ela substitui palavras reais por palavras aleatórias, permitindo que o modelo aprenda a corrigir e até mesmo trocar suas próprias suposições anteriores.

Found this useful? Share it.

For builders

Want Stork to write one of these about your product?

Send us a URL. We use the product, form a view, and publish what we actually think — in 8 languages, labeled Sponsored, with no copy approval on your side. That last part is what makes it worth quoting.

See how it works$500 · AI tools & software only

A IA de 1.000 Tokens/Seg do Google Chegou