DiffusionGemma: ИИ от Google достигает скорости 1000+ токенов в секунду

Почему ваш локальный LLM в основном простаивает

Большинство больших языковых моделей (LLM) работают по авторегрессивному принципу, генерируя текст по одному токену за раз, слева направо. Этот последовательный процесс означает, что модель пишет слово, затем оценивает все написанное, чтобы предсказать следующее. Для коммерческих серверов эта неэффективность смягчается путем объединения сотен пользователей в пакеты, загружая веса модели один раз для одновременного обслуживания 256 пользователей.

Однако локальные развертывания LLM сталкиваются со значительным узким местом: они ограничены памятью. Локальный GPU тратит большую часть своего рабочего времени на ожидание загрузки весов модели из памяти, а не на активные вычисления. Он загружает массивную часть весов, выполняет минутное вычисление для одного токена, затем простаивает, прежде чем повторить цикл для следующего токена, оставляя дорогостоящее оборудование в значительной степени недоиспользованным.

DiffusionGemma от Google DeepMind представляет радикально иную парадигму для преодоления этого. Вместо традиционного подхода «один токен для 256 пользователей» DiffusionGemma генерирует 256 токенов для одного пользователя, все сразу, начиная с холста из случайных токенов-заполнителей, или «шума». Затем он одновременно уточняет все позиции в связный текст, обеспечивая GPU значительной вычислительной нагрузкой, которая переводит его из состояния, ограниченного памятью, в состояние, ограниченное вычислениями, теоретически открывая скорости более 1000 токенов в секунду.

Заимствуя прием из ИИ для изображений

Вместо последовательной генерации текста DiffusionGemma заимствует прием из ИИ для изображений: он начинает с холста из случайных токенов-заполнителей, по сути, «шума». Подобно тому, как модель диффузии изображений уточняет шумные пиксели в связную картину, DiffusionGemma итеративно преобразует этот текстовый шум в осмысленный вывод за несколько двунаправленных проходов. Эта параллельная обработка позволяет модели работать над всем выводом одновременно, что является радикально иным подходом по сравнению с генерацией по одному слову за раз.

Google DeepMind представила Uniform State Diffusion, чтобы применить эту концепцию к тексту. Здесь случайно замененные слова считаются «шумом». Во время обучения реальные слова заменяются случайными, и модель учится идентифицировать и исправлять эти искажения. Этот метод обеспечивает важнейшую возможность: модель может переоценивать и изменять любой токен на холсте в любой момент процесса генерации.

Это резко контрастирует с более простыми методами, такими как Masked Diffusion, где токены просто заменяются пустыми местами. Masked Diffusion страдает от значительного ограничения: как только модель фиксирует токен, он становится постоянно заблокированным, подобно жесткой генерации авторегрессивных моделей слева направо. Uniform State Diffusion преодолевает это, всегда удерживая токен в каждой позиции, что позволяет модели самокорректироваться, заменяя даже ранее принятые слова, если они больше не соответствуют развивающемуся контексту.

Архитектура мгновенного текста

DiffusionGemma использует инновационную архитектуру Encode-Denoise Patch, построенную на базе существующей модели Gemma 4 с 26 миллиардами параметров. Эта конструкция динамически переключается между двумя режимами работы: режимом кодировщика для интерпретации запроса пользователя, извлечения контекста и указаний, и режимом шумоподавителя для уточнения текстового холста. Кодировщик заполняет KV-cache, передавая важную информацию непосредственно шумоподавителю.

Во время шумоподавления модель использует двунаправленное внимание, что позволяет ей «видеть» и обрабатывать все токены на своем «холсте» одновременно, независимо от их положения. Важно отметить, что она сохраняет все показатели достоверности (логиты) для каждого токена в каждой позиции на протяжении всех своих многочисленных проходов. Эта постоянная видимость и итеративная доработка, при которой предыдущие предположения информируют последующие исправления, являются основополагающими для ее способности к параллельной обработке. Для более глубокого изучения этой архитектуры см. DiffusionGemma - Google DeepMind.

Этот архитектурный сдвиг принципиально перестраивает вычислительное узкое место. В отличие от авторегрессионных моделей, которые часто ограничены памятью из-за последовательной генерации токенов, DiffusionGemma постоянно поддерживает активность GPU. Обрабатывая сотни токенов параллельно, модель переходит от ограничения по памяти к ограничению по вычислениям, раскрывая огромную вычислительную мощность современных GPU и достигая скорости генерации, превышающей 1000 токенов в секунду.

Нравится статья? Получайте такие каждое утро на почту.

одно письмо в день · отписка в два клика · без сторонних трекеров

Скорость против качества: Проверка реальностью

Реальное развертывание DiffusionGemma демонстрирует убедительный профиль производительности. Бенчмарки, проведенные на H100 GPU, показали впечатляющие скорости, постоянно достигая около 700 токенов в секунду. Хотя это не совсем достигло теоретических 1000+ токенов в секунду, предсказанных для архитектуры, это все же представляет собой радикальный скачок по сравнению с темпом «один токен за раз» традиционных авторегрессионных моделей.

Этот прорыв в скорости приводит к явному операционному компромиссу. DiffusionGemma разработана для сценариев, требующих критической скорости, где быстрая выдача результата перевешивает стремление к абсолютному текстовому совершенству. И наоборот, стандартные авторегрессионные модели, с их последовательной генерацией и тщательной доработкой, продолжают оставаться предпочтительным выбором для задач, требующих максимального качества и связности вывода.

Следовательно, DiffusionGemma находит свое идеальное применение в сценариях, где низкая задержка имеет первостепенное значение. Это включает такие задачи, как интеллектуальное заполнение кода, где быстрые предложения улучшают рабочий процесс разработчика. Она также превосходна в быстрой творческой итерации, позволяя пользователям быстро исследовать многочисленные текстовые черновики. Кроме того, она революционизирует нелинейные генеративные задачи, обеспечивая мгновенные многотокеновые ответы, которые фундаментально меняют парадигмы взаимодействия с пользователем.

Часто задаваемые вопросы

Что такое DiffusionGemma?

Новая модель генерации текста от Google DeepMind, которая использует диффузионные методы, аналогичные генераторам изображений ИИ, для создания текста на очень высоких скоростях, потенциально превышающих 1000 токенов в секунду.

Чем DiffusionGemma быстрее традиционных LLM?

Она генерирует сотни токенов одновременно в параллельных «проходах», а не по одному (авторегрессивно). Это переводит процесс из состояния ограничения по памяти (ожидание данных) в состояние ограничения по вычислениям (полное использование GPU).

Каков основной компромисс с DiffusionGemma?

Основной компромисс — это скорость в обмен на максимальное качество. Хотя она невероятно быстра, для задач, требующих максимально возможной точности и связности, стандартные авторегрессионные модели часто все еще превосходят ее.

Что такое равномерная диффузия состояния?

Это основная техника, используемая для применения «шума» к тексту для обучения. Вместо простого маскирования слов она заменяет реальные слова случайными, позволяя модели учиться исправлять и даже заменять свои собственные предыдущие предположения.

Found this useful? Share it.

For builders

Want Stork to write one of these about your product?

Send us a URL. We use the product, form a view, and publish what we actually think — in 8 languages, labeled Sponsored, with no copy approval on your side. That last part is what makes it worth quoting.

See how it works$500 · AI tools & software only

ИИ Google со скоростью 1000 токенов в секунду уже здесь