Skip to content

ИИ Google со скоростью 1000 токенов в секунду уже здесь

DiffusionGemma от Google переписывает правила генерации текста, используя методы диффузии изображений для достижения скорости более 1000 токенов в секунду. Этот радикальный сдвиг от архитектуры, ограниченной памятью, к архитектуре, ограниченной вычислениями, открывает новый класс мгновенного, интерактивного локального ИИ.

Theo Brandt
Hero image for: ИИ Google со скоростью 1000 токенов в секунду уже здесь

Кратко / Главное

DiffusionGemma от Google переписывает правила генерации текста, используя методы диффузии изображений для достижения скорости более 1000 токенов в секунду. Этот радикальный сдвиг от архитектуры, ограниченной памятью, к архитектуре, ограниченной вычислениями, открывает новый класс мгновенного, интерактивного локального ИИ.

Почему ваш локальный LLM в основном простаивает

Большинство больших языковых моделей (LLM) работают по авторегрессивному принципу, генерируя текст по одному токену за раз, слева направо. Этот последовательный процесс означает, что модель пишет слово, затем оценивает все написанное, чтобы предсказать следующее. Для коммерческих серверов эта неэффективность смягчается путем объединения сотен пользователей в пакеты, загружая веса модели один раз для одновременного обслуживания 256 пользователей.

Однако локальные развертывания LLM сталкиваются со значительным узким местом: они ограничены памятью. Локальный GPU тратит большую часть своего рабочего времени на ожидание загрузки весов модели из памяти, а не на активные вычисления. Он загружает массивную часть весов, выполняет минутное вычисление для одного токена, затем простаивает, прежде чем повторить цикл для следующего токена, оставляя дорогостоящее оборудование в значительной степени недоиспользованным.

DiffusionGemma от Google DeepMind представляет радикально иную парадигму для преодоления этого. Вместо традиционного подхода «один токен для 256 пользователей» DiffusionGemma генерирует 256 токенов для одного пользователя, все сразу, начиная с холста из случайных токенов-заполнителей, или «шума». Затем он одновременно уточняет все позиции в связный текст, обеспечивая GPU значительной вычислительной нагрузкой, которая переводит его из состояния, ограниченного памятью, в состояние, ограниченное вычислениями, теоретически открывая скорости более 1000 токенов в секунду.

Заимствуя прием из ИИ для изображений

Вместо последовательной генерации текста DiffusionGemma заимствует прием из ИИ для изображений: он начинает с холста из случайных токенов-заполнителей, по сути, «шума». Подобно тому, как модель диффузии изображений уточняет шумные пиксели в связную картину, DiffusionGemma итеративно преобразует этот текстовый шум в осмысленный вывод за несколько двунаправленных проходов. Эта параллельная обработка позволяет модели работать над всем выводом одновременно, что является радикально иным подходом по сравнению с генерацией по одному слову за раз.

Google DeepMind представила Uniform State Diffusion, чтобы применить эту концепцию к тексту. Здесь случайно замененные слова считаются «шумом». Во время обучения реальные слова заменяются случайными, и модель учится идентифицировать и исправлять эти искажения. Этот метод обеспечивает важнейшую возможность: модель может переоценивать и изменять любой токен на холсте в любой момент процесса генерации.

Это резко контрастирует с более простыми методами, такими как Masked Diffusion, где токены просто заменяются пустыми местами. Masked Diffusion страдает от значительного ограничения: как только модель фиксирует токен, он становится постоянно заблокированным, подобно жесткой генерации авторегрессивных моделей слева направо. Uniform State Diffusion преодолевает это, всегда удерживая токен в каждой позиции, что позволяет модели самокорректироваться, заменяя даже ранее принятые слова, если они больше не соответствуют развивающемуся контексту.

Архитектура мгновенного текста

DiffusionGemma использует инновационную архитектуру Encode-Denoise Patch, построенную на базе существующей модели Gemma 4 с 26 миллиардами параметров. Эта конструкция динамически переключается между двумя режимами работы: режимом кодировщика для интерпретации запроса пользователя, извлечения контекста и указаний, и режимом шумоподавителя для уточнения текстового холста. Кодировщик заполняет KV-cache, передавая важную информацию непосредственно шумоподавителю.

Во время шумоподавления модель использует двунаправленное внимание, что позволяет ей «видеть» и обрабатывать все токены на своем «холсте» одновременно, независимо от их положения. Важно отметить, что она сохраняет все показатели достоверности (логиты) для каждого токена в каждой позиции на протяжении всех своих многочисленных проходов. Эта постоянная видимость и итеративная доработка, при которой предыдущие предположения информируют последующие исправления, являются основополагающими для ее способности к параллельной обработке. Для более глубокого изучения этой архитектуры см. DiffusionGemma - Google DeepMind.

Этот архитектурный сдвиг принципиально перестраивает вычислительное узкое место. В отличие от авторегрессионных моделей, которые часто ограничены памятью из-за последовательной генерации токенов, DiffusionGemma постоянно поддерживает активность GPU. Обрабатывая сотни токенов параллельно, модель переходит от ограничения по памяти к ограничению по вычислениям, раскрывая огромную вычислительную мощность современных GPU и достигая скорости генерации, превышающей 1000 токенов в секунду.

Скорость против качества: Проверка реальностью

Реальное развертывание DiffusionGemma демонстрирует убедительный профиль производительности. Бенчмарки, проведенные на H100 GPU, показали впечатляющие скорости, постоянно достигая около 700 токенов в секунду. Хотя это не совсем достигло теоретических 1000+ токенов в секунду, предсказанных для архитектуры, это все же представляет собой радикальный скачок по сравнению с темпом «один токен за раз» традиционных авторегрессионных моделей.

Этот прорыв в скорости приводит к явному операционному компромиссу. DiffusionGemma разработана для сценариев, требующих критической скорости, где быстрая выдача результата перевешивает стремление к абсолютному текстовому совершенству. И наоборот, стандартные авторегрессионные модели, с их последовательной генерацией и тщательной доработкой, продолжают оставаться предпочтительным выбором для задач, требующих максимального качества и связности вывода.

Следовательно, DiffusionGemma находит свое идеальное применение в сценариях, где низкая задержка имеет первостепенное значение. Это включает такие задачи, как интеллектуальное заполнение кода, где быстрые предложения улучшают рабочий процесс разработчика. Она также превосходна в быстрой творческой итерации, позволяя пользователям быстро исследовать многочисленные текстовые черновики. Кроме того, она революционизирует нелинейные генеративные задачи, обеспечивая мгновенные многотокеновые ответы, которые фундаментально меняют парадигмы взаимодействия с пользователем.

Часто задаваемые вопросы

Что такое DiffusionGemma?

Новая модель генерации текста от Google DeepMind, которая использует диффузионные методы, аналогичные генераторам изображений ИИ, для создания текста на очень высоких скоростях, потенциально превышающих 1000 токенов в секунду.

Чем DiffusionGemma быстрее традиционных LLM?

Она генерирует сотни токенов одновременно в параллельных «проходах», а не по одному (авторегрессивно). Это переводит процесс из состояния ограничения по памяти (ожидание данных) в состояние ограничения по вычислениям (полное использование GPU).

Каков основной компромисс с DiffusionGemma?

Основной компромисс — это скорость в обмен на максимальное качество. Хотя она невероятно быстра, для задач, требующих максимально возможной точности и связности, стандартные авторегрессионные модели часто все еще превосходят ее.

Что такое равномерная диффузия состояния?

Это основная техника, используемая для применения «шума» к тексту для обучения. Вместо простого маскирования слов она заменяет реальные слова случайными, позволяя модели учиться исправлять и даже заменять свои собственные предыдущие предположения.

Found this useful? Share it.

One short daily email of tools worth shipping. No drip funnel.

one email a day · unsubscribe in two clicks · no third-party tracking

🚀Узнать больше

Будьте в курсе трендов ИИ

Откройте лучшие инструменты ИИ, агенты и MCP-серверы от Stork.AI.

P.S. Сделали что-то полезное? Опубликуйте на Stork