DiffusionGemma: в 4 раза более быстрая модель параллельной генерации текста от Google

Конец ИИ-«печатной машинки»

Традиционные авторегрессионные Large Language Models обрабатывают текст подобно печатной машинке, генерируя один token за раз в строго последовательности слева направо. Эта последовательная, пословная генерация создает значительное узкое место в задержке, особенно для локального вывода, где запрос одного пользователя не может быть легко объединен в пакет. Следовательно, мощные выделенные GPUs часто остаются существенно недоиспользованными, проводя большую часть своего рабочего времени в ожидании следующего выходного token.

Экспериментальная открытая модель Google, DiffusionGemma, выпущенная 10 июня 2026 года исследователями Бренданом Донохью и Себастьяном Фленнерхагом, представляет собой радикальный отход от традиций. Она работает как печатный станок, одновременно составляя и итеративно уточняя целые абзацы из 256 токенов. Этот параллельный подход означает, что модель генерирует полный текстовый блок как «холст» за один прямой проход, а затем уточняет его за несколько шагов denoising steps, вместо того чтобы предсказывать токены по одному.

Этот метод фундаментально смещает узкое место вывода из операций, ограниченных пропускной способностью памяти, к задачам, ограниченным вычислениями. Предоставляя обрабатывающему блоку большую одновременную рабочую нагрузку, DiffusionGemma максимизирует использование оборудования, обеспечивая до 4 раз более быструю генерацию текста на выделенных GPUs. Этот архитектурный пересмотр — именно то, для чего созданы современные ускорители, что позволяет достигать беспрецедентной скорости для интерактивных локальных приложений ИИ.

Как она мыслит параллельно

DiffusionGemma переосмысливает генерацию текста как итеративный процесс уточнения, подобно тому, как модели диффузии изображений превращают статический шум в четкие изображения. Она начинается с «холста» из случайных токенов-заполнителей, по сути, текстового шума. За несколько проходов модель итеративно уточняет этот блок, преобразуя случайные токены в связный абзац из 256 токенов. Эта параллельная, а не последовательная обработка, обеспечивает ее скорость.

Что особенно важно, DiffusionGemma использует двунаправленное внимание. Каждый token в сгенерированном блоке одновременно учитывает все другие токены, как предшествующие, так и последующие. Этот всеобъемлющий взгляд обеспечивает интеллектуальную самокоррекцию: модель оценивает весь текстовый блок сразу, выявляя и устраняя несоответствия в реальном времени. Эта возможность оказывается бесценной для сложных, нелинейных структур или встроенного редактирования.

В основе этого нового подхода лежит эффективная архитектура Mixture of Experts (MoE) с 26 миллиардами параметров. Хотя модель имеет в общей сложности 26 миллиардов параметров, во время вывода она активирует только около 4 миллиардов параметров. Эта разреженная активация позволяет DiffusionGemma комфортно вписываться в ограничения VRAM многих высокопроизводительных потребительских GPUs, делая быстрое локальное выполнение более доступным.

Скорость против интеллекта: реальный компромисс

DiffusionGemma от Google значительно ускоряет генерацию текста. На NVIDIA H100 она достигает более 1000 токенов в секунду, что резко контрастирует с привычным временем ожидания для последовательных авторегрессионных моделей, которые печатают по одному слову за раз. Эта параллельная обработка гораздо эффективнее использует локальные GPUs, предлагая разработчикам увеличение скорости до 4 раз.

Однако эта скорость сопряжена с прагматичным компромиссом. Google прямо заявляет, что общее качество вывода DiffusionGemma ниже, чем у ее стандартных аналогов Gemma 4, что делает ее менее фактически точной для критически важных задач. Для приложений, требующих максимального качества и точности, разработчикам следует продолжать использовать стандартную Gemma 4.

Когда этот компромисс становится явной победой? DiffusionGemma превосходно проявляет себя в сценариях, где быстрая итерация и минимальная задержка имеют первостепенное значение. Его сильные стороны проявляются в интерактивных помощниках по коду (code copilots), где немедленные предложения критически важны, в быстрой разработке контента для оперативного генерирования идей, а также в различных локальных приложениях, чувствительных к задержкам. Для получения более подробной технической информации об этой экспериментальной модели обратитесь к DiffusionGemma - Google DeepMind. Его лицензия Apache 2.0 дополнительно стимулирует исследования в этих критически важных для скорости рабочих процессах.

Нравится статья? Получайте такие каждое утро на почту.

одно письмо в день · отписка в два клика · без сторонних трекеров

Новый рубеж для локального ИИ

DiffusionGemma специально оптимизирована для локальных рабочих нагрузок с низкой конкуренцией, что является стратегическим решением. В отличие от этого, облачные среды с высоким QPS (запросов в секунду) используют эффективное пакетирование для насыщения вычислений авторегрессионными моделями. Параллельное декодирование DiffusionGemma дает убывающую отдачу и может привести к более высоким затратам на обслуживание в таких сценариях; его преимущество в пропускной способности проявляется наиболее сильно при малых и средних размерах пакетов на одном ускорителе.

Доступность для разработчиков является ключевым преимуществом. Модель Mixture of Experts (MoE) с 26 миллиардами параметров, активирующая только 3,8 миллиарда параметров во время инференса, комфортно вписывается в пределы 18 ГБ VRAM высокопроизводительных специализированных потребительских графических процессоров при квантовании. Разработчики могут интегрировать DiffusionGemma, используя ключевые инструменты, такие как vLLM, Unsloth для тонкой настройки и NVIDIA NeMo, демократизируя доступ к этой инновационной архитектуре.

В конечном итоге, DiffusionGemma представляет собой нечто большее, чем просто более быструю модель; она служит успешным доказательством концепции для новаторской парадигмы генерации текста. Этот переход от последовательного «ИИ-пишущей машинки» к параллельной генерации «печатного станка» открывает новые горизонты для гибких, отзывчивых приложений ИИ. Работа Брендана О'Донохью и Себастьяна Фленнерхага предвещает будущее, где локальный вывод ИИ будет ощущаться мгновенным и по-настоящему интерактивным.

Часто задаваемые вопросы

Что делает DiffusionGemma намного быстрее других моделей?

Вместо того чтобы генерировать текст токен за токеном, как традиционные модели, DiffusionGemma генерирует целые блоки по 256 токенов параллельно, используя метод текстовой диффузии. Это полностью использует вычислительную мощность современных графических процессоров, значительно увеличивая пропускную способность для локального использования.

Лучше ли DiffusionGemma, чем стандартная модель Gemma 4?

Не для каждой задачи. Она значительно быстрее, но ее общее качество вывода ниже. Google рекомендует стандартную Gemma 4 для производственных приложений, требующих максимального качества, и DiffusionGemma для критически важных по скорости интерактивных рабочих процессов.

Каковы лучшие варианты использования DiffusionGemma?

Она превосходно проявляет себя в локальных сценариях с низкой задержкой, таких как автодополнение кода в реальном времени, встроенное редактирование и генерация нелинейных структур, таких как головоломки Судоку или математические графы, где ее двунаправленное внимание обеспечивает ключевое преимущество.

Могу ли я запустить DiffusionGemma на своем персональном компьютере?

Да, если у вас есть высокопроизводительный потребительский графический процессор. Квантованная версия модели может поместиться в 18 ГБ VRAM, что делает ее доступной на таких картах, как NVIDIA GeForce RTX 4090 и 5090, для локальной разработки и экспериментов.

Found this useful? Share it.

For builders

Want Stork to write one of these about your product?

Send us a URL. We use the product, form a view, and publish what we actually think — in 8 languages, labeled Sponsored, with no copy approval on your side. That last part is what makes it worth quoting.

See how it works$500 · AI tools & software only

Новый ИИ Google мыслит абзацами, а не словами