Кратко / Главное
Xiaomi только что запустила модель ИИ, которая генерирует более 1000 токенов в секунду на стандартных GPU, превосходя GPT-4. Этот прорыв в 'model-system codesign' может фундаментально изменить приложения ИИ реального времени.
Барьер в тысячу токенов преодолён
Xiaomi, в сотрудничестве с системным партнёром TileRT, представила модель MiMo V2.5 Pro UltraSpeed, ИИ с архитектурой Mixture-of-Experts (MoE) и 1 триллионом параметров. Этот новый участник превосходит предыдущие бенчмарки по скорости инференса больших языковых моделей. Его главное заявление: генерация текста со скоростью более 1000 токенов в секунду, при этом некоторые демонстрации достигают пика около 1200 TPS.
Для сравнения, современные передовые модели, такие как GPT-4 или Claude 4 Opus, обычно выдают около 50-60 токенов в секунду. Это часто приводит к заметным задержкам в рассуждениях при выполнении сложных задач. Производительность MiMo V2.5 Pro UltraSpeed представляет собой ошеломляющее 15-20-кратное увеличение, скачок на порядок, который фундаментально переопределяет практические пределы взаимодействия и возможностей ИИ в реальном времени.
Что делает это достижение особенно прорывным, так это его удивительно скромные аппаратные требования. Вместо того чтобы полагаться на специализированные, заказные чипы или массивные центры обработки данных, этот триллион-параметрический гигант эффективно работает на стандартной, легкодоступной инфраструктуре. Он работает на одном сервере, оснащенном всего восемью commodity GPUs, демонстрируя беспрецедентный уровень совместного проектирования модели и системы, а также оптимизации для широкого развертывания.
Внутри трёхслойного стека скорости
MiMo V2.5 Pro UltraSpeed от Xiaomi достигает своей ошеломляющей скорости в 1000+ токенов в секунду благодаря «экстремальному совместному проектированию модели и системы», атакуя задержки с трёх синхронизированных сторон. Первый уровень решает проблему пропускной способности памяти, критического узкого места для модели Mixture-of-Experts с 1 триллионом параметров. Xiaomi применила MXFP4 Quantization, сжимая параметры MoE Expert до 4 бит. Это значительно снизило нагрузку на память, в то время как Quantization-Aware Training (QAT) сохранил почти идентичную точность модели, поддерживая более высокую точность в основных маршрутизирующих слоях.
Во-вторых, модель радикально изменила предсказание токенов с помощью DFlash speculative decoding. В отличие от стандартных методов, которые угадывают токены по одному, DFlash предсказывает целый блок скрытых токенов одновременно с помощью параллельного прямого прохода. Это позволяет модели совершать «масштабные прыжки вперёд на восемь токенов». Для задач кодирования основная модель принимает в среднем 6,3 из каждых восьми токенов, предсказанных DFlash, что значительно ускоряет вывод.
Наконец, третий уровень устраняет паузы на уровне микросекунд, присущие выполнению на GPU. TileRT, системный партнёр Xiaomi, разработал persistent GPU kernel runtime, который остаётся резидентным на GPU. Используя специализацию варпов, он назначает постоянные роли аппаратным секциям, обеспечивая одновременное перемещение данных, вычисления и связь. Это гарантирует, что конвейер выполнения буквально никогда не останавливается, поддерживая непрерывный импульс для беспрецедентной скорости.
Реальные тесты: ошеломляющая скорость, хрупкий код
MiMo V2.5 Pro UltraSpeed от Xiaomi демонстрирует поразительную необработанную пропускную способность в контролируемых тестах. Сложная задача LeetCode показала, что модель Mixture-of-Experts достигла пика в поразительные 3451 токен в секунду, генерируя сложный код со скоростью, ранее неслыханной для модели с 1 триллионом параметров. В другом впечатляющем примере она быстро создала функциональную игру на Three.js менее чем за минуту, демонстрируя свою способность преобразовывать запросы в работающие приложения с замечательной скоростью.
Однако эта ошеломляющая скорость часто сопровождается существенными оговорками. При решении более сложных, многоэтапных задач MiMo V2.5 Pro UltraSpeed часто демонстрировал критические сбои. Например, попытки сгенерировать всеобъемлющую веб-страницу с объяснением математики в стиле Khan Academy приводили к зависанию вывода и полной потере контекста, полностью останавливая генерацию всего через пару минут. Даже в упрощенном виде полученный код часто содержал неработающую функциональность: только начальные разделы работали надежно, в то время как более поздние компоненты оставались нефункциональными или пустыми.
MiMo V2.5 Pro UltraSpeed явно отдает приоритет чистой скорости генерации, представляя собой уникальное инженерное достижение в пропускной способности токенов. Хотя его производительность в узких, высокоскоростных задачах кодирования не имеет себе равных, его общие возможности и надежность пока не могут сравниться с тонким пониманием или стабильным результатом передовых моделей, таких как Claude Opus или GPT-4. Этот компромисс подчеркивает расходящийся путь в развитии ИИ, фокусируясь на скорости, а не на устойчивом, сложном рассуждении. Для тех, кто интересуется базовой архитектурой и ее производительностью, более подробная информация доступна на Xiaomi MiMo Home.
Почему 'Model-System Codesign' меняет правила игры
В своей основе ошеломляющая скорость MiMo V2.5 Pro UltraSpeed проистекает из extreme model-system codesign. Эта философия включает тщательную одновременную оптимизацию архитектуры модели и базовой аппаратной среды выполнения, извлекая максимальную производительность из каждого компонента. Именно так Xiaomi заставила модель Mixture-of-Experts с 1 триллионом параметров генерировать текст со скоростью в микросекунды на стандартном оборудовании.
Такой интегрированный подход принципиально бросает вызов рынку дорогих, специализированных ускорителей ИИ. Вместо заказного кремния Xiaomi и TileRT продемонстрировали этот беспрецедентный вывод более 1000 токенов в секунду на одном стандартном сервере, оснащенном восемью commodity GPUs. Это максимизирует потенциал существующего оборудования, демократизируя доступ к передовым возможностям ИИ за небольшую часть стоимости.
Получившаяся millisecond latency открывает новый класс приложений, ранее ограниченных теоретическими дискуссиями. К ним относятся: - Алгоритмы торговли в реальном времени, мгновенно реагирующие на изменения рынка - Автономные агенты кодирования, генерирующие готовый к производству код за считанные секунды - Системы мгновенного обнаружения мошенничества, работающие со скоростью транзакции, предотвращая потери до их возникновения
Этот сдвиг парадигмы предполагает, что будущие прорывы в области ИИ могут не зависеть исключительно от постоянно увеличивающихся, более специализированных чипов, а скорее от более умной, более эффективной интеграции по всему стеку системы.
Часто задаваемые вопросы
Что такое Xiaomi MiMo V2.5 Pro UltraSpeed?
Это модель ИИ Mixture-of-Experts с 1 триллионом параметров, разработанная Xiaomi и TileRT, способная генерировать текст со скоростью более 1000 токенов в секунду на стандартном, коммерческом оборудовании.
Как модель MiMo UltraSpeed достигает таких высоких скоростей?
Она использует трехкомпонентную стратегию под названием 'extreme model-system codesign': квантование MXFP4 для уменьшения использования памяти, спекулятивное декодирование DFlash для параллельного предсказания блоков токенов и постоянное ядро GPU TileRT для устранения задержек оборудования.
Какое оборудование требуется для запуска модели MiMo UltraSpeed?
Заявленные скорости были достигнуты на одном стандартном сервере, оснащенном восемью commodity GPUs, а не на специализированном или специально созданном оборудовании для ИИ.
Настолько ли модель MiMo UltraSpeed способна, как модели вроде GPT-4 или Claude Opus?
Хотя исключительно быстр, тесты показывают, что в настоящее время он имеет ограничения. Он может выдавать неполные или поврежденные результаты при выполнении сложных задач, что указывает на компромисс между чистой скоростью и возможностями рассуждения ведущих передовых моделей.
