Skip to content

Новый ИИ-мозг NVIDIA работает в 5 раз быстрее

NVIDIA только что выпустила Nemotron 3 Ultra — мощную открытую модель, разработанную как мозг для сложных ИИ-агентов. Ее уникальная архитектура обеспечивает 5-кратное увеличение скорости и сокращает затраты на выполнение задач на 30%, устанавливая новый стандарт для агентского ИИ.

Stork.AI
Hero image for: Новый ИИ-мозг NVIDIA работает в 5 раз быстрее

Кратко / Главное

NVIDIA только что выпустила Nemotron 3 Ultra — мощную открытую модель, разработанную как мозг для сложных ИИ-агентов. Ее уникальная архитектура обеспечивает 5-кратное увеличение скорости и сокращает затраты на выполнение задач на 30%, устанавливая новый стандарт для агентского ИИ.

Больше, чем просто еще одна большая модель

Nemotron 3 Ultra от NVIDIA — это не просто еще одна большая языковая модель для общего общения. Вместо этого, эта мощная новая открытая модель служит специализированным оркестратором для сложных, многоходовых ИИ-агентов. Она позволяет агентам планировать, динамически использовать инструменты и самокорректироваться в сложных рабочих процессах, решая «трудные задачи», такие как синтез противоречивых доказательств или проверка сложных конструкций чипов.

В основе ее возможностей лежит архитектура Mixture-of-Experts (MoE), включающая 550 миллиардов общих параметров, из которых только 55 миллиардов активны на токен во время инференса. Эта конструкция обеспечивает передовые рассуждения без непомерных вычислительных затрат, обычно связанных с плотными моделями сопоставимого качества. Она гарантирует высокий интеллект при значительно меньших вычислительных затратах.

Бенчмарки подчеркивают уникальное конкурентное преимущество Nemotron 3 Ultra. Она занимает «самый привлекательный квадрант» в таблице лидеров Artificial Analysis Intelligence Index, сочетая ведущую точность с значительно улучшенной эффективностью. Что особенно важно, модель достигает в 5 раз более высокой пропускной способности, чем другие открытые модели в своем классе, позволяя долго работающим агентам быстрее выполнять задачи, а также сокращая затраты на агентские задачи до 30%.

Архитектура скорости и точности

Основное нововведение Nemotron 3 Ultra заключается в ее гибридной архитектуре Mamba-Transformer. Слои Mamba эффективно управляют длинными контекстами, значительно улучшая эффективность последовательностей для обширных рабочих нагрузок за счет снижения затрат на внимание и уменьшения объема KV-кэша. Что особенно важно, традиционные слои Transformer сохраняются для обеспечения точного извлечения фактов, что является критическим балансом для сложных, многоходовых агентских задач, требующих как обширной памяти, так и точного извлечения данных.

NVIDIA интегрировала квантование NVFP4 и Multi-Token Prediction (MTP) для достижения прорывной скорости. Оптимизация NVFP4 позволяет запускать единый чекпойнт модели на GPU NVIDIA Ampere, Hopper и Blackwell, обеспечивая до 5 раз более высокую пропускную способность на GPU по сравнению с BF16 на Blackwell и сокращая объем памяти весов примерно в 3,3 раза. MTP дополнительно увеличивает скорость генерации, предсказывая несколько будущих токенов за один прямой проход, улучшая пропускную способность для длинных выходных данных и многоходовых рабочих процессов за счет нативного спекулятивного декодирования.

LatentMoE служит интеллектуальным контроллером трафика модели, направляя задачи наиболее подходящим специализированным экспертам внутри модели с 550 миллиардами параметров. В отличие от наивных подходов Mixture-of-Experts, LatentMoE направляет токены на основе латентного представления, а не сырых эмбеддингов, что снижает проблемы коллапса маршрутизации. Эта интеллектуальная маршрутизация значительно улучшает универсальность Nemotron 3 Ultra в сложных задачах, включая изощренное кодирование, сложное рассуждение и точное использование инструментов.

Как обучить специализированного гения

Nemotron 3 Ultra достигает своего специализированного гения благодаря инновационному методу обучения: Multi-Teacher On-Policy Distillation (MOPD). Этот процесс включает обучение модели-ученика на основе разнообразного ансамбля из более чем десяти специализированных моделей-«учителей». Каждый учитель обладает экспертными знаниями в определенной области, от сложного рассуждения до использования инструментов, эффективно создавая высококвалифицированную, многогранную команду наставников. Модель-ученик генерирует ответы, которые затем оцениваются этими экспертными учителями, предоставляющими плотную, целенаправленную обратную связь.

Приверженность NVIDIA прозрачности значительно повышает привлекательность Nemotron 3 Ultra для корпоративных и суверенных инициатив в области ИИ. Открыто выпуская свои конвейеры обучающих данных и среды Reinforcement Learning (RL), NVIDIA предлагает беспрецедентную прослеживаемость и контроль. Этот уровень открытости имеет решающее значение для организаций, которым требуется глубокое понимание и возможность аудита своих систем ИИ, что обеспечивает соответствие требованиям и надежность. Для тех, кто хочет глубже изучить возможности таких передовых систем, дополнительная информация доступна на AI Agents: Built to Reason, Plan, Act - NVIDIA.

MOPD позволяет модели-ученику непрерывно развиваться вместе со своими учителями, способствуя глубокой специализации и улучшению в нескольких областях одновременно. Эта динамичная среда обучения позволяет Nemotron 3 Ultra эффективно совершенствовать свои рассуждения и агентные возможности, адаптируясь и преуспевая в разнообразных, сложных задачах. Итеративная петля обратной связи гарантирует постоянное обновление и оптимизацию базы знаний и набора навыков модели, что обеспечивает ее превосходную производительность.

Реальное влияние на разработчиков

Nemotron 3 Ultra напрямую обеспечивает ощутимые преимущества для разработчиков. Он значительно снижает затраты на выполнение задач до 30% в таких бенчмарках, как SWE-Bench и Terminal-Bench 2.0, делая длительные агентные рабочие процессы экономически выгодными. Эта эффективность позволяет разработчикам быстрее итерировать сложные агентные проекты и развертывать передовой интеллект локально, удовлетворяя критически важные требования к конфиденциальности и безопасности данных для чувствительных корпоративных приложений.

NVIDIA позиционирует Nemotron 3 Ultra как интеллектуальное ядро всей агентной стека, а не просто отдельную модель. Он глубоко интегрируется с надежными библиотеками NeMo от NVIDIA, обеспечивая упрощенную настройку и развертывание модели. Кроме того, его синергия с Hermes Agent и безопасной средой выполнения OpenShell предоставляет полную основу для разработки, оркестрации и выполнения сложных многоходовых ИИ-агентов, обеспечивая надежную и безопасную работу.

Этот выпуск подчеркивает стратегическое видение NVIDIA: использование ее беспрецедентного доминирования в аппаратном обеспечении для создания открытого, высокопроизводительного программного стека для следующей волны ИИ. Nemotron 3 Ultra напрямую бросает вызов гегемонии проприетарных, закрытых моделей и поднимает планку для других лидеров открытого исходного кода. NVIDIA агрессивно позиционирует себя как незаменимую платформу для разработки агентного ИИ, предлагая прозрачность и мощь для стимулирования инноваций.

Часто задаваемые вопросы

Что такое NVIDIA Nemotron 3 Ultra?

Nemotron 3 Ultra — это языковая модель Mixture-of-Experts (MoE) с открытым весом и 550 миллиардами параметров от NVIDIA. Она специально разработана для выполнения функций оркестратора сложных, длительных рабочих процессов ИИ-агентов, сочетая передовые рассуждения с высокоскоростной и эффективной производительностью.

Чем Nemotron 3 Ultra отличается от других больших моделей?

В отличие от чат-ботов общего назначения, Nemotron 3 Ultra оптимизирован для агентных задач. Его ключевые отличия включают гибридную архитектуру Mamba-Transformer для эффективности при длинном контексте, квантование NVFP4 для скорости и уникальный метод обучения Multi-Teacher On-Policy Distillation (MOPD) для специализированных рассуждений.

Что делает Nemotron 3 Ultra таким быстрым и эффективным?

Его эффективность обусловлена несколькими инновациями. Дизайн MoE использует только 55B из 550B параметров на токен. Квантование NVFP4 обеспечивает в 5 раз более высокую пропускную способность на GPU NVIDIA. Наконец, по результатам бенчмарков, он выполняет агентные задачи, используя до 30% меньше токенов, что напрямую снижает вычислительные затраты.

Является ли Nemotron 3 Ultra открытым исходным кодом?

Да, NVIDIA выпустила Nemotron 3 Ultra как полностью открытую модель. Это включает веса модели, конвейеры обучающих данных и рецепты под разрешительной лицензией, что крайне важно для предприятий, которым требуется происхождение данных и возможность настройки.

One weekly email of tools worth shipping. No drip funnel.

one email per week · unsubscribe in two clicks · no third-party tracking

🚀Узнать больше

Будьте в курсе трендов ИИ

Откройте лучшие инструменты ИИ, агенты и MCP-серверы от Stork.AI.

P.S. Сделали что-то полезное? Опубликуйте на Stork

Все статьи