NVIDIA Nemotron 3 Ultra: より速く、より安価なエージェントのためのAIモデル

単なる大規模モデル以上のもの

NVIDIAのNemotron 3 Ultraは、一般的な会話のための単なる大規模言語モデルではありません。むしろ、この強力な新しいオープンモデルは、複雑なマルチターンAIエージェントのための専門的なオーケストレーターとして機能します。矛盾する証拠の統合や複雑なチップ設計の検証といった「困難な判断」に対処するため、エージェントが計画を立て、ツールを動的に使用し、複雑なワークフロー全体で自己修正する能力を強化します。

その能力を支えるのは、Mixture-of-Experts (MoE) アーキテクチャであり、合計5500億のパラメータを持ち、推論時にはトークンあたりわずか550億がアクティブになります。この設計は、同等の品質の密なモデルに通常伴う壊滅的な計算コストなしに、最先端の推論を提供します。これにより、計算フットプリントのごく一部で高い知能が保証されます。

ベンチマークは、Nemotron 3 Ultraの独自の競争優位性を強調しています。Artificial Analysis Intelligence Indexのリーダーボードで「最も魅力的な象限」を占め、最高の精度と劇的に改善された効率性を兼ね備えています。決定的に重要なのは、このモデルが同クラスの他のオープンモデルよりも5倍高いスループットを達成し、長期間実行されるエージェントがタスクをより速く完了できるようにするとともに、エージェントタスクのコストを最大30%削減することです。

速度と精度のアーキテクチャ

Nemotron 3 Ultraの核となる革新は、そのHybrid Mamba-Transformerアーキテクチャにあります。Mamba layersは長いコンテキストを効率的に管理し、アテンションコストとKVキャッシュフットプリントを削減することで、広範なワークロードにおけるシーケンス効率を劇的に向上させます。決定的に重要なのは、正確な事実の想起を維持するために従来のTransformer layersが保持されていることです。これは、広範なメモリと正確なデータ検索の両方を要求する複雑なマルチターンエージェントタスクにとって重要なバランスです。

NVIDIAは、画期的な速度のためにNVFP4 quantizationとMulti-Token Prediction (MTP) を統合しました。NVFP4最適化により、単一のモデルチェックポイントをNVIDIA Ampere、Hopper、Blackwell GPUsで実行でき、Blackwell上のBF16と比較してGPUあたり最大5倍高いスループットを実現し、ウェイトメモリを約3.3倍削減します。MTPは、単一のフォワードパスで複数の将来のトークンを予測することで生成速度をさらに向上させ、ネイティブの投機的デコーディングを通じて長い出力やマルチターンワークフローのスループットを改善します。

LatentMoEは、モデルのインテリジェントなトラフィックコントローラーとして機能し、5500億パラメータモデル内の最も適切な専門エキスパートにタスクをルーティングします。素朴なMixture-of-Expertsアプローチとは異なり、LatentMoEは生の埋め込みではなく潜在表現に基づいてトークンを指示し、ルーティング崩壊の問題を軽減します。このスマートルーティングは、高度なコーディング、複雑な推論、正確なツール使用を含む要求の厳しいタスク全体でNemotron 3 Ultraの汎用性を大幅に向上させます。

専門的な天才を育成する方法

Nemotron 3 Ultraは、革新的なトレーニング方法であるMulti-Teacher On-Policy Distillation (MOPD) を通じて、その専門的な天才性を実現します。このプロセスでは、学生モデルが10以上の専門的な「教師」モデルの多様なアンサンブルから学習します。各教師は、複雑な推論からツール利用まで、ドメイン固有の専門知識を持っており、知識豊富で多面的なメンターチームを効果的に形成します。学生モデルが応答を生成し、これらの専門教師がそれを評価し、密度の高い的を絞ったフィードバックを提供します。

NVIDIAの透明性へのコミットメントは、エンタープライズおよびソブリンAIイニシアチブにおけるNemotron 3 Ultraの魅力を大幅に高めます。トレーニングデータパイプラインとReinforcement Learning (RL) 環境を公開することで、NVIDIAは前例のない来歴と制御を提供します。このレベルのオープン性は、AIシステムの深い理解と監査可能性を必要とする組織にとって不可欠であり、コンプライアンスと信頼性を確保します。このような高度なシステムの機能についてさらに深く掘り下げたい場合は、AI Agents: Built to Reason, Plan, Act - NVIDIAで詳細情報をご覧いただけます。

MOPDは、学生モデルが教師モデルと継続的に共進化することを可能にし、複数のドメインで同時に深い専門化と改善を促進します。この動的な学習環境により、Nemotron 3 Ultraは推論能力とエージェント能力を効率的に洗練させ、多様で複雑なタスクに適応し、優れた性能を発揮します。反復的なフィードバックループにより、モデルの知識ベースとスキルセットは常に更新および最適化され、その優れたパフォーマンスを推進します。

開発者にとっての現実世界への影響

Nemotron 3 Ultraは、開発者にとって直接的な具体的なメリットをもたらします。SWE-BenchやTerminal-Bench 2.0などのベンチマークにおいて、タスク完了コストを最大30%削減し、長期間にわたるエージェントワークフローを経済的に実行可能にします。この効率性により、開発者は複雑なエージェント設計をより迅速に反復し、最先端に近いインテリジェンスをオンプレミスで展開できるようになり、機密性の高いエンタープライズアプリケーションにおける重要なデータプライバシーとセキュリティ要件に対応します。

この記事が気に入ったら、毎朝同じようなものをメールで受け取れます。

1日1通 · 2クリックで解除 · サードパーティのトラッキングなし

NVIDIAは、Nemotron 3 Ultraを単なるスタンドアロンモデルではなく、エージェントスタック全体のインテリジェントな核として位置付けています。NVIDIAの堅牢なNeMo librariesと深く統合されており、モデルのカスタマイズと展開を効率化します。さらに、Hermes AgentとセキュアなOpenShellランタイムとの相乗効果により、洗練された多段階のAIエージェントを開発、オーケストレーション、実行するための完全なフレームワークを提供し、信頼性と安全な運用を保証します。

このリリースは、NVIDIAの戦略的ビジョンを強調しています。それは、比類のないハードウェアの優位性を活用して、次世代AIのためのオープンで高性能なソフトウェアスタックを構築することです。Nemotron 3 Ultraは、プロプライエタリなクローズドモデルの覇権に直接挑戦し、他のオープンソースリーダーの基準を引き上げます。NVIDIAは、エージェントAI開発に不可欠なプラットフォームとして積極的に自らを位置付け、イノベーションを推進するための透明性とパワーを提供しています。

よくある質問

NVIDIA Nemotron 3 Ultraとは何ですか？

Nemotron 3 Ultraは、NVIDIAが提供する550B-parameterのオープンウェイトMixture-of-Experts (MoE) 言語モデルです。複雑で長期間にわたるAIエージェントワークフローのオーケストレーターとして機能するように特別に設計されており、最先端の推論と高速で効率的なパフォーマンスのバランスを取ります。

Nemotron 3 Ultraは他の大規模モデルとどう違うのですか？

汎用チャットボットとは異なり、Nemotron 3 Ultraはエージェントタスクに最適化されています。その主な差別化要因には、長文コンテキスト効率のためのハイブリッドMamba-Transformerアーキテクチャ、速度のためのNVFP4量子化、そして専門的な推論のための独自のMulti-Teacher On-Policy Distillation (MOPD) トレーニング方法が含まれます。

Nemotron 3 Ultraはなぜこれほど高速で効率的なのですか？

その効率性はいくつかの革新から生まれています。MoE設計では、550Bパラメータのうちトークンあたり55Bのみを使用します。NVFP4量子化により、NVIDIA GPUsで5倍高いスループットが可能になります。最後に、エージェントタスクを最大30%少ないトークンで完了することがベンチマークで示されており、計算コストを直接削減します。

Nemotron 3 Ultraはオープンソースですか？

はい、NVIDIAはNemotron 3 Ultraを完全にオープンなモデルとしてリリースしました。これには、モデルの重み、トレーニングデータパイプライン、およびレシピが寛容なライセンスの下で含まれており、データの出所とカスタマイズ性を必要とする企業にとって極めて重要です。

Found this useful? Share it.

For builders

Want Stork to write one of these about your product?

Send us a URL. We use the product, form a view, and publish what we actually think — in 8 languages, labeled Sponsored, with no copy approval on your side. That last part is what makes it worth quoting.

See how it works$500 · AI tools & software only

NVIDIAの新しいAIブレインが5倍高速に動作