DeepSeek V3.2: GPT-5を数学で打ち負かしたオープンソースAI

💡

TL;DR / Key Takeaways

オープンソースのAIが、かつてOpenAIやGoogleのような大手にしかできなかった偉業を達成しました。DeepSeekの新しいモデルが、開発者やAIエージェントにとってゲームチェンジャーとなる理由をご紹介します。

世界を揺るがしたオープンソースの一発

DeepSeekの瞬間と呼んでください：オープンソースのラボが、トリリオンダラーの大企業が何年も狙っていたことを成し遂げました。DeepSeek V3.2-Specialeeは、V3.2ファミリーの新しいバリエーションで論理的推論を最大限に発揮したもので、国際数学オリンピック（IMO）で初めて金メダルを獲得したオープンソースモデルとなりました。「IMOスタイルのベンチマーク」や「オリンピックのような問題」ではなく、2025年のIMO課題で実際の金メダル相当のパフォーマンスを達成しました。

その結果、DeepSeekは、GPT-5 HighやGemini 3.0 Proなどのクローズドシステム専用の階層に進出しました。マシュー・バーマンの解析によれば、GPT-5 Highは94.6、Gemini 3.0 Proは95を記録し、DeepSeek V3.2-Specialee は96でリードしていますが、はるかに多くのトークンを消費しています。生の能力は、クローンできるリポジトリから得られるものであり、待機リストやNDAに守られたブラックボックスAPIではありません。

10年間、その物語は固まっていった。独自のデータやカスタムシリコン、数十億ドルのトレーニングコストを持つOpenAIやAnthropic、Google DeepMindのような企業だけが最前線に到達できるというものだった。しかし、DeepSeekはその物語に明らかな亀裂をもたらした。このモデルは完全にオープンな重みを持ち、MITライセンスのもとで提供され、報告されているそれらの研究所が費やすコンピューティング予算の一部でトレーニングされた。

ここでの民主化は流行語ではなく、実行可能なコードです。研究者は、V3.2-Specialeeをニッチな数学分野、国のカリキュラム、または研究用の定理データセットに微調整することができ、企業アクセスを懇願することなく行えます。スタートアップはその推論を製品に組み込み、教育、形式的検証、金融モデリングなどをグローバルに提供し、トークンごとのロックインなしに出荷することができます。

このレベルのアクセスは、誰が最前線を押し広げるかを変えます。高校の数学サークルは、今や国際数学オリンピック（IMO）を通過した最新の最先端の推論エンジンを運用し、新しい問題スタイルをテストし、自らのベンチマークを発表することができるようになりました。大学の研究室はそのモデルを計測し、失敗を探り、新たなトレーニングレジームを提案することができ、これは封印された商業システムでは不可能だったことです。

象徴的なシフトは、リーダーボードの上昇よりも重要かもしれません。金メダルのIMOモデルは、もはや「トップシークレット、クローズド、集中型」とは限りません。今や「オープン、フォーク可能、自己ホスティング可能」を含み、フロンティアモデルの定義と次のモデルを構築する権利を再定義しています。

新しいチャンピオンのベンチマーキング

ベンチマーキングは厳しいものから始まります：オリンピックレベルの数学と対抗的なQ&Aです。国際数学オリンピック（IMO） 2025の問題を内部で再現した際、DeepSeek V3.2 Specialeeは金メダルに相当するパフォーマンスを発揮し、オリンピックスタイルの証明や多段階の幾何学を解決しました。このレベルは以前はGPT-5 HighやGemini 3.0 Proのような閉じたモデルを必要としていました。GPQA Diamond、最も難しい公的な科学的推論ベンチマークで、Specialeeは85.7を達成し、GPT-5 Highに並び、Gemini 3.0 Proの91.9には及びませんでしたが、完全にオープンなモデルとして達成しました。

推論は数学や物理学だけではありません。生成されたコードを隠された単体テストに対して実行するLive Codebenchでは、DeepSeekのラインナップは次のようになります：通常のV3.2「思考」モデルは83.3、GPT-5 Highは84.5、そしてV3.2 Specialeeは重厚な88.7です。この差は重要です。なぜなら、Live Codebenchは幻覚的なAPIやオフバイワンのロジックを罰し、モデルが実際に動作するコードを出荷できるかどうかを明らかにするからです。ただ話すだけではありません。

AMIE 2025は、複合的エージェント的推論のベンチマークであり、DeepSeekがその位置を確立しています。DeepSeek V3.2 Specialeeは96点を獲得し、GPT-5 Highの94.6点やGemini 3.0 Proの95点を上回っています。AMIEはマルチホップ計画、ツール呼び出し、長期タスクを連結しているため、上位での約1〜1.5ポイントのリードは、デッドエンドの計画が少なくなり、人間の救助なしで完了するタスクが増えることを意味します。

Specialeeは、トークンでこれらの勝利を獲得します。ベンチマークグラフは、Specialeeが通常のV3.2モデルの2～3倍のトークンをクエリごとに使用することが多く、GPT-5 HighやGemini 3.0 Proよりも明らかに多いことを示す括弧内のトークン数を示しています。DeepSeekは基本的に、思考の連鎖の冗長性と内部のスクラッチパッドの使用を強化し、「エージェント優先」の設定の下で最大の正確性を得るためにトークン効率を犠牲にしています。

そのトレードオフは、導入方法に影響を与えます。高リスクのワークロード—自動定理証明、複数の旅程を扱うエージェント、500ページの契約にわたるコンプライアンス分析—において、Specialeeの追加トークンは微妙なエラーを減少させ、より信頼性のある段階的推論を実現します。日常のチャット、要約、または軽いコーディングには、通常のV3.2モデルがGPT-5 HighやGemini 3.0 Proと比較して品質が近く、はるかに少ないトークンで済むため、経済的なデフォルトとなり、Specialeeは絶対に正しい必要がある場合に呼び込むヘビー級の選択肢となります。

秘訣：『注意』の再発明

注意は以前はトランスフォーマーのスケールアップする部分であり、再考されることはありませんでした。DeepSeek V3.2は、DeepSeek Sparse Attention (DSA)を導入し、単にGPUを増やすのではなく、現代のLLMにおける根本的なボトルネックに取り組む新しい注意メカニズムです。

従来の注意機構は、シーケンス内のトークンのペアごとに計算コストを支払います。コンテキストの長さがLの場合、モデルはおおよそL × Lのペアに対して注意スコアを計算し、これは数学的にO(L²)の複雑さとして表現されます。コンテキストを倍増させると、FLOPs、メモリ、レイテンシーのコストが4倍になります。

長文コンテキストモデルにおいて、その二次元の壁は非常に厳しいです。32Kから1Mトークンのコンテキストウィンドウに飛び移ることは、単に30倍の作業を追加するだけではありません。単純な密なアテンションでは、約1,000倍の計算が必要になります。このため、最近の数年間でコンテキストウィンドウが急増するのではなく、徐々に進展しているのです。

DSAはコストを抑えるために、注意を疎で選択的にします。すべてのトークンが他のすべてのトークンに注意を向けるのではなく、各トークンは限定されたK個の「関連する」トークンにのみ注意を向けます。複雑さはO(L²)からおおよそO(L × K)に低下し、KはLが増加しても限界を保ちます。

それを、みんなが互いに話す部屋を厳選された会議スケジュールに置き換えると考えてください。トークンは重要な情報を引き続き把握しますが、モデルは無関係な相互作用の組み合わせの爆発を回避します。DeepSeekは、これにより長いコンテキストのシナリオにおける精度を維持しながら、ステップあたりのFLOPsを削減すると主張しています。

実際には、そのほぼ線形のスケーリングにより、DeepSeekは推論を科学プロジェクトにすることなく、コンテキストウィンドウを128K〜200Kの範囲を大幅に超えて押し出すことができます。DeepSeek自身のデータによると、長コンテキストの推論は30〜40%少ないメモリで2〜3倍速く実行できるとのことです。この効率性は、百万トークンあたりのAPI料金を安価にすることに直接つながります。

DSAは、DeepSeekの専門家のミクスチャーアーキテクチャともスムーズに相互作用します。V3.2は6710億のパラメータを使用し、推論時には370億のパラメータがアクティブになります。スパースアテンションにより、アクティブな専門家がアテンションのオーバーヘッドに埋もれることがありません。計算の大部分が事務処理ではなく、実際の推論に移ります。

これは「注目が全て必要」という美容的な修正ではありません。DSAは2017年からトランスフォーマー設計を支配してきたコストモデルを書き換え、長いコンテキストを贅沢な機能から実際にスケールで展開できるものへと変えました。DeepSeekは単に大きなモデルを調整したのではなく、モデルが世界をどのように見るかを変革しました。

1Mトークンウィンドウの解放（財布に優しく）

DeepSeek Sparse Attentionは、単にベンチマークで勝つだけでなく、ほとんどの大規模モデルを静かに制約していたコンテキストウィンドウの経済性を打破します。注意の複雑さをO(L²)からおおよそO(L·K)に削減することで、DSAは何十万ものトークンを振り返るコストを大幅に削減し、スーパコンピュータの請求書なしで100万トークンのウィンドウを実現可能にします。

従来の密なアテンションは、すべてのトークンが他のすべてのトークンに注意を向けることを強いるため、コンテキストを倍にすると計算量とメモリが4倍以上に増加します。この二次的な壁が、GPT-4、GPT-5、そしてGemini 3.0 Proが128K～200Kのトークン制限で長いコンテキストに慎重に対処する理由や、チャンク化や情報検索のような脆弱なトリックに頼る理由です。

DSAは、どのトークンがどのトークンと対話するかをスパース化することで、そのパターンを打破し、実際に重要な情報を保持します。DeepSeekのエンジニアは、重要なポジションの小さなセットを通じて注意をルーティングし、長いコンテキストのベンチマークでの精度を維持しながら、FLOPとVRAMの両方を削減します。

実際のハードウェアでは、そのシフトにより、DeepSeekの内部プロファイリングによると、長いコンテキストの推論が2～3倍速く、百万トークンのプロンプトに対してメモリ使用量が30～40%低下します。671Bのパラメータを持つMoEは、37Bのアクティブパラメータを使用して、ファンタジークラスターの領域に入ることなく、700GBのVRAMでFP8で実行することが実用的になります。

その利益は、モデルに対して現実的に投げかけることができるものを変えます。数百万トークンのTypeScript、Python、YAMLからなる全コードベースが、部分的な要約の迷路ではなく、リファクタリング、セキュリティ監査、またはアーキテクチャレビューのために単一のセッションに収まります。多巻の小説、研究コーパス、または何年分ものSlackログが、断片的なプロンプトではなく、単一のコンテキストオブジェクトになります。

法的業務は最初に影響を受けるかもしれません。100万トークンのウィンドウは、数十の契約書、メールのやり取り、過去のケースブリーフを同時にカバーし、現在では複雑なRAGパイプラインやカスタム検索インフラが必要なクロスドキュメント推論を可能にします。

効率性は請求書にも現れます。長いコンテキスト計算がもはや二次的に膨れ上がることがないため、DeepSeekはキャッシュヒットを活用して100万トークンあたり0.07ドルに入力価格を押し下げることができ、フロンティアのクローズドモデルに対してドルあたりのスループットで打撃を与えます。この価格設定により、大規模なコンテキストワークフローがかつてはFAANG規模の予算に限られていたものが、スタートアップや個人開発者にも手の届くものとなります。

無駄のない注意は、クエリごとに消費されるGPU時間が減ることも意味し、AIのエネルギー消費が増加する中で重要です。GPT-5レベルの推論に匹敵しながら、トークンごとの計算量を大幅に削減したスパースアテンション1Mコンテキストモデルは、単にコストが低いだけでなく、次世代の基盤モデルをスケールするためのより持続可能なテンプレートでもあります。

エージェントのために鍛えられた：自動化のパワーハウス

「鍛造された」という表現はここで誇張ではありません：DeepSeek V3.2は、チャットモデルだけでなく、まず第一にエージェントエンジンとして存在します。アーキテクチャからトレーニングカリキュラムに至るまで、すべてがマルチステップツールの使用、長期的な計画、および外部システムとの緊密なループに焦点を合わせています。

DeepSeekはそれを実現するために大規模な合成パイプラインを構築しました。エンジニアたちは1,800以上の異なる環境を立ち上げ、エージェントタスク専用に約85,000の複雑なプロンプトを生成しました。これには、マルチツールのオーケストレーションやAPIの振り付け、ツールの障害からの回復といったパターンが含まれています。

それらの環境は、教科書的なQAよりもはるかに生産的なワークフローに近いです。「3つの内部サービスを通じて経費報告書を提出する」とか、「GitHubのIssueをトリアージし、テストを実行し、プルリクエストを開く」とイメージしてください。単に「電卓を一度呼び出す」だけではありません。各プロンプトは、モデルに状態を考慮させ、ツールを選択させ、出力が混乱したり不完全な場合に適応させることを強いるものです。

強化学習はこの推進の中心に位置しています。DeepSeekは事前トレーニングの計算予算の10％以上をRLスタイルのポストトレーニングに割り当てました。これは、強化学習が大規模な教師ありトレーニングの後付けのように感じられる世界では珍しく高い比率です。

その予算は、モデルが1,800以上の環境内で反復的に行動するスケーラブルな強化学習フレームワークを支えています。成功する軌跡には報酬が与えられ、失敗するパターンにはペナルティが課され、政策は徐々に騒音の多い実世界条件下で堅牢な指示遵守へとシフトしていきます。

指示に従うことは、単一のプロンプトに従うこと以上の意味を持ちます。RLの設定は、複数回のターンにわたる目標を最適化します：ツールスキーマに従い、ステップ間で制約を維持し、異なるシステムメッセージ、ユーザー入力、およびツール出力からの対立する指示を調整します。

ツール使用の品質が向上します。その結果、DeepSeek V3.2は信頼性を持って以下を実現します： - 多くの中から正しいツールを選択 - 引数に適切に型付けされ、検証されたデータを入力 - 中間状態を失うことなく複数のツールを連鎖させる

そのような行動は、エージェントのベンチマークにおいてオープンモデルと最前線のクローズドシステムとの間のギャップを大きく縮めますが、DeepSeekは依然として一部のツールコールリーダーボードでは最高の専有スタックには及びません。重要なのは、オープンウェイトとMITライセンスを持っているため、自分自身のインフラに深く組み込む場合に重要です。

DeepSeek Sparse Attention と1Mトークンのコンテキストウィンドウを組み合わせることで、このエージェントトレーニングはV3.2を単なる推論デモ以上のものに変えます。これは実際の自動化の基盤となり、あなたの全知識ベースを読み込み、内部APIを呼び出し、仕事を実際に完了するまで頭の中に計画を保持することができます。

効率性とパワーのジレンマ

効率とパワーはDeepSeek V3.2において抽象的なトレードオフではなく、文字通り2つの異なるSKUとして組み込まれています。V3.2は「思考」モデルであり、日常の作業においてGPT-5 HighやGemini 3.0 Proと並ぶパフォーマンスを維持しつつ、トークンを少しずつ消費するように調整されています。V3.2-Specialeeは「最大思考」バリアントであり、論理性能を最大限に引き出すために、はるかに多くのトークンを消費する高計算モードです。

ベンチマークでは、その分割が明確に現れます。V3.2は、正確性においてGPT-5 Highに近い結果を示し、問題ごとにトークン数が少なくて済むことが多いため、応答時間とコストが重要なチャット、コーディング支援、およびエージェントオーケストレーションにおいて理にかなったデフォルトとなっています。V3.2-Specialeeはリーダーボードでの勝利を目指し、両方のV3.2およびGPT-5 Highと比較してトークン数を数倍に増加させながらAMI 2025で96という結果を記録しています。

トークンの効率性が真の差別化要因となります。DeepSeek自身のチャートによれば、通常のV3.2モデルは同じプロンプトに対してGPT-5 HighやGemini 3.0 Proと比べて「非常にトークン効率が良い」とされています。一方、V3.2-Specialeeは膨大な思考の連鎖を展開し、国際数学オリンピアード（IMO）やIOIの課題に似た問題に対して、より堅牢な段階的推論のためにトークンの予算を使い果たします。

開発者にとって、選択はリスクと予算に明確に結びつきます。出荷する場合： - 顧客向けチャットボット - 社内コパイロット - 高ボリュームサポートエージェント

V3.2を使用し、会話ごとのコストを予測可能に保ちます。

高リスクの科学研究を行っている場合正式な検証とセキュリティ分析を行っている場合複雑な多段階計画エージェントを運用している場合

あなたはV3.2-Specialeeに対して、最も難しいコールのみに支払いを行います。これは、チームが最終トレーニングのためにA100クラスターを確保する方法と同様です。混合デプロイメントは、90–95%のトラフィックをV3.2にルーティングし、自動的にエッジケースをSpecialeeにエスカレーションします。これは、DeepSeekがDeepSeek-V3 GitHubリポジトリに基づいて構築されたエージェントフレームワークのために明示的に設計したパターンです。

ハードウェアの自由：ベンダーロックインからの脱出

ハードウェアはDeepSeekの最も静かな強みかもしれません。V3.2は、Biren、Moore Threads、Huawei Ascendなどの中国のチップを含む非NVIDIAアクセラレーターに対する一流のサポートと共に出荷され、x86およびARM CPUのフォールバックも備えています。DeepSeek独自のスタックは、CUDA、ROCm、そして新興の中国のCUDA互換ランタイムを対象としており、ほぼ同等のカーネル実装を提供します。

その選択は、V3.2を技術的な枠を超えて政治的な対象に変えます。米国の輸出規制によって圧力を受けている国々は、国内生産のシリコン上でフロンティアグレードのMITライセンスモデルを実行できるようになりました。中国のクラウドプロバイダーは、DeepSeekを自国製のアクセラレーターと組み合わせ、A100/H100のボトルネックを完全に回避することができます。

DeepSeekにとって、ハードウェアの多様性は生存戦略です。NVIDIAのような単一のベンダーに依存することは、すべてのモデル改善が他者のロードマップ、価格設定、地政学に左右されることを意味します。DeepSeekは、中国製アクセラレーターを発売時に検証することで、たとえ標準化を望んでもNVIDIAには依存できない地域のクラウドを取り込もうとしています。

地政学的に見て、これはアメリカのグローバルなAIスタックに対する影響力を弱めるものです。ワシントンはH100の輸出を制限できますが、地元のベンダーが提供する任意のテンソルコアで効率的に実行されるオープンモデルを制限するのは容易ではありません。そのため、DeepSeekは深圳からサンパウロに至るまで、より弾力性があり制裁に耐えられるAIサプライチェーンの構成要素となります。

コスト曲線も変化します。モデルが異なるハードウェアでうまく機能する場合、クラウドプロバイダーは以下の選択肢を活用できます： - 古いNVIDIAカード - AMD Instinct GPU - 有利な補助金があるローカルアクセラレーター

その混合は、トークンあたりの価格を引き下げ、希少な高性能GPUへの依存を減らします。

開発者にとって、ハードウェアの選択肢はアクセスに直結します。ジャカルタのスタートアップは余剰のA40をレンタルでき、ベルリンの学術研究室はMI300をターゲットにし、ムンバイのフィンテックはCPUでパイロットを実施した後、地域のアクセラレーターに移行できます。DeepSeekの考えはシンプルです：モデルをGPUの単一文化から解放し、残りの世界がスケーリングを行うでしょう。

MITライセンスの真の力

MITのモデルカードは、AIの権力ダイナミクスを静かに再構築します。DeepSeek V3.2は、オープンウェイトとしてだけでなく、完全なMITライセンスの下で提供されます—Linuxツール、React、SQLiteなどのプロジェクトを支える同じ極めて許可的な条件です。使用制限はなく、「研究専用」の細則もなく、スケールアップした際に有料プランに移行することもありません。

今日のほとんどの「オープン」AIは、アスタリスク付きです。LlamaやOLMoのようなライセンスは、商業利用を制限したり、競合サービスを禁じたり、敏感な分野での展開を制限したりすることがよくあります。MITはその脚本をひっくり返します：あなたはDeepSeek V3.2をコピー、修正、ファインチューニング、再販、またはクローズドソースの製品に組み込むことができ、収益分配や承認プロセスは必要ありません。

スタートアップにとって、これはビジネスプランで最も高価な項目を排除します。APIプロバイダーに対して1百万トークンあたり2ドル〜10ドルを支払う代わりに、チームはDeepSeek V3.2を自社のGPU、またはより安価な中国のアクセラレーター上でホストでき、ハードウェアと運用に対してのみ支払うことができます。1日に500億トークンを処理する企業は、GPT-5呼び出しを社内のDeepSeekスタックに置き換えることで、年間数百万ドルを節約できます。

独立した研究者は、かつてはラボのバッジやクラウドの助成金が必要だったアクセスを得ることができます。フルウェイトのダウンロードにより可能になることは： - ニッチなコーパスに対するカスタムの事前トレーニング - 安全性や整合性研究のための積極的なファインチューニング - DeepSeek Sparse Attention 実装に対する低レベルの手術

ライセンスが再配布を許可するため、全体の下流エコシステムが形成される可能性があります。臨床ノートに基づいて訓練されたバイオメディカルのV3.2、判例法に調整された法律のV3.2、リアルタイム制御ループに接続されたロボティクスのV3.2など、特化型のフォークが期待されます。これらのチームはDeepSeekと交渉する必要はなく、ただ製品を出荷するだけです。

これが、祝福された統合の小流れではなく、カンブリア爆発を実現する方法です。クラウドプロバイダーは、ワンクリックでDeepSeekクラスターを提供できます。SaaSプラットフォームは、V3.2-Specialeeをホワイトラベルの推論エンジンとしてバンドルできます。オープンソースコミュニティは、許可を得ることなくトレーニングスタック、トークナイザー、またはエージェントスキャフォールディングを改善することができます。

MITはDeepSeek V3.2を無料提供するだけでなく、フォーク可能で、コンポーザブルで、経済的に必然となるものにしています。

活用する: コードからクリエイティブへ

DeepSeek V3.2は、内部において趣味者向けの玩具とは見なされません。6710億パラメーターのMixture-of-Expertsアーキテクチャを使用していますが、特定のトークンに対して稼働するのは約370億パラメーターです。このMoEレイアウトにより、DeepSeekは推論のための全体的な容量を増加させながら、トークンごとの計算を単一の大規模密度モデルに近いものに保つことができます。

その370億のアクティブパラメータには、依然として深刻なハードウェアの重みがあります。フルモデルをFP8で自己ホストするには、約700 GBのVRAMが必要です。BF16にアップグレードすると、約1.3 TBのVRAMに押し上げられます。これはデータセンター専用の領域であり、チェックポイントやKVキャッシュのためのネットワークとストレージを考慮する前からもそうです。

ほとんどのチームはAPIを通じてDeepSeekを利用しますが、その機能は明らかに重負荷のワークロードをターゲットにしています。コーディングアシスタントとして、V3.2は関数のオートコンプリートだけでなく、マルチサービスバックエンドのリファクタリング、統合テストの作成、拡張されたコンテキストウィンドウを使用してモノレポ全体の推論も行うことができます。Live Codebenchでは、V3.2-Specialeeバリアントが88.7を達成し、通常モデルの83.3を上回り、より深いマルチステップデバッグを可能にします。

科学およびデータチームはさらに大きなアップグレードを受けます。金レベルの国際数学オリンピック（IMO）モデルは、単に最終的な答えを出すだけでなく、シンボリックな導出をステップごとに進め、シミュレーション実験をデザインし、証明を批評することができます。分析に関しては、DeepSeekは生のCSVエクスポート、SQLスキーマ、およびPDFレポートを取り込み、パイプラインを提案し、クエリを生成し、数十万トークンにわたる矛盾するメトリックを調整することができます。

クリエイティブな作業も、長いコンテキストと高い推論の組み合わせから恩恵を受けます。作家は、シーズンバイブルや設定資料、製品ロードマップ全体を提供し、モデルにトーン、連続性、キャラクターアークを長編にわたって維持するよう依頼できます。1MトークンのコンテキストウィンドウとDSAにより、より小さなアシスタントでは圧倒されるであろうコールバック、伏線、制約を追跡することが可能です。

エージェンティックスキルは、これらの才能を実際の自動化に変えます。DeepSeek V3.2のツールコールスタックは、単に何が起こるべきかを説明するだけでなく、API、データベース、SaaSアプリを調整することができます。Zapierのようなプラットフォームと組み合わせることで、開発者でない人でもエージェントを接続することができます：

1受信箱を監視し、スレッドを要約し、返信をドラフトします。
2CRMの更新、請求書、分析ダッシュボードを同期する
3コンテンツを生成し、A/Bテストを行い、ソーシャルチャネルで公開します。

DeepSeekは、ローコード自動化の中で実質的に推論の脳となります。DeepSeek Sparse Attentionがどのように大規模でそれを実現可能にするかについて、より深い技術的な掘り下げはデータポイント：DeepSeek 3.2が実験的注意に移行をご覧ください。

新しいAI軍拡競争はアルゴリズム的です。

DeepSeek V3.2は、より賢いアルゴリズムが従来の力任せなスケールを凌駕するという論文のように登場しました。671BパラメータのMoEは、推論時にわずか37Bのアクティブパラメータで、コア推論のベンチマークにおいてGPT-5 HighやGemini 3.0 Proに匹敵するか、それを超える結果を示しました。その中には2025年国際数学オリンピック（IMO）での金レベルのパフォーマンスも含まれています。この結果は、フロンティアラボが報じられている密度の高い巨大モデルに支出する訓練予算のほんの一部で達成されました。

10年間、業界のマントラはシンプルでした：より多くのデータ、より多くのパラメータ、より多くのGPU。DeepSeekの勝利は、そのトレンドがGPQAダイアモンドやライブコードベンチのような推論重視のタスクにおいて、収穫逓減に向かっていることを示唆しています。MITライセンスのモデルが、比較的小さく効率的でありながら、主要な推論ベンチマークで96を達成できるとき、生のスケールは鈍い道具に見えてきます。

DeepSeek Sparse Attention (DSA)は、真の武器競争がどこに向かっているかを示しています。注意の複雑さをO(L²)からおおよそO(L × K)に削減することで、V3.2は通常の二次的コストを伴わずに1Mトークンのコンテキストを解放します。これにより、長コンテキストモデリングが「唯一のハイパースケーラーしかこれを負担できない」から、より従来のクラスターに収まるものへと変わります。

建築的な創造性は、GPUのホーディングを繰り返すことよりも重要です。Mixture-of-Experts、スパースアテンション、ダイナミック・トークン割り当てにより、DeepSeek V3.2は必要な際に600B+モデルのように振る舞いながら、ミッドレンジシステムに近い推論コストで済むようになっています。V3.2-Specialeeはこれを活かし、トークン効率を最大の推論深度と引き換えにしつつ、全体的なリソース消費においてクローズドモデルを下回っています。

トレーニング戦略も書き直されています。DeepSeekは、強化学習に再び事前トレーニング計算の10％以上を費やしたと報じられており、これはRLを後回しにしていた以前の世代と比べて大きな飛躍です。その予算により、1,800以上の合成エージェント環境と85,000の複雑なプロンプトが資金提供され、一般的なチャットではなく、ツール使用とマルチステップエージェントに特化して調整されています。

未来のブレークスルーは「GPT-6の大きいバージョン」よりも、DeepSeekのプレイブックのような形を取る可能性が高い: 新しい注意メカニズム、より賢いMoEルーティング、エージェントのために最適化された大規模な合成カリキュラム。長文コンテキストやツール重視のワークフローが企業の採用を支配する限り、100万トークンを処理し、APIを調整できるモデルが、次のトークンの予測だけを得意とするモデルよりも重要になるだろう。

DeepSeek V3.2は新しい哲学として位置付けられます：資本支出に対するアルゴリズム的なレバレッジ、閉じた庭ではなくオープンなウェイト、単一供給業者のロックインではなくハードウェアの柔軟性。フロンティアラボは依然としてほとんどの人よりも多くの支出が可能ですが、V3.2は彼らがもはやアイデアのフロンティアを所有していないことを証明しています—そしてそこが次の軍拡競争が移動した場所です。

よくある質問

DeepSeek V3.2とは何ですか？

DeepSeek V3.2は、新しい強力なオープンソースの大規模言語モデルであり、特に数学的および論理的推論タスクにおいて最先端の性能を示しています。

DeepSeek V3.2のアーキテクチャのユニークな点は何ですか？

その主要な革新は、DeepSeek Sparse Attention（DSA）であり、長い文脈に対する計算コストを大幅に削減するより効率的なアテンションメカニズムです。これにより、処理が速く、メモリ消費も少なくなります。

DeepSeek V3.2はGPT-5より優れていますか？

国際数学オリンピック（IMO）などの特定のベンチマークにおいて、V3.2-Specialeバリアントは、GPT-5 HighやGemini 3.0 Proなどのモデルの報告されたスコアを上回り、推論における最前線モデルとなっています。

DeepSeek V3.2は無料で使用できますか？

はい、このモデルはオープンウエイトでリリースされており、制限なく広範な商業利用および研究利用が可能な許可的なMITライセンスの下で提供されています。

DeepSeek V3.2の主なバージョンは何ですか？

主に二つのバリエーションがあります：標準のV3.2モデルは非常にトークン効率が高く、V3.2-Specialeは最大の推論性能を最適化した高計算バリアントです。

𝕏 in ↑↗

DeepSeekがGPT-5を打破しました。方法はここにあります。