OpenAI GPT-5.2 リリース：新たなAIベンチマークの王者を解剖する

要約 / ポイント

OpenAIは最新のGPT-5.2を発表し、推論とコーディングのパフォーマンス記録を打ち破りました。これは単なるアップデートではなく、経済的に価値のあるAIの未来を垣間見るものです。

「不可能」なデモが到着しました

不可能なデモがOpenAIのGPT-5.2のローンチから数時間以内にXに登場しました。フラビオ・アダモの最新の「六角形の中のバウンスボール」テストは、今やハイパーリアリスティックな3Dシミュレーションとして動作しています。多面体の六角形のアリーナ、現実的な運動量で衝突する数十個の球体、衝撃時に発光する接触ライト、プロンプトの後に手動調整なしで仕上げられました。GPT-5.2は、全てのWebGLシーン—ジオメトリ、シェーダー、物理ループ—を一度のパスで生成しました。

イーサン・モリックは異なる方向を提案した：「twiggle.appで実行できる視覚的に興味深いシェーダーを作成してください。嵐の海に部分的に沈んだネオゴシック様式の塔の無限の都市のようにしてください。」GPT-5.2は、繰り返しの塔からなる無限の都市を描画する一体のフラグメントシェーダーを応答し、低ポリゴンでありながら一貫性のある形で、波に揺れる水の中に存在し、リアルな波の動きと反射を持っていました。

これらのクリップは、美的な変化以上のものを明らかにしています。GPT-5.2は単にテンプレートを貼り付けているのではなく、物理学、3D空間、そしてレンダリングパイプラインの働いているモデルをエンコードしています。Adamoデモでは、正確な衝突検出、保全的な挙動、そしてフレームごとのライティング更新が必要とされます。Mollickシェーダーは、符号付き距離場、レイマーチング、そして手続き的ノイズに依存しており、生成中にモデルがコードを「実行」することなく、すべてがオーケストレーションされています。

その裏には、GPT-5.1よりも強力な空間認識とシステムレベルのコード計画が示唆されています。GPT-5.2が状態を構造化し、更新ループと描画ループを分離し、カメラの動きやオブジェクトの繰り返しのために数学を組み立てる様子にそれが見られます。これらは通常、人間のグラフィックスプログラマーから生まれる抽象的な概念であり、オートコンプリートエンジンからは出てこないものです。

それでも、キュレーションされたデモは嘘をつきます。アダモとモリックは、失敗した実行や構文エラー、微妙に壊れたエッジケースではなく、最高のテイクを示します。GPT-5.2は依然としてAPIを幻想し、パフォーマンスを誤って処理し、時折コンパイルはされるが黒い画面を表示するシェーダーを出力します。

「バイラルクリップ」と「プロダクションツール」の間のギャップは重要であり、そのためOpenAIや独立した研究所は、SWE-Bench Pro、GPQA Diamond、ARC-AGI 2のようなベンチマークに基づいて話題を引き寄せています。これらの数値は、GPT-5.2の推論能力とコードの信頼性が実際に向上したことを示しており、単に綺麗なGIFを作る能力だけではないことを示しています。

それでも、これらのビジュアルショーケースは本当の変化を示しています。汎用言語モデルが命令に応じて複雑でインタラクティブなシミュレーションを作成できるようになると、「プロンプティング」と「プログラミング」の境界があいまいになり、想像力と現実に似た不気味な何かとの境界も曖昧になります。

ベンチマークを annihilate する

ベンチマークはかつてマーケティングのつまらない注釈のように感じられたが、GPT-5.2はそれを意外な展開に変える。OpenAIの新しいフラッグシップモデルは、単に競合を凌ぐのではなく、実際に重要な論理思考、コーディング、科学のスコアボードを粉砕する。

AIME 2025から始まります。これは、トップの人間コンテスタントでさえ問題を見落とすことで知られる非常に厳しい高校数学コンペティションです。GPT-5.2はすべての問題を解決し、クリーンな100%を達成します。一方、Gemini 3 Proは95%、Claude Opus 4.5は92.8%のスコアです。その差は小さく聞こえますが、実際には各追加ポイントが、モデルが以前にまったく解けなかった問題のクラスを示すことが多いことに気付くと、その重要性が際立ちます。

コーディングベンチマークも同様の結果を示しています。実際のGitHubの問題をエンドツーエンドで評価するSWE-Bench Proでは、GPT-5.2 ThinkingがGPT-5.1に対して約5パーセントポイント向上し、最先端の地位を取り戻しました。これは、Pythonバックエンドの依存関係地獄から、プロダクションのC++における微妙なオフバイワンバグまで、人間のパッチなしで完全に修正される問題が増えることを意味しています。

科学的推論も同様の段階的な変化を示しています。GPQA Diamondでは、大学院レベルの科学問題が詰まったツールなしのベンチマークで、GPT-5.2は92.4%を達成しており、GPT-5.1よりも約4ポイント高くなっています。その追加のポイントは、教科書の事実をただ再生産するのではなく、物理学、生物学、数学にわたる多段階の推論を必要とする問題から得られています。

これらをGPT-5.2の他の成果と組み合わせると、ARC-AGI 2は17%から52%以上へ、LiveCodeBench/「Last GDP val」は70.9%でOpus 4.5の59.6%に対して、パターンが浮かび上がります：盲点が減り、一貫した深さが増しています。このモデルは単に知識が増えただけでなく、ハッピーパスから外れたときに壊滅的に失敗することが少なくなっています。

これらの定量的躍進は、経済的に有用な作業にほぼ直接関連しているため重要です。AIMEおよびGPQAレベルの推論は、バッテリー劣化の新しい公式を導出する、暗号プロトコルのエッジケースをデバッグする、あるいは財務モデルをストレステストするなどのタスクを支えています。SWE-Bench Proの利点は次のように変わります：

1レガシーコードベースにおける初回修正率の向上
2より信頼性の高いリファクタリングとマイグレーション
3妄想されたAPIや静的な論理エラーの減少

チームにとって、それはGPT-5.2に以前は上級エンジニアや専門家専用にしていた種類の問題を任せられるようになり、ますます自立して対応できることを期待できることを意味します。

皆を驚かせたAGIメトリック

ARC-AGIは、AI研究者たちが実際に恐れている基準として静かに確立されました。フランソワ・ショレによって設計され、ARC賞チームによって拡張されたこのシステムは、少数の例から学び、それを新しい抽象的なパターンマッチングタスクに一般化できるかどうかを測るものです。ウェブ規模の暗記や隠れたトレーニングの重複はなく、色付きのグリッドに対する単純な体系的推論のみが求められ、それはコーディングチャレンジというよりもIQテストに近いものです。

ARC-AGIは、選択肢がある試験や教科書のような数学問題とは異なり、モデルに対して1〜5回のデモから対称性、カウント、オブジェクトの変換、組成論理などのルールを推論させます。各タスクは本質的に「エイリアンパズル」のミニバージョンであり、モデルは基本的な概念を推測し、それを適用する必要があります。研究者たちは長い間、これを従来のベンチマークよりもAGIに似た一般化のより良い代理と見なしてきました。

その背景の中で、GPT-5.2のARC-AGI 2での飛躍は驚異的です。GPT-5.1は新しいARC-AGI 2スイートで約17%の成果を上げましたが、GPT-5.2は52.9%に達したとのことで、これは歴史的に一桁の進歩しか示さなかった分野での約3倍の改善にあたります。参考までに、強力なモデルの多くはティーンや低20%台にとどまっており、一部の懐疑論者は現在のLLMがこのテストでは実質的に停滞していると主張しています。

ARC PrizeはOpenAIの言葉だけを鵜呑みにしませんでした。公式の投稿で、チームはGPT-5.2 Pro HighがARC-AGI 2で54.2%、タスクあたり15.72ドルのコストで検証されたと述べ、オリジナルのARC-AGIでは90.5%でタスクあたり11ドルであることを明らかにしました。同じアカウントは、1年前のo3 Highのプレビューとこれらの数字を対比させました：ARC-AGIタスクあたり約4,500ドルで88%、約390倍の効率向上です。

その経済はスコアと同じくらい重要です。1年前、真剣なARC規模の実験を行うにはラボレベルの予算が必要でしたが、今ではスタートアップや大学のラボが会議の航空運賃の価格で数百のタスクを反復できるようになりました。OpenAIのさらなるコストと展開の詳細は、そのドキュメントや継続的に更新されるChatGPT — リリースノート - OpenAIヘルプセンターに記載されていますが、ARCの検証によって、この特定の主張に特別な重みが与えられています。

哲学的に言えば、ARC-AGI 2で50％以上のスコアを得ることはAGIと等しくはありませんが、オーバートン・ウィンドウをシフトさせます。もしモデルが数千の異星のパズルを通じて抽象的なルールを推測できるなら、「パターン認識者」と「概念学習者」の境界が曖昧になり始めます。実際、その同じ能力は、より強力なツールの利用、自律的な研究エージェント、そしてハンドホールディングなしで不慣れなワークフローに適応できるシステムを支える基盤ともなります。

ただ賢いだけでなく、390倍安い

つい最近、真剣なARC-AGI実験を行うことは、お金を燃やすようなものに見えました。ARC Prizeの推定によれば、OpenAIのo3 Highモデルのプレビューは、元のARCベンチマークで88%に到達するのに約4,500ドルのコストがかかりました。現在、GPT-5.2 Pro XH Highは、約11ドルで90.5%に達しており、約1年で390倍の効率向上を実現しています。

そのような低下は、問題に対してより多くのGPUを投げ込むことからは生じません。それは、実際のアーキテクチャの改善を示しています：より良い検索戦略、より賢いツールの使用、「インスタント」モードと「思考」モードの間のより緊密なルーティング、そしてはるかに効率的なトークンの活用。OpenAIは、自らが解決された問題ごとに、より少ない浮動小数点演算でより多くの推論を行えると言っているのです。

このようなコスト曲線は、誰が参入できるかを変えます。1年前、ハイパースケーラーや資金力のある研究室だけが大規模なARCスタイルの一般化研究を行うことができました。1タスクあたり11ドルで、シードステージのスタートアップや大学院研究室は次のことが可能です： - 数千件のARC-AGIタスク - 大規模なアブレーション研究 - 全ての計算予算を使い果たすことなく、反復的な製品実験。

最先端の推論に対するアクセスを民主化することは、生のベンチマークの王 crown と同じくらい重要です。GPT-5.2がSWE-Bench Pro、GPQA Diamond、ARC-AGIで数ドルで専門家レベルの出力を提供できるようになると、自律研究エージェント、継続的なコードリファクタリング、高頻度シミュレーションといったツールの全カテゴリが突然経済的に意味を持つようになります。

企業にとって、これは派手なパイロットと来年の運営計画の項目との違いです。CIOは単に「どれだけスマートなのか？」と問うのではなく、「解決されたチケットごとのコスト、契約レビューごとのコスト、データパイプラインの修正ごとのコストは何か？」と問いかけます。複雑な推論タスクにおいて390倍の削減が実現することで、GPT-5.2は研究開発費から、オフショア労働、レガシーソフトウェア、さらには一部の社内チームに対しても価格パフォーマンスを下回るものに変わります。

パフォーマンスが見出しを飾る。問題を解決するための価格が、実際にAGIクラスのシステムを大規模に展開するのは誰かを決定する。

スプレッドシートからスタートアップ戦略へ

OpenAIはGPT-5.2の周りで「経済的に価値のある仕事」というフレーズを繰り返しています。それはマーケティングのように聞こえますが、スプレッドシートを見てみると真実が見えてきます。見出しの変化はシンプルですが厳しいです。このモデルはもはや単にメールやスライドのコピーを作成するだけではなく、通常、六桁の給与や外部顧問を正当化するようなExcelの地獄を静かに引き継いでいます。

キャップテーブルのデモから始めましょう。GPT-5.1では、シード、シリーズA、シリーズBの清算優先権をモデル化しようとしましたが、結果は散々でした—空白の行、欠落した数式、そしてエクジットを数百万ドルも不正確に見積もってしまう最終的な持分配分。GPT-5.2では同じシートを再構築し、すべての優先権スタックを埋め、正確なウォーターフォールを生成しました。「 neat toy」をCFOが実際に精査するか、廃棄する代わりに検証するものに変えました。

キャップテーブルは単なる算数ではなく、参加型優先株と非参加型優先株、優先順位、さまざまな清算シナリオを符号化しています。間違った式を使うと、投資家に5億ドルの売却の5〜10%を余分にもたらす可能性があります。OpenAIはその点に重きを置いています：GPT-5.2は単にモデルのフォーマットを5.1より良くしただけでなく、従来のフラッグシップが失敗した箇所の論理を修正しました。この種のエラーは通常、パッチノートではなく訴訟を引き起こします。

労働力計画の例は比較すると地味に見えるが、同様の変化を示唆している。エンジニアリング、マーケティング、法務、営業を網羅する人員計画、採用、離職、予算モデルを構築するよう求められた際、5.1は使えるグリッドを生成した。GPT-5.2は、仮定の明確な分離、部門レベルの集約、そしてWorkdayやAnaplanからエクスポートされたかのように見える要約ビューを持つ、多タブで色分けされた構造を出力した。

フォーマットは見た目だけの問題のように思えますが、実際には採用を促進する重要な要素です。マネージャーは、数字の壁からモデルの意図を逆算することを望んでいません。GPT-5.2のスプレッドシートは、ドライバーにラベルを付け、ヘッダー行を固定し、財務チームが期待する場所に合計を追加し、パーセンテージ、通貨、人数単位を一貫性のあるものに保ちます。これが「AIドラフト」と「これをボードパケットに入れてください」との違いです。

物語の側面では、OpenAIはBridgeMindというイギリスのスタートアップのための助成金報告シナリオを強調しています。GPT-5.2はイギリスの資金機関からの背景資料を取り入れ、構造化された報告書を生成します。そこには、目的、マイルストーン、KPIテーブル、リスクレジスターが含まれ、典型的なイギリスの助成金コンプライアンスフォーマットに沿っています。5.1と比較して、新しいモデルは資金提供者の使命に関する事実誤認が少なく、実際のプログラム管理テンプレートに合わせた明瞭なセクション分けが見られます。

これらの例を総合すると、OpenAIがGPT-5.2を「信頼できる専門家」として語る理由が明らかになります。金融、人事、プロジェクト管理は、流暢な文章だけでなく、エッジケースと注釈に依存しています。モデルが清算ウォーターフォールを計算し、ヒアリング予算を照合し、規制当局向けの報告書を以前のバージョンよりも少ない静かなエラーで作成できるようになると、それは単なる支援ツールではなく、むしろあなたのスタックに直接埋め込まれたジュニアオペレーターのように不快に見えてきます。

あなたのコードは時代遅れですか？

コードは「補助的」から「デフォルトで生成された」に移行したのかもしれません。OpenAIの海の波のデモでは、1つの自然言語プロンプトが完全にインタラクティブなシングルページアプリを生み出しました。信じられる流体力学に基づいたアニメーション水、風と波の高さのためのユーザーコントロール、応答性のあるUI、そしてクリーンでコンポーネント化されたコード。一歩一歩の支援も、追従するプロンプトもなく、アイデアからプロダクションレベルのフロントエンドへ一発で進められました。

GPT-5.2は、単一のモノリシックファイルを吐き出すだけではありませんでした。現代的なスタックを構築しました：モジュラーJavaScript、再利用可能なCSS、シミュレーションロジックとレンダリングの明確な分離。このモデルはイベントリスナーを接続し、UIの更新をデバウンスし、別の開発者が数分でアプリを拡張できるように、関数を十分に文書化しました。

Enjoying this? Get one like it in your inbox each morning.

one email a day · unsubscribe in two clicks · no third-party tracking

ベンチマークはその感覚を裏付けています。SWE-Bench Proでは、GPT-5.2の「考える」バリアントがGPT-5.1を約5ポイント上回り、実際のリポジトリにおけるエンドツーエンドのバグ修正で最先端の冠を獲得しました。LiveCodeBenchでは、実世界のコーディングや知識タスクをサンプリングし、GPT-5.2が70.9%のスコアを記録し、Claude Opus 4.5の59.6%と比べて二桁の差をつけています。このような差は最前線では稀に見るものです。

予測市場はすでにこれを考慮に入れています。PolyMarketのようなプラットフォームでは、トレーダーたちはOpenAIが2026年1月1日に最高のコーディングモデルを所有する確率を86%と見積もっており、Anthropicの長年のリードを置き換えるとしています。その変化は、初期のGPT-5.2の信号が公開ベンチマークとプライベート評価に漏れ出した後に急に起こりました。

では、あなたのコードベースは陳腐化していますか？必ずしもそうではありませんが、あなたの単独の状態はそうかもしれません。GPT-5.2は今や以下が可能です： - 仕様の段落から非 trivial なアプリをドラフトする - 動作を維持しながらレガシーコードをリファクタリングする - 実際にエッジケースを捉えるテストを生成する

AIを自動補完ツールとして扱い続ける開発者は、80%の定型作業や結合作業を担当するコ・パイロットを中心にシステムを設計する開発者に遅れをとることになります。人間のエンジニアは、製品のセンス、セキュリティ、パフォーマンス予算、および「これを構築すべきか？」というベンチマークでは評価できない質問に対して責任を負うことになります。

OpenAI自身のGPT-5システムカードのアップデート：GPT-5.2 - OpenAIは、これを置き換えではなく強化と位置づけています。しかし、1行のプロンプトで作業するオーシャンを呼び出せるなら、「ジュニア開発者の仕事」として何がカウントされるかの基準は大きく変わりました。

ビジョンの量子飛躍

量子ビジョンはついに量子推論に追いつきました。GPT-5.2は、OpenAIの内部ビジョンスイートでGPT-5.1と比較して視覚エラー率をほぼ半減させており、その成果はあらゆる場面で見られます：物体認識、文書解析、そして多段階の視覚推論です。公開スタイルのベンチマークでは、OpenAIは二桁の相対的向上を報告しており、このモデルは「キャプショニング」とは異なり、より視覚分析のように感じられます。

マザーボードの識別は、最もクリーンなA/Bテストかもしれません。中程度のATXボードの写真をGPT-5.1に与えると、部分的なコンポーネントラベル、欠損したコネクタ、誤ったPCIeレーン数といった曖昧な推測が返ってきます。同じ画像を与えられたGPT-5.2は、ボードを体系的に歩き回り、次のように呼び掛けます：

1正確なチップセットとソケットファミリー
2PCIe x16 と x1 レーンおよび M.2 スロット
3ファンヘッダー、RGBヘッダー、フロントパネルコネクタ
4VRMレイアウトおよび予想される電源ブロック

それは、信頼性スコアと注意事項を伴って可能性のあるOEMモデルファミリーを示すことさえあります。「最良の推測」から法医学的な分解へのシフトです。

ユーザーインターフェースは、この飛躍がインフラに変わる場所です。Screen Spot Pro ベンチマークでは、要するに「賑やかなアプリ画面で適切なコントロールを見つけて操作する」というもので、GPT-5.1は64%を記録しました。GPT-5.2は86%に飛躍し、デスクトップ、ブラウザ、またはモバイルアプリを自律的に操作しようとするシステムにとって大きな進歩です。この精度の違いは、ランダムに誤クリックするエージェントと、従来のERPで請求書を調整することを信頼できるエージェントとのギャップです。

より良い視覚は、派手さは減少するが、より重要な領域に影響を与えます。科学的なチャート、顕微鏡画像、CADのスクリーンショット、そして多-panel医療プロットは、装飾的なJPEGではなく、構造化データとして解析されます。アクセシビリティのために、GPT-5.2は、密なダッシュボードや雑然としたウェブサイトを正確でナビゲーション可能な説明に変えることで、スクリーンリーダーや音声エージェントが不器用なナレーターではなく、実際の視覚的義肢として機能することを可能にします。

獣を飼いならす：コンテキストと幻覚

信頼性は常にGPTの弱点でしたが、GPT-5.2はついに測定可能な形で改善されました。OpenAIは特に高リスクの推論タスクにおいて、虚偽の情報が有意に減少したと報告しており、モデルが知識の限界に達した際に自信を持って間違った回答が減っています。引用を捏造したり数字を作り出す代わりに、5.2はより頻繁に保留したり、明確化を求めたり、欠落しているデータを指摘するようになりました。

コンテキスト処理はさらに劇的な変化を示しています。MRCV2の「干し草の中の針」テストでは、大量のプロンプトの中に1つの関連文が隠れている状況で、GPT-5.2は256kトークンのコンテキストウィンドウで約98%の精度を維持しています。一方、GPT-5.1は同じ長さで約42%にまで低下し、テキストの干し草の中の針を見失ってしまいます。

その256kの制限は変わらず、コンテキストウィンドウのサイズも同じままです。変わったのは、モデルがそのウィンドウ内をどれだけ効率的に検索し、フィルタリングし、推論するかということです。最後の数千トークンだけが重要だと扱うのではなくなりました。長い文書はもはや、重要な条項が早すぎるタイミングで現れた場合に存在しないかのように感じられることはありません。

法務は最も明白な勝者です。弁護士は現在、何百ページもの契約書、条件シート、メールのやり取りを1つのプロンプトに投入し、5.2に対して対立箇所や欠落した条項、非標準的な条件を特定するよう指示し、それらをモデルプレイブックと照合することができます。モデルの向上したリコール能力により、147ページの隅にある免責条項が実際に要約に影響を与えるのです。

研究の統合も性質が変わります。数十本の論文を小さなプロンプトに分ける代わりに、科学者は全てのPDFを、方法論のセクションも含めて読み込み、研究デザイン、サンプルバイアス、矛盾した結果の比較分析を依頼することができます。幻覚が減ることで、以前の世代を悩ませていた偽造引用のリスクが低下します。

スケールでの顧客サポートは、より堅牢になります。過去のチケット、製品マニュアル、ポリシー文書の256kの履歴が文脈に保たれながら、GPT-5.2が以前の解決策や現在のルールに沿った回答を作成します。この組み合わせ、つまり長い文脈の忠実度と低いエラー率は、これらのシステムを「手がかりが必要なアシスタント」から信頼できるジュニアアナリストに近いものへと変革します。

次世代パワーの価格

GPT-5.2の価格設定が驚きの展開で発表されました：入力トークンは約40%上昇し、1百万トークンあたり1.25ドルから1.75ドルに、出力トークンは1百万トークンあたり10ドルから14ドルへと跳ね上がります。長いレスポンスをストリーミングするアプリや、大規模にコードを生成するアプリでは、この40%の増加がすぐに影響を及ぼします。

OpenAIの主張：あなたが購入しているのはトークンではなく、解決された作業です。ARC-AGIでは、初期のo3 Highプレビューによるタスクあたりのコストが$4,500から、GPT-5.2 Pro XH Highでは$11にまで崩壊し、390倍の効率向上が実現しました。このような曲線では、重い推論作業に対して40%のトークン増加が見せかけに過ぎないように思えます。

開発者にとって、数学は二つのカテゴリに分かれます。もしあなたの製品が短いチャットスタイルの呼び出し、すなわちサポートボット、軽量コンテンツ、基本的なQ&Aを行う場合、生のトークンの増加はほぼ直接的に40%の単位コストの上昇に対応します。一方、もしあなたの製品が深い推論、複数のステップツール、または複雑なスプレッドシートやキャップテーブルに依存している場合は、少ないリトライと短いチェーンによって価格の上昇を帳消しにすることができます。

競争力の観点から、GPT-5.2は依然として強力なコストパフォーマンスの物語を提供しています。フロンティアの競合であるGemini 3 ProやClaude Opus 4.5は、一部のティアでより安価なトークンレートを提供しているかもしれませんが、SWE-Bench Pro、GPQA Diamond、ARC-AGI 2などのベンチマークでは劣っています。もし1回のGPT-5.2の呼び出しが、より弱いモデルへの2回または3回の呼び出しに置き換わるなら、解決したタスクあたりの実質的なコストはOpenAIに有利に下がります。

計算は、エラーが高価な領域でより鋭くなります。誤ってモデル化された清算優先権や誤って指定された労働力計画は、実際のお金で何百万も浪費させる可能性があります。40％のAPI追加料金は、そのリスクエンベロープの中で消えてしまいます。その決定を下すチームにとって、サイモン・ウィリソンのGPT-5.2 - サイモン・ウィリソンのウェブログにおけるユースケースとトレードオフの分析は、有用な現実確認を提供します。

ビジネスにとっての要点：もしGPT-5.2の進歩により、5.1や競合他社には信頼できなかった機能を提供できるのであれば、新しい価格設定はいわゆるぼったくりではなく、信頼性へのプレミアムのように見えます。

レースは終わっていない、今始まったばかりだ。

OpenAIのGPT-5.2は、単なる定期的なアップグレードではなく、反撃のように登場しました。Google GeminiやAnthropic Claudeからの1年にわたる圧力を受けて、このリリースは、特にコーディングや長文コンテキスト推論においてOpenAIの避けられない存在感を侵食してきたライバルへの直接的な応答として位置付けられています。

サイモン・ウィリソンは、OpenAIの姿勢を持続的な「コードレッド」と呼び、GPT-5.2が既存の地位に安住するのではなく、前を追い続ける企業の姿勢を示していると主張しました。2025年8月31日の更新された知識カットオフと攻撃的な価格設定は、磨き上げられたものというよりは抑制のように見えます：企業ユーザーがGemini 3やClaude Opus 4.5に流出する前に、OpenAIのスタック内に留めておくことが目的です。

文面上、GPT-5.2は多くの自慢できる権利を取り戻しています。SWE-Bench Proで最先端の数値を記録し、GPQA Diamondで92.4%、AIME 2025で完璧な100%を達成し、Gemini 3 Proの95%やClaude Opus 4.5の92.8%を上回っています。ARC PrizeのARC-AGI 2における54.2%の検証結果は、1タスクあたり15.72ドルで、元のARC-AGIで90.5%を達成したことは11ドルであり、メッセージを強化しています：OpenAIは一般化とコストにおいてリードしています。

ライバルは依然として確固たる地盤を持っています。クラウドソーシングされたLMSys Arenaでは、アルマリナの予備結果がClaude Opus 4.5がトップのコーディングポジションを維持していることを示しており、ユーザーは複雑なソフトウェアタスクにおいてそのスタイルと信頼性を一貫して好んでいます。Gemini 3のツール統合やGoogleのエコシステムとの緊密な連携も、WorkspaceやVertex AIにすでに慣れ親しんでいるチームにとっての利点となっています。

市場のセンチメントはボラティリティを反映しています。最近、KhiやPolyMarketの予測市場はAnthropicからOpenAIにシフトし、2026年1月1日までにOpenAIが最良のコーディングモデルを所有する確率が80～90%と見込まれています。この変動は、初期のGPT-5.2のコーディングベンチマークや、フラビオ・アダモの3D物理シミュレーション、イーサン・モリックのシングルショット・ネオゴシック都市シェーダーなどのデモに続いたものです。

事前トレーニングにおける「壁にぶつかる」という話は早計に思える。GPT-5.2がARC-AGI 2で17%から50%以上に飛躍し、昨年のo3 Hiighランでの390倍の効率向上を達成したことは、スケーリング、アーキテクチャ、データキュレーションにまだ手をつける余地があることを示唆している。このモデルはレースを終わらせるのではなく加速させ、Google、Anthropic、Meta、Mistralに迅速に対応させるか、自らが置いてけぼりにされるリスクを抱えることになる。

よくある質問

GPT-5.2とは何ですか？

GPT-5.2は、OpenAIの最新のフラッグシップAIモデルで、2025年12月にリリースされました。これは、論理的思考、コーディング、ビジュアル理解、および効率性において大幅な改善を特徴としており、特にプロフェッショナルで経済的に価値のある作業を対象としています。

GPT-5.2は、Claude Opus 4.5などの競合と比べてどのような違いがありますか？

初期のベンチマークによると、GPT-5.2はClaude Opus 4.5やGemini 3 Proなどの競合を、AIME 2025数学競技で満点を獲得し、ARC-AGI 2一般化テストで最先端のスコアを達成するなど、重要な分野で上回っています。

GPT-5.2の最大の改善点は何ですか？

最も驚くべき改善は、ARC-AGI 2ベンチマークでのパフォーマンスの向上で、17%（GPT-5.1）から52%以上に跳ね上がりました。これは、人工知能の基本要素であるモデルの学習能力と一般化能力における大きな飛躍を示しています。

GPT-5.2を使用するのは、より高額ですか？

はい、GPT-5.2のAPI料金は前のバージョンよりも高くなっています。たとえば、入力トークンの価格は、百万トークンあたり1.25ドルから1.75ドルに増加しており、これはモデルの性能向上を反映しています。

Found this useful? Share it.

AI Reputation Report

What AI knows about you.

ChatGPT, Perplexity, Gemini, Claude & Grok are already answering questions in your category. Type your site, see who they name — you, or your competitor. Free preview.

Check my sitefree preview

One short daily email of tools worth shipping. No drip funnel.