GPT-5のARC-AGIベンチマークスコア：AI推論におけるブレークスルー

💡

TL;DR / Key Takeaways

バイラル動画が、GPT-5が合格不可能なAIテストに合格し、人間レベルの知能を達成したと主張しています。しかし、真実ははるかに興味深く、AGIを加速させる本当の秘密を明らかにします。

AIを打ち破るために作られたテスト

秘密のGPT-5の突破口に関する噂は、あるチャートから始まりました：新しいARC-AGI-2ベンチマークでの75～76％というスコアが主張されており、これはおおよそ60％の平均的な人間の受験者を楽に上回っています。この話はXやYouTubeで拡散され、AIがAGIを制御するために明示的に作られたテストでついに人間に勝った瞬間として語られました。

ARC-AGIは、言語モデルのスケーリングが一般知能の構築とは異なると主張してきたフランソワ・ショレ氏（Google DeepMindの研究者）に由来しています。彼のARC（抽象と推論のコーパス）ベンチマーク、およびその新しいARC-AGI-2バリアントは、人間が未見のパズルを解くために使用する流動的な推論の種類を対象としています。

ARC-AGIは、トリビアクエスチョンや教科書の問題の代わりに、小さなカラフルなグリッドを提示し、モデルに隠されたルールを推測させます。各タスクには、ちょうど3つの入力-出力例が含まれ、その後、モデルがゼロから正しい出力グリッドを生成しなければならない4つ目の入力があります。指示、ラベル、選択肢はありません。

ベンチマークは流動知能を測定します：パターンの発見、構成的推論、そしてほとんどデータがない状態からの一般化です。厳格なPass@2メトリックを使用しており、モデルは各タスクに対して最大2回の試行が許可され、部分的なクリアはなく、解決策ごとの計算コストに注目しています。

そのデザインにより、ARC-AGIは大規模言語モデルにとって非常に困難になります。LLMは、ウェブ規模のテキストから記憶したパターンに依存できるときに優れた性能を発揮しますが、ARC-AGIのパズルは手続き的に生成され、視覚的であり、言語的ではなく、一般的なトレーニングコーパスのどれとも意図的に異なります。

MMLU、GSM8K、またはHumanEvalのような標準的なリーダーボードは、推論と記憶の境界をあいまいにすることがよくあります。ベンチマークはトレーニングデータに漏れ込み、モデルベンダーは類似の質問形式に直接ファインチューニングを行います。スコアは上昇し、これは真の理解よりも「データ汚染」についてもっと語っている可能性があります。

ARC-AGIは逆の方向に進んでいます。タスクは「人間にとって簡単でAIには難しい」もので、人間の解決者は時間を与えられれば実質的に100％の成功率を達成しますが、初期のフロンティアモデルはARC-AGI-2で数パーセントのスコアを記録するのがやっとでした。このギャップが、たとえ未確認であっても、主張された75％のGPT-5スコアが警鐘を鳴らす理由です。もしそれが真実であれば、それはAIが知識を単に反芻するのではなく、人間のように全く新しいルールを解明することを示すことになります。

グリッドで考える：ARCがなぜそんなに難しいのか

グリッド上のカラフルな正方形はチューリングテストのようには聞こえませんが、ARC-AGIはその子供向けおもちゃの美学をAIの鋭利なツールに転換します。各パズルは、小さな入力グリッドと対応する出力グリッドのいくつかを示し、次にモデルに同じ隠れたルールを使用して新しいグリッドを変換するよう求めます:青いブロックを鏡像にする、赤い形を1ピクセル成長させる、または最大の連結成分以外のすべてを削除するかもしれません。

人間はこれらの例を見て、ほぼ即座に構造を語り始めます。「ああ、黄色の線が中央を示している」や「パターンは3つのセルごとに繰り返される」といった具合に。現在のモデルにとって、これらの10×10または20×20のグリッドは組み合わせの地雷原です。色付きのピクセルが増えるごとに、データに適合する可能性のある変換の数が倍増し、言語モデルの事前学習コーパス内にはこのようなものはほとんど存在しません。

ARCの創造者フランソワ・ショレは、これを純粋な流動性知能のテストとして設計しました：新しい状況で推論し、パターンを発見し、即座に概念を再結合する能力です。これは、記憶された事実や馴染みのあるテンプレートに依存する結晶性知能とは対照的であり、大規模なテキストを復唱しリミックスすることで大規模言語モデルが輝く場面です。

ARC-AGI-2では、記憶するためのトレーニング分割も、利用するためのデータセットのオーバーラップもありません。モデルは各タスクごとに3〜5の入力-出力ペアを見ただけで、新しい例に対して一般化しなければなりません。勾配の更新もなく、ファインチューニングも行われません；すべてはテスト時に発生し、モデルの既存の重みとそれを取り巻くあらゆる構造の中で行われます。

システムを正直に保つために、ARC-AGI-2はPass@2メトリックを使用しています：モデルはタスクごとに最大2回の試行ができます。「ほぼ正解」に対する部分的な得点はなく、何千ものサンプルを試して1つが当たるまでのチャンスもありません。また、ベンチマークは効率も追跡し、各試行が消費する計算量をカウントするため、候補プログラムの力任せの列挙に対してペナルティを課します。

人間は対照的に、これらのパズルを数分で解決し、しばしば一つの明確な洞察で解決します。このギャップ—人間の「明白」と機械の「不透明」の間—は、今日の最高のモデルが真の抽象化にどれほどまだ遅れているかを浮き彫りにしています。それでも、彼らは結晶化された知識に基づいた試験では優れた成果を上げています。

誰も予想しなかった「アンホブリング」革命

「アンホブリング」はニッチな整合性の用語のように聞こえますが、レオポルド・アッシェンブレナーはそれを非常に単純なことを示すために使用しています：現在のモデルは賢いが、人工的に制約されています。彼の2024年の「状況認識」論文は、短期的な利益の大部分はより大きなモデルからではなく、その足かせを取り除くことから得られると主張しています。

彼のアナロジーは鋭く響く。LLMに難しい数学問題を一瞬で解決するよう求めることは、紙もペンも使わずに人間に即座に答えを言わせるようなものだ。思考の連鎖を促すことで、その「推測をするチャットボット」が多段階の推論を通じて歩むことができるシステムへと変わり、突然、遥かに難しい問題を見事に解決できるようになった。

今日のフロンティアモデルは依然として大きな制約を受けています。アッシェンブレンナーは彼らの問題点を指摘しています： - 力強い長期記憶がない - コンピュータやファイルシステムを流動的に使えない - 拡張した内部での熟慮を経て「話す前に考える」ことがほとんどない - 主に短期間の単一スレッドのチャットで運営されており、持続的なプロジェクトではない

アンホブリングとは、ツールの使用、計画ループ、外部メモリ、マルチエージェントオーケストレーションなどを通じて制約を修正することを意味します。これは、同じ基盤の重みでできることを変えるため、アッシェンブレンナーはこれを単なるユーザーエクスペリエンスの向上ではなく、アルゴリズムの進歩として分類しています。

この数値からも明らかです。ポエティックのメタシステムは、約人間レベルのARC-AGI-2パフォーマンス（約60%）を持つGPT-5バリアントを約75～76%に引き上げ、Grok-4スタイルのモデルを同様の推論テストで約56～57%から約72%に向上させています。これを大規模なベースモデルなしで実現しています。GoogleのGemini 3ラインも同様の傾向を示しており、30%未満から中途の40%台、そしてARCスタイルのタスクにおいて人間の基準を超えるまで、連続した制約解除のパスを経て進化しています。

そのダイナミクスはタイムラインを再構築します。単独での「障害解除」が次世代モデルを必要とするはずのベンチマークで10〜20ポイントのジャンプを実現できるなら、GPT-6規模のトレーニング実行を待つ必要はありません。OpenAI自身のIntroducing GPT-5 - OpenAIのメッセージも似たテーマに重きを置いています：より多くのツール、より多くの文脈、そして生のスケールの上に重ねられたより多くのエージェンシー。

アッシェンブレナーの予測は率直だ：2027年までに、現在のチャットボットがそのまま進化し続けることで、単なる対話型検索ボックスではなく、よりエージェントや共同作業者に近い存在になる。

インサイド・ポエティック：『マネージャーAI』戦略

ポエティックはGPT-5 ARCストーリーの中心に位置しています。TheAIGRIDのビデオは、同社が新しい脳をゼロから訓練するのではなく、フロンティアのOpenAIモデルの周りに「制限を取り除く」スキャフォールドを構築したとしています。彼らの主張は、GPT-5を約人間レベルのARC-AGI-2パフォーマンスから、基盤となる重みをスケールアップすることなく報告される75〜76%に引き上げるメタシステムです。

Poeticのアプローチの核心には「マネージャーAI」があります。各パズルに対して単一の巨大モデルを呼び出すのではなく、マネージャーはグリッドを検査し、高レベルの計画を提案した後、それをサブ問題に分解します。各サブ問題は、パターン認識に特化したモデルや、コード生成、検索、検証に特化したモデルなど、専門のワーカーモデルにルーティングされます。

重要なことに、このマネージャーは単に促すだけでなく、祈ることもしません。以下のことができます： - パズルグリッドに対してコードを書くことと実行すること - 中間出力を検査し、それをターゲットと比較すること - 道筋が間違っているように見えるときに代替戦略に分岐すること - 正しい解決策が現れたら、いつ停止するかを決定すること

そのループ—計画、実行、確認、修正—はARCを一回限りの推測ゲームから反復的な探索へと変えます。このシステムは高価なフロンティアモデルに依存するのではなく、何十もの安価なワーカーコールを実行することができます。Poeticは、マネージャーが候補出力が要求されたグリッドと完全に一致するたびに早期に停止するため、難しい推論タスクの計算コストを大幅に節約できると主張しています。

標準的な単一モデルの設定と対照的に、基本的な世界では、一つの大きなモデルに対して一つのプロンプトを送り、一つの回答を得て、出力が失敗しても全額を支払うことになります。明示的な分解はなく、持続的なスクラッチパッドもなく、ユーザーが「再試行」を押さない限り自己修正もありません。

Poeticのマルチエージェントで自己修正するアーキテクチャは、連想思考がほのめかすものを効果的に外部化します。単一のモデルを段階的に考えさせるのではなく、マネージャーはチームを統率し、必要な場所にテスト時間の計算リソースを割り当て、行き止まりを排除します。ARC-AGI-2のようなベンチマークにおいて、その種の構造化されたメタ推論は、さらに10億のパラメータよりも重要になることがあります。

現実チェック：本物のARC-AGIリーダーボード

現実は実際のARC Prizeリーダーボードを開けた瞬間に突きつけられます。ウイルスのように広まった75%のGPT-5スコアは、そこには存在しませんし、独立して確認された他の場所にもありません。代わりに、公表された数字は、現在のモデルがどこにあるのかについて、はるかに現実的でありながらも驚くべき状況を示しています。

メインのARC-AGI-2ボードにおいて、基本のGPT-5はPass@2スコアがわずか9.9%となっており、他の最前線モデルと同じく苦しむグループに位置しています。具体的には、Claude Opus 4は8.6%、さまざまなGemini 3バリアントは低い二桁台、さらに多くのシステムは2%から6%の間で停滞しています。Grok-4「Thinking」は、早期のランキングで16.0%を記録し、AGIの勝利を誇るには程遠い結果です。

さらにスクロールすると、いわゆる奇跡のモデルが異なる姿で現れます：GPT-5.2、新しいOpenAIシステムが突然進化をもたらします。公式のARC-AGI-2「システム」リーダーボードでは、GPT-5.2は約53～54%のPass@2を記録しています。このスコアはGPT-5の9.9%の3倍以上、GPT-5.1の報告された17.6%のおおよそ3倍を上回り、約45%のGemini 3 Proなどの以前のスターたちを快適に凌駕しています。

しかし、人間は依然としてこのベンチマークを持っています。ARC-AGI-2の人間の基準は、平均的な受験者で約60%であり、検証されたセットでは、少なくとも9人または10人のうち2人が解決したタスクのみをカウントすると、98–100%に近づきます。ARCの全体的な目的は、これらのグリッドパズルが人間には「明白」に感じられる一方で、機械には brutalに不透明であることです。

その文脈は、75～76%の主張を測定ではなくマーケティングのように見せます。公に発表されたリーダーボードのエントリー、論文、またはARC賞のアップデートの中には、どのGPT-5のバリアント、Poeticシステム、またはGrokの構成も人間の平均60%のラインを超えたというものはなく、ましてや15ポイントも上回るようなものはありません。そのような実績があるのなら、それは公式には確認できず、競技ベンチマークの基準からも外れたものでしょう。

これらのことは、実際に確認された53〜54％のGPT-5.2の結果がどれだけ衝撃的であるかを薄れさせるものではありません。単一のモデルファミリーが、ARC-AGI-2で20％未満から50％以上にジャンプすることは、抽象的推論のパフォーマンスにおいて劇的な変化を表しています。人間レベルにはまだ届いていませんが、そのギャップはほとんど誰も予想していなかったよりもずっと早く狭まりました。

なぜ54%が100%よりも印象的なのか

ARC-AGIの進展は、決して滑らかな曲線のようには見えませんでした。長年にわたり、最先端のモデルはARCスタイルのパズルで0%から6%の間をうろうろしており、莫大なトレーニングを受けても流動知性を示すことができませんでした。彼らは弁護士試験やコーディング面接で問題なく合格する一方で、5×5のカラースクエアのグリッドでつまづくこともありました。

だからこそ、54%は仮想の100%よりも重要です。GPT-5.2が報告されているようにARC-AGI-2で中間の50%台を達成することは、モデルが「ほぼ機能していない」状態から「賢い人間が解決できるほとんどの問題を解決する」状態へと飛躍したことを意味します。これは、限界のベンチマークの向上ではなく、質的な相転移です。

ARC-AGI-2はPass@2を使用します：2回の推測、部分的なクレジットなし、コスト感度評価。以前のフロンティアモデルであるGPT-5、Claude Opus 4、Grok-4 Thinkingは、スコアが一桁から低い十代に集中していました。約53〜54%の飛躍は、それらのスコアを3倍以上にしますが、平均的な人間は約60%で、キュレーションされた人間のベースラインは98〜100%に達します。

重要なのは、その飛躍が単にモデルのサイズを拡大することから生まれたのではないということです。それは制約を解除することから生まれました：より良い検索、スクラッチパッドによる推論、ツールの使用、そして基盤モデルを中心にしたマネージャースタイルのオーケストレーションです。Poeticの「マネージャーAI」アプローチは、タスクのルーティング、問題の分解、解決策の反復を行い、レオポルド・アッシェンブレナーが能力の次なる重要な推進因子として指摘したアルゴリズムの進展を体現しています。

アッシェンブレナーの論文はシンプルだった：モデルはその単純な一度きりの出力が示唆するよりも遥かに多くの能力を持っている。構造化された思考、記憶、ツールを加えることで、潜在的な知性が解放される。ARCの0–6%から>50%への飛躍は、その議論のグラフ版である。

サム・アルトマンは、ARCを「本物の」AGIの指標として繰り返し指摘しています。なぜなら、ARCは記憶やプロンプトエンジニアリングのハックに対して抵抗力があるからです。OpenAIの関係者によると、彼らは派手な標準化テストよりもむしろARCの曲線を注意深く追跡しているとのことです。そのラインが急上昇すると、AGIを構築している人々は注目します。

誰でも**ARC Prize - Abstract Reasoning Corpus**の公開リーダーボードと方法論を閲覧できます。見出しは完璧さではなく、ついに進展があったということです。

スケーリングを超えて: AGIへの新しい道

スケーリングの法則は良い成果を上げてきました。過去5年間のほとんどにおいて、大規模言語モデルの進展はシンプルなレシピに従ってきました：より多くのパラメータ、より多くのデータ、より多くの計算。GPT-3からGPT-4、そしてGPT-5へと進む様子は、対数対数チャート上で一直線に見え、パフォーマンス曲線は見事に冪則方程式にフィットしました。

ARC-AGI-2は、このストーリーを静かに明らかにします。GPT-5.2のようなモデルは、以前のARCスタイルのタスクでの低い2桁から、ARC-AGI-2では約53〜54%にジャンプしていますが、これは誰かがトリリオンパラメーターの巨大モデルを訓練したからではなく、研究者がモデルの思考方法をテスト時に変更したためです。システム設計とアルゴリズムが、純粋なスケールではなく、飛躍的な変化をもたらしました。

元のARCベンチマークを作成したフランソワ・ショレは、何年もこのことを主張しています。彼の見解では、真の一般知能は、単に相関関係を再生する静的な事前学習された重みの塊には宿りません。それは、リアルタイムで仮説を構築・修正し、解決策の空間を探索し、新しいタスクに出会ったときに戦略を適応させることができるシステムを必要とします。

その哲学はARCのデザインに直接現れています。各パズルは3〜5の入力出力の例を示し、その後に全く新しいテストグリッドが与えられます。インターネット規模のトレーニングセットでは助けを得ることはできません。これを解くためには、モデルはテスト時学習を行う必要があります：ルールを推測し、候補となる変換を検索し、限られた計算リソースの中で自己修正するのです。

「アンホブリング」とは、それを真剣に受け止め、強力なベースモデルを科学者のように振る舞わせるスキャフォールディングで包むことを指します。レオポルド・アッシェンブレナーの「状況認識」論文では、思考の連鎖を促すプロンプト、ツールの使用、長期的な計画といったものが、潜在的な能力を引き出すための簡単な調整として挙げられています。Poeticのマネージャー-LLMアーキテクチャは、そのアイデアを製品化したものです。

一つの巨大なフォワードパスの代わりに、Poeticは複数のモデル、ツール、再試行を調整し、計算リソースの使い方を決定するマネージャーAIの下で行います。これはスケーリングの革新ではなく、アーキテクチャの革新です。内部の推論テストにおいてGrok-4の「思考」が約56〜57%から約72%に上昇したり、Gemini 3のバリエーションがARCスタイルのタスクで30%未満から人間レベルに達したのは、こうしたシステム全体の力を引き出すことから生まれた結果です。

そのパターンが続くなら、AGIは単一の巨大神モデルとしてではなく、むしろ適応型コンポーネントの緊密に統合されたスタックとして現れるかもしれません。 brute forceがエンジンを構築したのなら、巧妙なアーキテクチャが車を完成させるかもしれません。

ゴールポストが移動している: ARC-AGI-3とその先へ

ARC-AGI-2はすでに厳しいですが、その制作者たちは静止していません。ARC Prizeチームは静かにARC-AGI-3、次世代のベンチマークに取り組んでおり、2026年頃を予定しています。このベンチマークは、静的テストでのみ賢く見えるモデルを打破することを明確に目的としています。

ARC-AGI-3は、固定されたパズルとして色付きのグリッドを使用するのではなく、未知の環境にモデルを投入し、何が重要であるかを理解するよう求めます。「このパターンを解決する」というよりも、「奇妙なマイクロワールドにいて、オブジェクトとルールがある。どう機能するかを発見し、目標を達成してください。」というイメージです。

その移行は受動的なパターンマッチングを対話的推論に変えます。モデルは環境に働きかけ、実験を行い、何かが壊れたときに仮説を更新する必要があり、人間が新しいツール、ゲーム、またはインターフェースを学ぶ方法により近づきます。

新しいベンチマークは、今日の最前線モデルが巧妙なプロンプティングで主に偽っているスキルを対象としています。成功するためには、AIは以下のことが必要です：

1効率的に探検し、無作為にクリックするのはやめましょう。
2自分でサブゴールを設定し、手を引かれずに進める
3まばらなフィードバックから世界モデルを構築し、修正する
4複数のステップからなる行動のシーケンスを計画し、それを信頼性高く実行する

ARC-AGI-3は、現在の評価における最大の欠陥の一つである密な指示にも攻撃を仕掛けます。モデルに対して何をすべきかを明確に指示する自然言語の仕様の代わりに、システムはしばしばいくつかの例、部分的な報酬、あるいは単に「良いことを起こす」という指示からタスクを推測しなければなりません。

それはエージェンシーのテストであり、単なる推論ではありません。「この空間を地図化し、オブジェクトの挙動をカタログ化し、次に目標への道を探すべきだ」と自律的に決定できるシステムは、促しを待つチャットボックスよりも、レオポルト・アッシェンブレナーが予測した「AI同僚」にずっと近いように見えます。

ARC-AGI-2がモデルがルールを丁寧に教えられた際に難解なパズルを解けるかどうかを測定するのに対し、ARC-AGI-3は新しい世界に入り込み、自らルールを学ぶことができるかどうかを問います。このギャップを超えること、すなわち問題解決者から適応可能なエージェントへと進化することが、AGIへの道における次の本当のハードルです。

「制約のない」AIがあなたのワークフローをどう変えるか

非制約が抽象的でなくなるのは、AIがチャットウィンドウのように振る舞うのをやめ、あなたの仕事の一部を持つ同僚のように行動し始めた瞬間です。レオポルド・アッヒェンブレナーの賭けは具体的です：2027年までには、ほとんどの知識労働者が質問に答えるだけでなく、計画を立て、記憶し、実行するエージェントと毎日対話するようになるでしょう。このシフトは「プロンプトエンジニアリング」を管理やコラボレーションに近いものに変えます。

あなたの会社のSlackとJiraに組み込まれたプロジェクトマネージャーエージェントを思い描いてください。あなたはそれに目標を与えます—「新しいオンボーディングフローを3月15日までに出荷する」—するとそれは作業を分解し、チケットを作成し、他のエージェントとの依存関係を交渉し、判断を必要とする承認や決定のためにだけ人間に連絡します。消費率をトラッキングし、過去のベロシティを使用して遅延を予測し、ステークホルダーへの更新を自動的にドラフトします。

ソフトウェアエンジニアは、制約のないシステムに混沌としたモノリスを渡し、「パフォーマンスのボトルネックを見つけ、サービスへの移行計画を提案せよ」と言うかもしれません。エージェントはリポジトリをクロールし、コールグラフを構築し、ステージング環境でプロファイリングを行い、リファクタリングを伴うプルリクエストを開き、回帰テストを作成します。人間のエンジニアはレビューして指導しますが、レガシーコードを掘り下げてボイラープレートを配線するという面倒な作業はほとんど消えてしまいます。

マーケットアナリストは、単発のクエリの代わりに、全体の調査プロジェクトをオフロードすることができます。リアルタイムのウェブツールとAPIアクセスを持つエージェントは、以下のことができるかもしれません： - セクター全体の収益コールや10-Kをスクレイピングする - 価格、センチメント、ボリュームデータをリアルタイムで追跡する - キャッシュフローモデルに対してシナリオ分析やモンテカルロシミュレーションを実行する - チャート、注意事項、推奨取引を含む20ページのブリーフを統合する

ARC-AGI-2のようなベンチマークや、GPT-5ベンチマークリポジトリのデータセットがこの変化を静かに支えていますが、表面的な体験は平凡に感じられます: タブが少なく、会議が少なく、手書きのステータス文書が減ります。魔法は、アッシェンブレナーが指摘する制約を解放することから生まれます—短いコンテキストウィンドウ、ツールの不足、長期記憶の欠如、計画ループの不在—そして、それらを修正するための足場にモデルをラップします。

あなたの仕事は、「賢いプロンプトを入力して賢い回答を得る」というものから変わります。明確に目標を定義し、トレードオフを交渉し、ジュニアチームメンバーと同じように計画をレビューする必要があります。コラボレーションは、ガードレールを設定し、ロジックを確認し、既存のワークフローにエージェントを統合することを意味し、チャットボットを育てるのではなくなります。

真のAI競争は、規模ではなくシステムに関するものです。

GPT-5が75%の確率でARC-AGI-2を「通過」したという秘密に関するバイラルな盛り上がりは、間違っていたことが判明しました。しかしこの話は偶然にもより深い真実にたどり着きました。それは、フロンティアがもはや単一の巨大なモデルの中に存在するのではなく、それを取り巻くシステムの中に存在しているということです。

ARC賞の独自のリーダーボードによると、GPT-5は9.9%、GPT-5.2は約53～54%であり、主張されている75～76%からは遠く離れています。この噂と現実のギャップは、今日の進展が、魔法のような新しい兆候のあるトリリオンパラメータの脳ではなく、より良いオーケストレーション、検索、ツールから来ていることを強調しています。

基盤モデルは依然として重要です。GPT-5.2は、GPT-5.1の17.6%のARC-AGI-2スコアを約3倍にしました。しかし、最も大きな進展は、これらのモデルを支える「マネージャーAI」、ツールの使用、長期記憶、そして同じ基盤の重みからより効果的な推論を引き出すための多段階計画によって実現されています。

その変化は静かに競争環境を再構築しています。もはやハイパースケールのデータセンターを所有する必要はなく、購入できるAPIアクセスの上に最もスマートなエージェンティックスタックを設計する必要があります。

小さなラボは、既製のモデルを使って以下を追加できます： - 問題をサブゴールに分解するプランナー - コード、検索、および専門的なソルバーを呼び出すツールルーター - 回答を相互に確認し、反復処理する検証者

ARCに似たタスクにおいて、その追加機能は1桁のパフォーマンスと人間に近いパフォーマンスの違いを意味することがあります。

Poeticの噂の「マネージャーAI」は、このアークにぴったりです。モデルを呼び出すか、生成するサンプルの数、再試行やエスカレーションのタイミングを決定する制御装置です。GPT-5の数値が実際に有効かどうかに関わらず、そのアーキテクチャは正しい方向を示しています：LLMをオラクルではなくコンポーネントとして扱うシステムです。

それが本当の競争です：誰がコンピュートごとに最も高性能でコスト効率の良い推論システムを構築できるかということであり、誰が最も大きな生のパラメータ数を発表できるかではありません。モデルのサイズは依然として余裕をもたらしますが、その余裕がどれだけ実用的な能力に変換されるかは、制約を取り除くことにかかっています。

チャットボットから同僚への一貫した流れとして、アンホブリングを注視してください。今日の大規模言語モデル（LLM）から明日のエージェントへ至る最短の道は、単により大きなGPUを使うのではなく、システムエンジニアリングを通るのです。

よくある質問

ARC-AGI-2ベンチマークとは何ですか？

これは、フランソワ・ショレによって設計されたテストで、AIの「流動知能」を測定します。流動知能とは、非常に少ない例で新しい抽象的な推論パズルを解く能力のことです。人間には容易いことですが、現在のAIには苦手な分野です。

AIの「自由化」とは何を意味するのでしょうか？

レオポルド・アッシェンブレナーによって提唱された「アンホブリング」とは、AIの性能を向上させることを指し、その方法は基本モデルを大きくするのではなく、制限を取り除くことです。これは、記憶、ツール、または段階的な推論フレームワークを追加することで、よりスマートなシステムを構築することによって達成されます。

GPT-5は実際に人間のレベルの基準をクリアしたのでしょうか？

いいえ。バイラルな主張にもかかわらず、公式のリーダーボードではGPT-5.2がARC-AGI-2で約54％のスコアを記録していることが示されています。これは大きな進展ですが、依然として平均的な人間のスコアである約60-100％には届いていません。この進歩は、単にベースモデルの力から来ているのではなく、「自由化」技術によるものです。

レオポルド・アッシェンブレナーとは誰ですか？

彼は元OpenAIの研究者で、2024年の詳細な論文『状況認識：今後の10年』で知られています。この論文ではAGIに向けた迅速な戦略的進展について論じ、‘アナハブリング’といった概念を普及させています。

𝕏 in ↑↗

GPT-5の秘密のAGIブレイクスルー