GoogleがAGIのルールを書き換えた

主要なAI研究機関は、AGIが何であるかについて合意がないまま、AGIの開発競争を繰り広げている。Google DeepMindは、この議論に終止符を打つための科学的フレームワークを発表した。それは人間の心に基づいている。

Stork.AI
Hero image for: GoogleがAGIのルールを書き換えた
💡

要約 / ポイント

主要なAI研究機関は、AGIが何であるかについて合意がないまま、AGIの開発競争を繰り広げている。Google DeepMindは、この議論に終止符を打つための科学的フレームワークを発表した。それは人間の心に基づいている。

AGIのワイルドウェストは終わった

汎用人工知能(AGI)の追求は、主要なAI研究機関の間で激しく、しばしば混沌とした世界的な競争を推進している。人間レベルの認知能力を持つシステムを開発するために数十億ドルと数えきれないほどの時間が費やされているが、この記念碑的な取り組みのゴールラインは依然として不明確である。すべての主要なプレーヤーはAGIを究極の目標と宣言しているが、その達成が真に何を意味するのかについては誰も合意しておらず、進歩が主観的でしばしば定量化できない「ワイルドウェスト」のような状況を生み出している。

主要な研究機関はAGIに対して大きく異なるビジョンを提示しており、業界のコンセンサス不足を浮き彫りにしている。OpenAIはAGIを「ほとんどの経済的に価値のある仕事において人間を上回る、高度に自律的なシステム」と定義し、経済的有用性を強調している。

対照的に、Google DeepMindの共同創設者であるシェーン・レッグは、AGIを「人々が通常できるような認知的なことを少なくとも実行できる人工エージェント」と表現している。ARCベンチマークの作成者であるフランソワ・ショレは、知能をスキル習得の効率性、つまりシステムが新しい概念をどれだけ迅速に学習するかという観点から捉えている。

この深い定義の曖昧さは、AGIの進捗状況を客観的に評価することをほぼ不可能にしている。目標に対する共通の理解がないため、業界はAI能力の主観的な「雰囲気ベース」の評価に頼りがちである。これらの評価は、印象的だが狭いベンチマークスコアによって行われることが多く、それらはしばしばデータ汚染や記憶に悩まされ、真の汎用知能を曖昧にしている。

問題は明確になる。一貫して定義することさえできない目標への進歩を、どうすれば正確に測定できるのか?この根本的な課題はAIコミュニティを悩ませ、真のブレークスルーが単なる漸進的な改善と区別しにくい投機的な環境を生み出してきた。Google DeepMindの最近の論文は、この測定の空白に直接立ち向かい、インテリジェントシステムを評価する方法における根本的な転換を提案している。

Googleの新しい知能のルールブック

イラスト: Googleの新しい知能のルールブック
イラスト: Googleの新しい知能のルールブック

2026年3月16日、Google DeepMindは、汎用人工知能の追求を再定義する画期的な論文を静かに発表した。「AGIへの進捗測定:認知フレームワーク」と題されたこの文書は、評価に対する構造化された科学的アプローチを提案することで、現在のAGIの「ワイルドウェスト」に直接対処している。既存のベンチマークの恣意的なゴールラインを、数十年にわたる人間の認知科学に基づいた、知能そのものに対する包括的なルールブックに置き換えるものである。

DeepMindの核心的な提案は、AIの真の能力をしばしば誤って表現する、単一で操作可能なベンチマークスコアから根本的に転換することを提唱している。代わりに、この論文は、人間の知能を綿密にモデル化した完全な認知プロファイルの必要性を提唱している。このフレームワークは、知覚、推論、社会的認知を含む10の異なる認知能力にわたるAIシステムの能力を評価し、そのパフォーマンスを実際の人間の分布と直接比較する。これにより、単なるタスク完了を超えて真の知能を評価し、AIの知的状況を全体的に理解することが保証される。

重要なことに、このフレームワークは根本的な区別を設けています。それは、システムが*何を*達成できるかに焦点を当てており、*どのように*達成するかには焦点を当てていません。AIがtransformer architectures、diffusion models、あるいは全く新しいメカニズムを利用するかどうかは、その評価には関係ありません。この論文の重点は、観察可能な結果と実証可能な知的能力のみに置かれており、評価を基盤となる技術的実装から切り離しています。この「ブラックボックス」アプローチは、AI技術が進化し続ける中で、幅広い適用可能性と評価の将来性を保証します。

このイニシアチブは、AGIに関する議論に切望されていた科学的厳密さを注入するための極めて重要な動きです。共通言語と標準化された多次元評価プロトコルを提供することで、Google DeepMindは世界中の研究努力を統合することを目指しています。それは、世界中の研究室が客観的かつ協力的に進捗を測定できるようにする普遍的な基準を確立し、AGI競争を混沌としたスプリントから透明で共有された科学的努力へと変えることを目指しています。このフレームワークは、人間レベルの汎用人工知能への真の進歩を追跡するための堅固な基盤を提供します。

心の解体:10の能力

Google DeepMindの新しいフレームワークは、精神能力の構造化された分類である正確な認知分類学に根ざしています。これはAIのために考案された恣意的なリストではなく、認知科学、心理学、神経科学にわたる数十年にわたる確立された研究から直接引き出されています。このフレームワークは、人間の知能がどのように研究されてきたかに意図的に対応しており、人工システムを評価するための堅固で経験に基づいた基盤を提供します。この基礎的な選択により、AGIの議論は哲学的抽象論から測定可能で科学的な比較へと移行します。

この分類学の中心には、人間で観察される知能の基本的な構成要素として特定された10の異なる認知能力があります。 - 知覚:感覚情報を抽出し、処理すること。 - 生成:テキスト、音声、行動などの有用な出力を生み出すこと。 - 注意:関連情報に認知資源を集中させること。 - 学習:新しい知識を獲得し、展開後に適応すること。 - 記憶:時間とともに情報を保存および検索し、古いデータを忘れること。 - 推論:様々な論理的推論を通じて有効な結論を導き出すこと。 - メタ認知:不確実性の自己認識を含む、自身の認知プロセスに関する知識と監視。 - 実行機能:目標達成のために計画を立て、衝動を抑制し、戦略を切り替えること。 - 問題解決:複数の能力を適用して、新しい課題に対する解決策を見つけること。 - 社会認知:社会的合図を理解し、他者の思考を推測し、適切に協力すること。

これら10の能力は集合的に包括的なプロファイルを形成し、人間の認知能力の全範囲にわたってAIシステムを評価するように設計されています。単一で簡単に操作できる「AGIスコア」ではなく、Google DeepMindは、これらの各次元にわたってAIのパフォーマンスを評価し、それを人間のベースラインと直接比較することを提案しています。この詳細なアプローチは、AIの真の知的進歩について、はるかに客観的で情報量の多い評価を約束します。

重要なことに、この論文はシステムが「何を」達成できるかを評価することに重点を置いており、「どのように」達成するかではないと強調しています。この重要な区別により、フレームワークはテクノロジーに依存せず、トランスフォーマーから新しい設計まで、特定のメソドロジーに偏ることなく、あらゆるAIアーキテクチャに適用可能であることが保証されます。フレームワークの詳細については、AGIへの進捗を測定する:認知フレームワーク - Google Blogを参照してください。20万ドルの賞金プールを伴うKaggleハッカソンは、特にMetacognitionや社会的認知のような複雑な分野で、現在評価のギャップが最も大きい領域において、堅牢な評価を共同で構築するというGoogle DeepMindのコミットメントをさらに強調しています。今後のセクションでは、これら10の能力それぞれについて詳しく掘り下げ、Google DeepMindが提案する評価方法とAGI開発への深い影響を探ります。

認知の構成要素(パート1)

Google DeepMindの画期的な論文「AGIへの進捗を測定する:認知フレームワーク」は、AIを評価するための厳密な10の能力からなる認知分類法を導入しています。この詳細なフレームワークは、知能システムが世界とどのように相互作用し、処理するかを司る最初の5つの基礎的な能力から始まる、認知の不可欠な「構成要素」を確立します。これらの要素は、単純なベンチマークを超えて、微妙なニュアンスのある能力を定義します。

知覚は最初の能力として位置づけられ、AIが感覚データを単に検出するだけでなく、解釈する能力を評価します。これには、複雑な視覚シーンを理解し、物体、関係、文脈を認識すること、あるいは人間の音声や書かれたテキスト内の微妙な意味を正確に解釈することが含まれます。これは、生データから豊かで実用的な意味を抽出するシステムの能力を測定します。

次に、生成は、AIが有用で、一貫性があり、しばしば斬新な出力を生み出す能力を評価します。これには、明確で文脈に沿ったテキストを作成し、自然な響きの音声を合成することから、物理的または仮想環境での正確なコンピューターアクションや運動動作を実行することまでが含まれます。これは、AIが内部の理解を目に見える外部の結果に変換するスキルを測定します。

3番目の重要な能力である「注意」は、AIが認知リソースを選択的に集中させる人間のような能力を精査します。これは、膨大なデータセットの中から重要な情報に焦点を当て、無関係な注意散漫を効果的に排除することを意味します。現在のAIモデルはしばしばすべてを同時に処理しますが、真の注意は、より効率的で目標指向の処理へのパラダイムシフトを示します。

学習と記憶は、4番目と5番目の相互に関連する柱を形成します。学習は、AIの継続的学習能力を評価します。これは、人間が新しいカードゲームを習得したり、新しい仕事に適応したりするのと同様に、展開後にリアルタイムで新しい知識を獲得し、行動を適応させる能力です。記憶はこれを補完し、システムが長期間にわたって情報を堅牢に保存および取得する能力、そして同様に重要なこととして、古くなったデータや無関係なデータをインテリジェントに忘れ、認知過負荷を防ぐ能力を測定します。

高次思考(パート2)

図:高次思考(パート2)
図:高次思考(パート2)

基礎的な感覚機能と記憶機能を超えて、Google DeepMindのフレームワークは、人間レベルの知能を達成するために不可欠な5つの複雑な認知能力を重視しています。推論は重要な柱を形成し、システムが様々な論理形式を通じて有効な結論を導き出すことを可能にします。これには、演繹的推論、帰納的推論、類推的推論、数学的推論が含まれ、丸暗記を超えて真の理解へと進みます。

現在のAIにおけるおそらく最も重要なギャップであるメタ認知は、AIの自己認識と自身の知識の理解を評価します。システムは「自分が何を知っているかを知り」、不確実性を表明し、あるいは新しいクエリに直面したときにその限界を明確に述べることができるでしょうか?今日のモデルは、自身の認知プロセスを監視するこの重要な能力を欠いているため、悪名高く「自信満々に間違った答えを出す」ことで知られていますが、Claudeは初期の兆候を示し始めています。

次に、実行機能は、AIの高度な制御と戦略的行動の能力を司ります。これらの能力は、しばしば脳のCEOに例えられ、高度な計画、衝動を抑制する重要な能力、そして変化する状況に応じて戦略を動的に切り替えることを含みます。これらはAIが目標を設定し、それを熱心に追求し、アプローチを調整し、長期間にわたって集中を維持して複雑な目標を達成することを可能にします。

問題解決は、これらの多様な認知能力を統合し、新しい現実世界の課題に取り組むものです。この能力は、AIが知覚、推論、計画、学習を統合し、それらを一貫して適用して、なじみのない領域で効果的な解決策を見つけることを必要とします。それは、事前にプログラムされた応答を超え、創造的な解決策を必要とする新しく複雑な状況に真に対処する、システムの適応的知能の能力を表します。

最後に、社会認知は、AIが人間の相互作用とコラボレーションの複雑さを乗りこなす能力を扱います。これには、微妙な社会的合図を理解し、他者の意図や思考を正確に推測し、効果的に協力し、結果を交渉し、複雑な社会状況で適切に対応することが含まれます。これは、人間中心の環境で動作するシステムにとって不可欠であり、孤立したタスクを超えて、複雑な社会力学の中での協調的な関与へと移行します。

2026年3月16日に論文「Measuring Progress Towards AGI: A Cognitive Framework」で紹介されたこの包括的な分類法は、システムが*何を*達成するか、*どのように*達成するかではなく、に焦点を当てています。DeepMindのフレームワークは、トランスフォーマーや拡散モデルのような基盤となるアーキテクチャを明示的に無視し、観察可能な知的行動を優先します。それは、特定の技術的アプローチや内部メカニズムに関係なく、AGIへの進捗を測定するための普遍的なレンズを提供します。

究極の人間対決

Google DeepMindのフレームワークは、AI知能の包括的で偏りのない評価を提供するために設計された、厳格な3段階評価プロトコルで最高潮に達します。この体系的なアプローチは、逸話的な証拠や単一指標のベンチマークを超え、AGIへの進捗を追跡するための新しい基準を確立することを目指しています。

まず、認知評価フェーズでは、AIを幅広いタスクにかけます。これらのタスクはそれぞれ、特定の認知能力を分離してテストするように綿密に設計されています。決定的に重要なのは、これらのタスクは非公開で保持され、第三者によって独立して検証されることです。この厳格な措置は、データ汚染という蔓延する問題に直接対抗し、AIがトレーニング中に単に答えを記憶しただけでないことを保証します。もし記憶していた場合、その知覚される知能を誤って膨らませることになるでしょう。

次に、このフレームワークは堅牢な人間のベースラインを確立します。研究者は、まったく同じタスクを、同一の条件下で、大規模で人口統計学的に代表的な成人人間のサンプル(全員が少なくとも高校レベルの教育を受けている)に実施します。このステップは、人間のパフォーマンスの真の分布を生成し、AIの能力を正確に測定するための不可欠な現実世界のコンテキストを提供します。

最終的に、このプロセスは詳細な認知プロファイルを生成します。開発者は、AIの10の各能力におけるパフォーマンスを、収集された人間の分布と直接比較してプロットします。結果として得られるレーダーチャートは、AIシステムが一般的な人間の能力と比較してどこで優れており、どこで劣っているかを正確に強調する、即座で直感的な視覚的表現を提供します。特定の特性の詳細については、Google DeepMind Plans to Track AGI Progress With These 10 Traits of General Intelligenceをご覧ください。

これらのプロファイルは、いくつかの領域で人間の中央値を下回るシステムや、10のすべての能力でそれを上回るシステムを示すことができます。あらゆるタスクにおいて、サンプル内のほぼすべての人間に匹敵するか、それを上回る、全体で99パーセンタイルを達成するシステムであっても、それは深遠なマイルストーンとなります。ただし、この論文は、人間の能力の有限なサンプルには固有の限界があるため、それがAGIを決定的に証明するものではないと慎重に述べています。

この「IQテスト」がまだ見落としているもの

Google DeepMindの「認知フレームワーク」は堅牢な評価を提供しますが、論文自体が重要な限界を率直に認めています。いかなる単一の評価も知能の全範囲を捉えることはできず、AIのためのこの提案された「IQテスト」も例外ではありません。

決定的に重要なのは、このフレームワークが測定するのは認知能力のみであり、実行速度ではないということです。AIが完璧な推論を示したとしても、ミリ秒の決定を処理するのに数分かかるようでは、自律走行車、高頻度取引、手術用ロボットなど、迅速な応答が最重要となる実世界のアプリケーションには実用的ではありません。

純粋な知性だけでなく、このフレームワークはAIに固有のシステム傾向を見落としています。エージェントが本質的にリスク回避型、無謀、保守的、攻撃的であるかを定量化することはできません。このような傾向は、倫理的な展開と人間の価値観との整合性にとって極めて重要であり、特にAIの運用特性がその能力と同じくらい重要となる高リスクのシナリオではなおさらです。

もう一つの重要な課題は、「モデル対システム」の問題から生じます。人間のIQテスト中に電卓の使用を許可するのと同様に、AIは外部ツールの全スイートを使用して評価されるべきでしょうか?Google DeepMindは、ツールへのアクセスを含む完全なシステムを評価することを提案していますが、これらの補助が測定される根本的な認知課題を些細なものにしないように特別に設計されたタスクにおいてです。

この微妙なアプローチは、AIが本質的な理解を示すことなく、複雑な認知タスクを単に外部ユーティリティにオフロードするのを防ぐことを目的としています。目標は、単に効率的なツール使用ではなく、*知能*を測定することであり、真の認知能力と高度なルックアップ機能との違いをフレームワークが確実に区別できるようにします。

これらの認識されたギャップは、AIシステムのための綿密に設計された認知的な「IQテスト」でさえ、まだ進行中の作業であることを浮き彫りにしています。知能が*何を*意味するかを定義することは画期的な一歩ですが、それが動的で価値を帯びた環境で*どのように*現れるかを理解するには、評価方法論のさらなる進化が必要となるでしょう。

AGIの最も弱いリンクを探す20万ドルの探索

イラスト:AGIの最も弱いリンクを探す20万ドルの探索
イラスト:AGIの最も弱いリンクを探す20万ドルの探索

Google DeepMindのフレームワークは、理論的な提案を超えています。その野心的な認知分類法を直ちに実用化するため、Googleは論文の発表と同時にKaggle hackathonを開始しました。この動きは、学術的な演習を具体的な、コミュニティ主導のイニシアチブへと変えました。

ハッカソンでは、世界中の研究者や開発者を奨励するために、多額の$200,000 prize poolが提供されます。この多大な投資は、フレームワークの10の能力全体にわたる斬新で偏りのない評価の必要性に直接対応するため、実際の評価タスクの作成をクラウドソーシングすることを目的としています。Googleは、これらのテストをゼロから構築するという途方もない課題を理解しています。

重要なことに、このハッカソンは、現在のAI評価方法が最も弱いか、存在しない5つの特定の認知能力を対象としています。これらには以下が含まれます。 - Learning - Metacognition - Attention - Executive functions - Social cognition

これらのカテゴリは、知能の最も複雑で人間らしい側面の一部を表しており、堅牢で不正ができない評価にとってかなりの障害となります。既存のベンチマークは、これらの微妙な領域ではしばしば不十分です。

世界のAIコミュニティを巻き込むことで、Google DeepMindは、その3段階評価プロトコルに不可欠な、洗練されたターゲットを絞ったテストを迅速に開発しようとしています。この共同アプローチは、真の機械知能を測定し理解する私たちの集合的な能力における最も重要なギャップを埋め、学術論文を生き生きとした進化する標準へと変えることを目指しています。このハッカソンは、概念化だけでなく、実践的な実装へのコミットメントを示しています。

これが唯一のリトマス試験紙なのか?

Google DeepMindの「Measuring Progress Towards AGI: A Cognitive Framework」は、包括的なAGI評価の新しいゴールドスタンダードを確立していますが、それは重要なベンチマークのより広範なエコシステムの中に存在します。AI研究コミュニティは、それぞれが機械知能の異なる側面を明らかにするように設計された多様な評価を活用しています。特に、Google AIの研究者であるFrançois Cholletによって開発されたARC-AGI、またはAbstraction and Reasoning Corpusは、著しく対照的な視点を提供します。

CholletのARC-AGIは、根本的に異なる種類の課題を提示します。知能を10の異なる能力にわたってマッピングするGoogle DeepMindの広範な認知分類とは異なり、ARC-AGIはfluid intelligenceと最小限の例からルールを推論する能力に焦点を絞っています。これは抽象的な視覚パズルで構成されており、エージェントは入出力のペアを観察し、学習した変換を新しい、未見の入力に適用する必要があります。中心的な要求は、訓練データを超えた真の汎化です。

決定的に、現在の最先端のAIモデルは、言語生成、画像合成、複雑な戦略ゲームにおける目覚ましい成果にもかかわらず、ARC-AGIではほぼゼロのスコアしか達成しません。これらのモデルは、しばしば膨大なデータセットで訓練され、おなじみの分布内でのパターン認識に優れています。しかし、Cholletのパズルが要求する基本的な帰納的推論と斬新な問題解決に直面すると、人間の子どもが直感的に把握するようなタスクであっても、一貫してつまずきます。

この著しい格差は、AIの進歩における「ギザギザのフロンティア」を鮮やかに示しています。機械は現在、Go、chess、あるいは高度なコード生成のような高度に専門化された領域で、人間のパフォーマンスを日常的に上回っています。しかし、同時に、基本的な因果関係の理解や、明示的なプログラミングなしに全く新しい抽象的な問題構造に適応するような、人間にとっては取るに足らないほど単純に見えるタスクに苦戦しています。Google DeepMindのフレームワークは、この不均一な状況を包括的にマッピングすることを目指しており、一方ARC-AGIは、AIの基礎的な認知能力における永続的かつ重大なギャップを露呈しています。両方のタイプのベンチマークは、AGIへの複雑な道を真に理解し、進む上で不可欠です。

感覚にさよなら、科学にこんにちは

Google DeepMindの新しいフレームワークは、人工汎用知能の追求を根本的に再定義する、深遠な変化を示しています。これは単なる別のベンチマークではなく、分野全体にパラダイムシフトをもたらし、憶測的な主張を厳密な科学的手法に置き換えるものです。

曖昧な発表や都合の良いデモの時代は終わりました。研究者は主観的な「感覚」や逸話的な証拠を超え、AGIの進歩を定量化可能で検証可能な基準に基づかせることができます。提案された10の認知能力と3段階の評価プロトコルは、実際の人間性能と比較して能力を評価するための客観的な視点を提供します。

この詳細な認知分類法は、非常に貴重な診断ツールとなります。開発者はモデルの特定の弱点を正確に特定し、メタ認知、実行機能、社会認知といったどの能力がさらなる開発を必要としているかを正確に識別できます。この認知マップは、AGI研究を無秩序な努力から、的を絞った体系的なエンジニアリング課題へと変革します。

付随する20万ドルのKaggleハッカソンは、この科学的アプローチに対するGoogleのコミットメントをさらに強調しています。これらの特定の能力に対する評価を構築するために世界の研究コミュニティを招待することで、Googleは内部の不透明な競争ではなく、協力的でデータ駆動型のAGIへの道を積極的に育成しています。

最終的に、このフレームワークはAGIに関する議論を高めます。問題は、真に知的な機械を構築できるか*どうか*だけでなく、それらに向かう道のりを科学的に測定し、検証し、体系的に進む*方法*へと変わります。これは人工知能における科学的検証の時代を到来させます。

よくある質問

Googleの新しいAGIフレームワークとは何ですか?

これはGoogle DeepMindによる提案で、単一のスコアを使用するのではなく、10の主要な認知能力にわたってAIシステムをテストし、その性能を人間のベースラインと直接比較することで、AGIへの進捗を測定するものです。

フレームワークにおける10の認知能力とは何ですか?

10の能力は、知覚 (Perception)、生成 (Generation)、注意 (Attention)、学習 (Learning)、記憶 (Memory)、推論 (Reasoning)、メタ認知 (Metacognition)、実行機能 (Executive Functions)、問題解決 (Problem Solving)、社会認知 (Social Cognition) です。

これは既存のAIベンチマークとどう異なりますか?

コーディングや数学のような特定のスキルをテストするベンチマークとは異なり、このフレームワークは包括的な認知プロファイルを提供します。プライベートな第三者検証済みのタスクを使用することで、「試験対策」を防ぐことを目指しています。

この新しいフレームワークはAGIが近いことを意味しますか?

いいえ。フレームワーク自体は測定ツールであり、達成を主張するものではありません。AGIへの進捗を追跡するための明確な科学的ロードマップを提供し、議論を憶測から経験的証拠へと移行させるように設計されています。

🚀もっと見る

AI最前線をキャッチアップ

Stork.AIが厳選したAIツール、エージェント、MCPサーバーをご覧ください。

すべての記事に戻る