要約 / ポイント
なぜ「世界は言葉ではない」が的を外しているのか
「世界は言葉でできていない」という一般的な議論は、現代のAIを根本的に誤解しており、大規模言語モデル(LLM)はテキストのみで訓練されているため現実を理解できないと主張しています。Lior Alexanderのような人物によってしばしば表明されるこの見方は、ますます時代遅れになっています。決定的に重要なのは、AIモデルが言語をのみ理解するという前提が今や誤りであるということです。
LLMと誤って分類されることが多い多くのシステムは、OpenAIのChatGPT-4oに代表されるマルチモーダルな「オムニモデル」へと進化しており、「O」はオムニモーダルな能力を意味します。これらの高度なアーキテクチャは、音声、ビデオ、画像、テキストを含む包括的なデータセットで訓練されます。この多様な入力により、物理学者やエンジニアが常に強調する現実である、世界の根底にある数学的構造と予測可能なパターンを把握することができます。AIは急速にこの基礎的な数学を習得し、幾何学と物理空間の直感的な理解を発展させています。
したがって、この議論は真に程度の問題です。マルチモーダル統合以前でさえ、古いテキストのみの言語モデルは、不完全ながらも空間関係やオブジェクトのメンタルマップを近似する初歩的な能力を示していました。今日のオムニモデルは、連続的なセンサーデータとフィードバックループを処理することで、この理解を大幅に強化します。この進歩は、AIを単なる言語予測をはるかに超えたものにし、より深い世界理解への明確で定量的な道筋を示しています。
ロボットは感覚を得て、AGIは物理学を得る
ロボット工学における身体化された知能の価値を否定する者はいません。センサーデータ、フィードバックループ、固有受容を備えた物理世界モデルは、物理世界をナビゲートし、相互作用する機械にとって不可欠です。これは堅牢な感覚運動スキルの領域です。
しかし、この身体能力は、AGIに求める汎用知能とは大きく異なります。鳥、猫、サルなどの動物は、優れた視空間知能と身体制御を示します。彼らは複雑な環境をナビゲートし、複雑な動きを正確に実行しますが、高度な人間の問題解決に役立つような汎用知能を持っているとは誰も考えていません。
同様に、AGIの最も変革的な影響は、主に身体的器用さから生じるものではありません。その革命的な可能性は、抽象知能、すなわち数学的および科学的推論の領域を習得することにあります。高度な物理学、生物物理学、その他の複雑な理論領域は、AGIが前例のない発見を解き放つ真のフロンティアを表しています。
ロボット工学は三次元空間の「感覚」から多大な恩恵を受けますが、AGIの真の力は、根底にある数学的構造を直感的に把握することから生まれます。単に物理的な相互作用を予測するのではなく、この抽象的な推論能力こそが、真の汎用知能とその社会への多大な貢献への道筋を定義します。
予測は予測、方法に関わらず
Yann LeCunのJEPA(Joint Embedding Predictive Architecture)のようなアーキテクチャは、感覚データから抽象的な表現を学習し、生のピクセルではなく圧縮された潜在空間で予測を行います。LeCunらは、この方法が世界モデルを構築する上で本質的に優れており、より深い理解を意味するとしばしば主張します。しかし、この見方は、予測の精度よりもその方法を過度に重視しています。
予測は予測です。AIが次のトークン、将来のピクセル、または抽象的な状態を予測するかどうかにかかわらず、真の尺度はその出力の正確さにあります。David Shapiroが強調するように、正確な予測は、抽象的な表現に対する科学的方法の検証です。システムが現実を確実に予測できるのであれば、特定のモダリティや圧縮技術は二次的なものになります。
批評家たちはまた、非LLMアーキテクチャのみが物理環境における複雑な多段階計画を管理できると主張しています。これは既存の進歩を見落としています。Video-Language-Action (VLA) モデルは、行動の結果をシミュレートし、複雑な計画を実行する堅牢な能力をすでに示しており、そのような計画が特定のアーキテクチャ設計に固有のものであるという考えに直接異議を唱えています。理論的根拠に関するさらなる洞察については、Language Models, World Models, and Human Model-Buildingをご参照ください。
アーキテクチャの優位性を巡る議論は、しばしば意味論的な揚げ足取りに陥りがちです。重要な要素は、生の感覚ストリームを処理するか、高度に抽象化された表現を処理するかにかかわらず、モデルがその環境について首尾一貫した、実行可能な予測を生成する能力であることに変わりはありません。
LLMを超えて:来るべき「オムニモデル」脳
「大規模言語モデル」という名称は、急速に時代遅れの誤称になりつつあります。AI業界は現在、OpenAIの最近のGPT-4oに代表される、真にマルチモーダルなOmni-modelsへと決定的に軸足を移しています。GPT-4oの「O」は明確に「Omni」を意味します。これらのアーキテクチャは、テキストだけでなく、オーディオ、画像、ビデオを含む膨大な統合データセットで訓練されており、純粋な言語的理解と予測の限界を超越しています。
予測されるのは、これまで別々だった2つのAI開発トラックの深遠な融合です。一方のトラックは、言語、複雑な数学、複雑なコード生成を習得する抽象的な推論に優れています。もう一方のトラックは、堅牢なロボット工学、物理的な相互作用、固有受容感覚を伴う3次元空間のナビゲーションに不可欠な感覚運動の直感を培います。この統合は単なるデータ入力にとどまらず、統一された処理能力を表しています。
この差し迫った統合は、単一の統一された認知アーキテクチャ、真の「ロボット脳」を構想しています。このようなシステムは、高度な科学的発見から物理的な物体をリアルタイムで操作することまで、あらゆる考えられる領域で本質的に推論し、行動します。この全体論的アプローチは、断片的な「世界モデル」に関する議論、特に「世界は言葉ではない」といった主張を根本的に時代遅れにします。究極の目標は、現実をその完全な多面的な複雑さで理解し、相互作用できる包括的なAI脳へと移行し、予測を真にドメインに依存しないものにすることです。
よくある質問
AIの「世界モデル」とは何ですか?
AIの世界モデルとは、世界がどのように機能するかを内部的に抽象的に表現したものです。これによりAIは、データの統計的パターンを認識するだけでなく、環境の一貫した理解に基づいて因果関係を理解し、将来の出来事をシミュレートし、行動を計画することができます。
なぜ一部の専門家は、言語モデルには世界モデルがないと言うのですか?
主な議論は、LLMが主にテキストで訓練されているため、物理的現実との接点がないというものです。Yann LeCunのような批評家は、世界は言葉ではなく感覚データで構成されているため、真の理解には言語だけでなく視覚的または物理的な相互作用からの学習が必要であると主張しています。
身体化されたAI知能と抽象的なAI知能の違いは何ですか?
Embodied intelligence(身体化された知能)は、センサーデータ、フィードバックループ、固有受容感覚を通じて物理世界を理解し、操作することを含み、ロボット工学にとって極めて重要です。Abstract intelligence(抽象的知能)は、数学、物理学、哲学といった概念について推論することを含み、高度なAGIにとって重要な機能と見なされています。
「Omni-model」とは何ですか?
「Omni-model」(オムニモデル)は、「大規模言語モデル」(Large Language Model)という枠を超えた次世代AIを表す用語です。これは、テキスト、画像、音声、動画、コードといった複数のモダリティで訓練された統合モデルを指し、世界をより全体的かつ統合的に理解するために開発されます。