AIロボティクス：なぜ専門的モデルは一般化に失敗するのか

💡

TL;DR / Key Takeaways

研究者たちは、高度に調整されたAIがスーパーロボットを作ることを期待していましたが、その結果は衝撃的な失敗でした。その真実は、知的な機械を構築する際の私たちのアプローチに根本的な欠陥があることを明らかにしています。

ラボからの衝撃的な発見

最近のウェスとディランのYouTubeインタビューから驚くべき結果が発表されました。研究者たちは、ロボティクスにおける重要な前提を覆すラボの発見について説明しました。慎重に調整された「優れたロボットモデル」は、新しいタスクにおいて従来の基準と比べてパフォーマンスが向上しませんでした。これらのシステムは正しいラベルを持ち、正しいデータを使用していましたが、それでも成果を上げることができませんでした。

チームは現在のAIプレイブックが推奨することを実行しました。大きなモデルを取り、それを特定のドメインデータで特化させるというものです。この場合、彼らは特定のロボットやタスクからのロボティックトラジェクトリ、センサーのストリーム、制御信号を与えました。理論上、それによってロボットに関するあらゆるタスクにおいて一般的なモデルを上回る専門家が生まれるはずです。

現実は異なっていた。研究者たちがこれらの微調整されたモデルを少し異なるロボットのセットアップ—新しいアーム、新しいオブジェクト、調整された環境—で評価したところ、モデルに測定可能な改善は見られなかった。それらは単に期待外れなだけでなく、その新しいタスクにおいて焦点を絞っていない一般用途のモデルと実質的に区別がつかない状態だった。

インタビューからの説明は明確です。「異なる種類のロボティックデータ」でモデルがトレーニングされ、その特異性がブースターではなくカゴになったということです。特定のロボット工学の狭い範囲でトレーニングした結果、モデルはその正確な範囲だけでより良くなりました。ゲストの言葉を借りれば、「一般化されると思うでしょうが、そうはならなかったのです。」

そのラインは、現場の衝撃を捉えています。現代のAIは、より多くのデータ、より多くのパラメータ、そしてドメイン特化のファインチューニングが広範な能力に繋がるという約束のもとに売られています。しかし、この研究は、少なくともロボティクスの分野では、「ロボティクスデータ」へのファインチューニングが、モデルを特定のラボのハードウェア、一つのタスク、一つの関節とモーターの配置に固定してしまう可能性があることを示唆しています。

研究者たちは、これは変わる可能性があると強調しています。将来のアーキテクチャやトレーニングレジメンは、その過剰適合の罠から脱することができるかもしれません。現時点では、論文の結果は明確です：ロボットのための専門的なAIは、「少し異なる」ロボットタスク間でも一般化しませんでした。その失敗は、この物語の残りの部分に対してより難しい問いを浮かび上がらせます。なぜより賢そうなロボットモデルが失敗したのか、そしてそれは具現化されたAIシステムの未来に何を示唆しているのか？

バグではなく、機能です。

スマートなロボットはここで失敗しました。彼らの「知性」は非常に特定の目的に特化していたからです。WesとDylanのインタビュー論文に登場する精密に調整された「ロボティクス」モデルは、特定のデータセット—一つの腕、一つのカメラセットアップ、一つの動作スタイル—に基づいて訓練されました。彼らはその特定の構成においては改善を見せましたが、他のロボットやタスクを評価した際には、一般的なモデルに対して測定可能な向上を示しませんでした。

これはランダムなバグではなく、現在のファインチューニングパイプラインの典型的な特徴です。研究者たちがモデルにロボットデータの一種類だけを与えたとき、ネットワークはその種類だけを学習し、「ロボットがどのように動くか」という根本的なアイデアを理解することはありませんでした。その結果は、データを生成したラボでは強力に見えましたが、他の場所では脆弱であり、モデルが世界ではなくベンチマークの最適化を優先したことを示す古典的なサインです。

ウェスとディランは、最初は機械に対して寛大に聞こえる人間の類似性に頼っています。人間の脳を根本的に異なる体に移植することを想像してください—余分な手足、ずれた関節、新しい重心分布。しかし、私たちの広範な運動知能を持ってしても、その脳は歩き方や物をつかむこと、バランスを取ることを再学習するのに数週間または数ヶ月を要するでしょう。

現在のAIは、その不安定な適応段階にも達していません。微調整されたモデルを異なるリーチやグリッパーを持つ別のロボットアームに移すと、パフォーマンスはすぐに崩壊します。ぎこちなさを伴う学習の期間も、徐々に移行することもなく、ただの失敗があるだけです。なぜなら、そのシステムはそもそも「アーム」という一般概念を保持していないからです。

ロボティクスの研究者たちはこれを正確に表現する言葉を持っています：過学習。モデルは、訓練ログにある軌道、ピクセルパターン、および制御信号を記憶し、力学、摩擦、または3D幾何学に関する移植可能な法則を抽出するのではありません。これは、解答集を暗記しているが、少し言い換えられた問題を解くことができない学生のように振る舞います。

ロボティクスの文脈において、過剰適合は条件が変化する瞬間に現れます：新しいカメラアングル、異なる照明、変更されたペイロード、または新しいロボットモデル。調整されたシステムは以下において優れています： - あの特定の実験室ロボット - あの特定のタスク - あの特定の環境

それらのいずれかをシフトさせると、得られる利益が消え、現在の手法が自らの身体を実際に理解しているロボットからどれほど遠いかが明らかになります。

工場を超えて：AIのニッチな超能力

ロボティクスの一般化の失敗はドラマチックに聞こえますが、特化が実際にはAIの最大の成功を支えています。狭く深く調整されたシステムは、得意な分野では汎用モデルを圧倒しますが、その範囲を少しでも外れるとすぐに崩れてしまいます。

医療分野では、このトレードオフが非常に明確に示されています。GoogleのMed-PaLM 2は、米国医師国家試験スタイルの問題において86.5%の精度を記録し、難解な症候群、検査値、臨床の特殊事例に苦しんでいた従来の一般モデルを上回りました。この向上は、一般的なウェブテキストではなく、医療教科書、ガイドライン、専門家によってキュレーションされたデータでのトレーニングによるものです。

Med-PaLM 2は、症状、画像診断、治療選択肢にわたる多段階推論を解析できますが、その世界は医学であり、すべてではありません。ポップカルチャーについて尋ねると躓きますが、複雑なECGを解釈するよう頼むと、まるで病院を離れたことのない研修医のように振る舞います。

ファイナンスでも同様の話が展開されています。BloombergGPTは、500億パラメータのモデルであり、感情分析、ニュース分類、収益報告書やSEC提出書類に関する質問応答といった金融タスクにおいて、より大きく有名な一般的なLLMを上回ります。数十年にわたる端末データや金融文書に基づくドメイン特化の事前学習により、単なる言語モデルが専門的な市場アナリストへと変貌を遂げています。

ブルームバーグGPTは普遍的なアシスタントを目指しているわけではありません。基準点と基準リスクを基に生きるのです。その狭さは、映画の雑学やクリエイティブライティングよりも債券の契約やCDSスプレッドを重視する際に強みとなります。

農業は専門化をさらに深く進めています。米の研究者たちは、地域特有の害虫や病気の数千枚の画像を用いてローカルビジョンモデルを訓練しました—東南アジアのバウンプランホッパー、インドの細菌性葉枯れ病、中国の鞘茎病などです。これらのモデルは、これらの特定の害虫、照明条件、または成長段階を見たことのない一般的なビジョンシステムを常に上回ります。

これらのシステムを利用する農家は、一般的な「植物病」分類器から得られるものよりも早く、より正確な発生警報を受け取ります。AIは、数十年同じ畑を歩いてきた村の農学者のように振る舞い、さまざまなものを見てきたが何も習得していない世界旅行者のようではありません。

ロボティクスにおいて、これらの例は、一般的なモデルが幅広い推論を提供し、分野の専門家が実行を担当する未来を示唆しています。このパターンについてはRobotics: Generalized vs Specialized - Konvoy VCで詳しく探求されています。ラボの驚きは、専門家が存在することではなく、これまでの「ロボティックな」微調整がロボティシストではなく技術者を生み出していることです。

一般化型の賭け：すべてを支配するAIはあるのか？

汎用基盤モデルは、ロボットのエスペラントのような可能性を秘めています：どんな身体も動かせる1つの脳です。カメラフィード、関節角度、テキストを通じて巨大なマルチモーダルモデルを訓練し、それを倉庫のピッカー、配達ボット、または人型ロボットにごくわずかなファインチューニングで搭載します。理論的には、大量の再利用、迅速な展開、そして脆弱な単発システムの減少が期待できます。

大手ラボはすでにこれを追い求めています。倉庫のパイロットは、数十のロボットアームやグリッパーで事前学習された一般モデルを、一つのコンベヤーベルト用に作成された特注コントローラーと静かに対抗させています。研究グループは「スケーラブルなAI」について語り、数百万の軌跡やYouTube動画から学び、同じポリシーで箱を積み重ねたり洗濯物を畳んだり、将来的には車を運転できることを期待しています。

「ロボットの脳」を販売するスタートアップは、まさにこれを提案しています：基盤モデルを任意のモバイルベースやアームに接続し、どのように適応するかを見守るのです。ハードウェアチームはこのアイデアを好みます。なぜなら、機械設計とソフトウェアが切り離されるからです。グリッパーを交換しても、脳はそのままです。投資家たちはこのストーリーをさらに好みます。なぜなら、一つのモデルが艦隊全体にスケールすることは、SaaSマージンの匂いがするからです。

マユールは、すべてを知る唯一のコントローラーという幻想に冷水を浴びせます。彼は、AGIを追い求めることが、タスク特化型の知能（人間や機械の両方において）の残酷な効率を無視するリスクを伴うと主張しています。30,000の皮膚ケースを読む皮膚科医が、心臓病専門医にはならないように、皮膚癌の検出のために調整されたモデルは皮膚科医レベルの精度を達成しますが、心臓病に対しては完全に失敗します。

ロボティクスも同様のパターンを示します。特定の倉庫のSKUや照明で訓練したビジョンモデルは、そのフロア上で一般的なモデルを上回ることができますが、稲作の田んぼや病院の廊下では機能しなくなります。マユールの主張は、専門化は欠陥ではなく、複雑なシステム—脳やネットワーク—がどのようにして超人的なパフォーマンスを達成するかの方法だということです。

その分野は断層線の上にあります。一方のキャンプは、人型からフォークリフトまであらゆるものを運営する単一の汎用モデルを求めています。もう一方は、一つの狭い現実の側面において恐ろしいほど優秀な専門家たちの群れを想像しており、それらがあたかも統一された心のように織り合わさっています。

倉庫戦争：究極のAIテスト場

倉庫は、ジェネラリストとスペシャリストロボットのケージマッチと化しています。コンベヤーベルト、パレットジャッキ、バーコードスキャナーが、ロボットアーム、モバイルカート、実験的なヒューマノイドと共存し、同じ箱をより速く、より安く移動させるために競っています。

紙の上では、すべてを網羅するジェネラリストAIは無敵に思えます。何百万ものビデオ、シミュレーション実行、制御ログで事前学習された一つの基盤モデルは、理論的にはほんの少しの微調整でどんなフォークリフト、アーム、またはドローンも操縦できるかもしれません。

現実は厳しい。倉庫は散らかっており、半ば混沌としたシステムである。パレットは不適切に包装され、箱はしな垂れ、ラベルは剥がれ、携帯電話を見ながら人間がロボットの進行方向に入ってしまう。ベンチマークスイートで優れた結果を出す汎用モデルも、潰れた段ボールや、深さの推定を混乱させる反射性のシュリンクラップに遭遇すると、しばしばつまずいてしまう。

専門家たちはここで繁栄します。なぜなら、彼らは設計によって不正を行うからです。アマゾンのキーバスタイルのロボットは倉庫を「理解」するわけではなく、床のQRコードに従って移動し、標準化されたポッドを運び、持ち上げている最中にバナナボックスが崩れることはありません。

その制約は成果を生み出します。特定の作業のために特化したシステム—トートシャトル、自動保管・検索システム、固定ピックアーム—は99%以上の稼働率を記録し、数年間にわたりわずかなソフトウェアのアップデートだけで運用されます。エンジニアは、狭い範囲の重量、形状、経路に合わせて調整し、その後すべてを固定します。

汎用倉庫AIはその逆を約束します：柔軟性が最優先です。理論的には、単一のモデルが以下を実現できます： - さまざまなブランドのモバイルベースを駆動 - 複数のグリッパータイプを制御 - Picking、Packing、Palletizingを切り替え

その柔軟性は、季節的な需要の変動やSKUの入れ替わり、レイアウトの変更に対応するオペレーターを惹きつけます。ハードウェアの再設計や各セルの再プログラミングを行う代わりに、ポリシーを更新し、数時間の遠隔操作デモを追加し、全体に再配備することができます。

ビジネスマスは依然として専門家にルーチン作業を優遇しています。シンプルで単目的のロボットのフリートは、初期コストが低く、既存のWMSソフトウェアとの統合が早く、5〜10年の間に予測可能なROIを提供します。一般的なスキルを持つ人が今日対処できる意外性は、データ収集、検証、安全保証において依然としてコストがかかります。

したがって、倉庫は試練の場となる。もし汎用AIがコンクリートの床でKivaクローンに勝てない場合、より異なる環境での期待は不確実に見える。

人間の脳は一般化しない、なぜAIがすべきなのか？

人間の知能はしばしば無限に柔軟であるとロマンティックに考えられますが、認知科学はもっと制約のある実像を描いています。私たちは純粋な一般人としてではなく、積み重ねられた専門家として優れています：共通の基盤の上に築かれた狭い専門知識の層です。世界クラスの心臓外科医に動脈瘤をクリッピングさせようとすると、割引された神経外科医が得られるわけではなく、むしろ責任免除書が得られるのです。

医学はこの現実を正式化します。心臓病専門医、神経外科医、放射線科医は皆、同じ初期試験を受け、その後、プレッシャーの下で移転不可能なスキルに分かれていきます。高いリスクを伴うパフォーマンスは幅ではなく深さから生じ、特定のアーム構成に最適化されたロボティクスモデルが「ロボティク」なトレーニングを受けたにもかかわらず他の構成で失敗する様子を反映しています。

ソフトウェアは同じ分割を提供します。分散システムを大規模に最適化できるバックエンドエンジニアが、自動的にアクセスしやすく魅力的なインターフェースをデザインできるわけではありません。UI/UXデザイナーは認知、フロー、小さなテキストに特化しており、コーダーはシステム、制約、パフォーマンスに特化しています。両者は一般的な知性の上に存在しますが、日々の能力は徹底的にドメイン特化型です。

AIシステムはすでにこのパターンに組み込まれています。UXの専門家がコード生成モデルに指示を与えることで、一般的な利害関係者よりもはるかに適切なコンポーネント階層、アクセシビリティフック、インタラクション状態に導くことができます。病院では、臨床医が医療データをもとに調整されたMed-PaLM 2のようなモデルを使用して、ボードスタイルの試験で86.5%の成果を上げ、その上に専門的な人間の知識を加えます：心臓専門医は心臓病に関する質問をし、腫瘍学専門医は腫瘍学に関する質問をします。

ロボティクスも同様の道を進んでいます。一般的な基盤モデルはロボット間の柔軟性を約束しますが、信頼性とコストが重要な場合は専門家モデルが依然として支配的です。例えば、倉庫オペレーターは、広範なモデルを厳密に調整されたピック・アンド・プレースシステムと比較しています。Plus One Roboticsはこの緊張関係について、Generalist vs Specialist: Testing AI Models in the Warehouse | Blogで文書化しています。

AGIの議論では、詩からタンパク質の折りたたみまで全てを習得する「手先の器用な男」のような未来の知能が想定されがちです。しかし、人間の実践は異なる基準を示唆しています：真の知能は、単一の全能の脳のようではなく、いつ、どこで、どのように専門化するかを知っているコーディネーターのように見えるかもしれません。最も賢いシステムは、すべての仕事をこなすものではなく、各仕事を最も狭く、最も鋭いツールにルーティングするものです。

テスラボットとルンバの逆説

テスラのオプティマスのようなヒューマノイドロボットは、サイエンスフィクションの未来を約束します：工場、オフィス、または家庭に入り込んで働くことができる二足歩行の機械です。そのハードウェアは人間の体を模しており、手、腕、脚、センサーが約5フィート8インチのフレームに詰め込まれています。そのため理論的には、単一の汎用AI脳が人間ができるほぼすべての作業を学習できるのです。このビジョンは全身の協調、リアルタイムの知覚、巧妙な操作を必要とし、高価なアクチュエーター、カスタムギアボックス、高性能コンピューティングが必要です。

ルンバは真逆の賭けをしています。iRobotの円盤型掃除機は階段、皿、ドアノブを無視し、単一の限定された問題に焦点を当てています。それは床をきれいに保つことです。いくつかの衝突センサー、深度カメラ、そして安価なCPUが、数百万の家庭で機能する厳密に設定されたナビゲーションスタックを駆動しており、価格は300ドル未満で、故障モードは非常に予測可能で、トラブルシューティングのリーフレットに収まるほどです。

ヒューマノイドハードウェアは適応性を追求しています。オプティマスは、ドアを開け、階段を上り、箱を運び、場合によってはハンバーガーを flip しなければなりません。これらはすべて、ロボットのために設計されていない混雑した人間の空間でのことです。それには、高度な認識モデル、全身運動計画、安全なエッジケースに即座に適応するセーフティエンベロープが必要です—本質的には、無数のエッジケースに一般化しなければならないファウンデーションモデルの移動テストベッドです。

専門の機械は逆のことをします：エッジケースを排除します。ルンバは平らな表面に制約されています。アマゾンのキバスタイルの倉庫ロボットは磨かれた床の上を滑り、QRコードを追跡し、標準化された棚を持ち上げます。ロボットの周りの環境を設計することで—固定されたレイアウト、既知の負荷、限られた動作—企業は理論的な柔軟性を放棄し、保証されたスループット、稼働時間、簡単なメンテナンスを得るのです。

市場は現在、その取引を評価しています。棚を補充し、トラックを荷下ろしし、床を掃除できるヒューマノイドは、1台あたり数万ドルの価格がかかり、継続的なソフトウェアの更新が必要で、故障率も不確実です。一方、単一目的のパレット搬送車や床掃除機の fleet は、管理された環境で99%以上のタスク成功率を達成でき、資本支出はほんの一部で済み、明確なサービス契約やROIのスプレッドシートがあります。

一般的なヒューマノイドがコスト毎時、故障までの平均時間、統合の摩擦に関するこれらの保証を上回ることができるまで、ルンバスタイルの専門家が現実世界での展開戦争において勝ち続けるでしょう。

明日のAIエコシステムを構築する

ハイブリッドAIは、一つの天才的な脳のように見えるのではなく、プラグインアプリを持つオペレーティングシステムのように見え始めています。全てを一つの全知のモデルに賭けるのではなく、企業は異なるAIが計画、認識、制御をモジュラーサービスのように扱うスタックを組み立てています。

中心には、ディスパッチャーおよび戦略家として機能する一般モデルがあります。このモデルは混沌とした人間の目標を解釈し、さまざまな領域にわたって推論し、それから実際に世界に影響を与える専門モデルに厳密に範囲を定めた作業を引き渡します。

一般計画AIによって運営されるグローバル物流ネットワークを想像してください。それは、あなたの荷物をどの倉庫から出荷するか、注文をどのようにまとめるか、どのキャリアを使用するかを決定し、地域の交通法、歩道使用規則、さらには近所の配達基準に関する情報を持つ都市特有のモデルに接続します。

これらのローカルモデルは、エッジの近くに存在する小型の微調整されたLLMかもしれません。東京の配達モデルは、密な鉄道網や厳格な駐車取り締まりを利用することを学び、フェニックスモデルは、暑さや広い道路、広がる郊外に最適化されています。

これをさらに積み重ねることができます。高レベルのエージェントが顧客との配達ウィンドウを交渉し、ルーティングスペシャリストが道路レベルの経路を計算し、低レベルの制御モデルが歩道ロボットやドローンと直接対話します。それぞれが独自のセンサーの特異性や故障モードに応じて訓練されています。

このモジュラーアプローチは、Med-PaLM 2やBloombergGPTが構築された方法に似ています：広範な基盤から始め、その後、医療や金融のベンチマークを圧倒する専門家を切り出します。今の違いはオーケストレーションです—人間が手動でツールを切り替えるのではなく、AIで作られた接着コードです。

ハイブリッドエコシステムは、ロボティクスの最大の悩みの一つである脆さを解消します。倉庫のレイアウトが変更されたり、都市がゾーニングルールを改訂したりすると、すべての知識を持つ一枚岩の脳を再訓練するのではなく、専門家を更新したり交換したりします。

ベンダーはすでにこのパターンを静かに出荷しています。農業プラットフォームは、全農場の決定を一般的なプランナーを通じて行い、その後、特定の作物に応じた病害モデルや、特定の地域または特定のフィールドに調整された土壌解析エンジンを呼び出します。

一般的なロボットが床を掃き、契約を作成するというSF的な夢を追い求めるのではなく、このアーキテクチャは現実のAIがより連邦的な形を取ることを受け入れています。幅広さはディスパッチャーに、深さはその指揮する専門家の群れに宿っています。

正しいAI競走馬に賭ける方法

正しいAI戦略を選ぶことは、単一の神のようなモデルの誘惑を無視することから始まります。すべてのプロセス、すべてのロボット、すべてのワークフローを実行するAGIスタイルのシステムは、依然として研究プロジェクトであり、ITロードマップではありません。その瞬間を待つビジネスは停滞し、競合他社は静かに利益を自動化していきます。

実際の利益は狭く、高価値のワークフローにあります。特定の製品ラインでの欠陥を見つけたり、倉庫内の特定のルーティング問題を最適化したり、1種類の法律契約を草案するモデルは、「一般的な知能」を解決せずに10〜50％の効率向上をもたらすことができます。Med-PaLM 2が医療試験で86.5％を記録したり、BloombergGPTが金融分野でより大きな一般モデルを上回ったりすることは、ドメインチューニングが一般的な能力を具体的な利点に変える様子を示しています。

実用的なプレイブックはモジュール式です。探索には大規模で一般的なモデルを使用し、多くのタスクやロボットにわたって候補となるワークフロー、シミュレーションポリシー、UIプロトタイプを生成させます。その後、専門モデルを特定のデータ、センサー、制約に基づいて微調整し、勝者を選定します。

通常、これは3つの並行したトラックを意味します： - ブレインストーミングと迅速な反復のための広範な基盤モデル - 特定のタスク用にファインチューニングされたモデルのセット（ピッキング、ルーティング、予測、トリアージ） - 監視、ガードレール、ロールバックを備えた堅牢なデプロイメントスタック

ロボティクスチームはこのパターンをコピーできます。複数のアームやモバイルベースで動作する一般的な制御モデルを用いてプロトタイプの動作を作成します。特定のパレットタイプをアンロードすることや、1つの製品の部品をキッティングするなど、タスクが投資収益率（ROI）を証明したら、柔軟性を速度、安全性、信頼性と引き換えにする小規模なタスク専用コントローラーを展開します。

投資家は、誇大広告ではなくデータが集中している場所を追跡すべきです。密度の高い、ラベル付けされた、繰り返しのワークフローを持つドメイン—物流、放射線科、保険請求、精密農業—は、地域のエッジケースについて一般的な知識を超えて学ぶことができる専門家を好みます。AIにおける一般性と専門性？のようなリソースは、この分岐をマッピングし、実行可能なニッチと見せかけのプロジェクトを区別するのに役立ちます。

成功は、一般モデルを足場として扱うチームに属します。これらを使って問題の空間を迅速に探り、その知識をより小さく、安価で、極めて集中したシステムに圧縮し、一つのことを行わせて、それを行うことで利益を生み出してください。

未来は一つの大きな脳ではなく、チームです。

「ロボット的」な微調整を施したモデルの失敗は、いくつかのベンチマークチャートを恥ずかしめただけではなく、すべてを知る単一のロボット脳という幻想を静かに打ち砕いた。狭く非常に特定されたデータでのトレーニングは、特定の設定、一つのアーム、一つの動作パターンには優れていたが、他の場所では無意味だった。普遍的なメカニズムを構築する代わりに、一つのアセンブリラインで一つのボルトを締めることしか知らないロボットを作り上げてしまった。

その結果は、ロボティクスの全体的な議題を再定義します。「ロボティクスデータ」でのファインチューニングは、ロボティクスの専門家を生むのではなく、特定のジグ用のサヴァンを生み出しました。この発見はAI全体に響いています：Med-PaLM 2は医療試験で86.5%を獲得し、BloombergGPTはより大きな一般モデルを金融分野で上回っていますが、それぞれの専門分野を越えると崩壊します。

一般的な基盤モデルは依然として重要ですが、今やそれらは支配者ではなくオーケストレーターのように見えます。話し、計画し、ドメインを越えて推論できる大規模なモデルは全体のオーケストラではなく、指揮者となります。実際の力は、倉庫、作物、あるいはICUモニターの詳細をよく知っているより小さく、尖ったエージェントにタスクをルーティングする時に発揮されます。

将来のロボットスタックをチームスポーツと考えてください。1つのモデルは高レベルの目標、安全ルール、言語を理解し、別のモデルはパレットラックの周りで6軸アームを正確に動かす方法を知っています。さらにもう1つのモデルは、地元の交通、労働力、エネルギー価格を使用してリアルタイムでルートを最適化します。それぞれのエージェントが専門的な役割を果たし、ジェネラリストがプレイブックを一貫させます。

そのハイブリッドパターンはすでにロボティクスの外でも見られます。物流企業はルーティングや在庫データに基づいて地域特化型LLMを最適化し、一般的なモデルよりも時間通りの配送で優れた結果を出しています。農業システムは包括的なビジョンモデルを、地元の害虫を世界的なデータセットよりも正確に特定する稲作専門家と組み合わせています。

人間の知性も同じ方向を指しています。人々は、がん治療、ドローン操縦、税法の分野で同時に世界クラスになることはありません。彼らはチームを作ります。その構造を反映したAI、つまりモジュール式で専門的かつ調整されたAIは、単一の「ボックス内のAGI」よりもはるかにスケールしやすいでしょう。

この地図に従った実世界での展開を期待してください。農場、病院、工場は、一般的なプランナーが作物散布ドローンや手術支援ロボットなどの専門調整されたエージェントに委任する層状システムで運営されます。ロボティクスにおけるAIの未来は、1つの大きな脳ではなく、綿密に振り付けられた群れです。

よくある質問

専門的なAIモデルは、一般的なモデルよりもなぜ優れていることが多いのか？

彼らは特定のデータに基づいて単一のタスクに特化した訓練を受けており、無関係な情報の雑音を避けることで、その狭い領域で人間を超えたパフォーマンスと信頼性を達成しています。

その研究から得られたロボティクスにおけるAIの主な発見は何ですか？

重要な発見は、一般的な「ロボットデータ」でモデルを微調整しても、ロボットタスク全般でのパフォーマンスが向上しないということです。これは、訓練されたデータの正確なタイプでのみパフォーマンスを向上させており、驚くべき一般化の欠如を示しています。

AIは常に専門的であり続けるのでしょうか？

未来はハイブリッドアプローチが主流となるでしょう。一般的な基盤モデルが幅広い推論を提供する一方で、特定のタスクをより高い精度と効率で処理するために、一般モデルから微調整された専門モデルが活用されます。

ヒューマノイドロボットと特殊ロボットの違いは何ですか？

ヒューマノイドロボット（テスラボットのような）は、人間の環境で多くのタスクをこなすために設計された一般型のロボットです。一方、専門的なロボット（ルンバや工場のアームのような）は、特定のタスクにおける最大限の効率と信頼性を追求して設計されています。

𝕏 in ↑↗

なぜ「より賢い」AIロボットは失敗しているのか