メタのサイレントAIがLLMを置き換える

メタのAI責任者、ヤン・ルカンが新しいアーキテクチャを発表しました。このモデルはテキストをトークン単位で生成するのではなく、JEPAという新しいモデルは世界の真の理解を学習し、ChatGPTのようなLLMからのパラダイムシフトの可能性を示しています。

Stork.AI
Hero image for: メタのサイレントAIがLLMを置き換える
💡

TL;DR / Key Takeaways

メタのAI責任者、ヤン・ルカンが新しいアーキテクチャを発表しました。このモデルはテキストをトークン単位で生成するのではなく、JEPAという新しいモデルは世界の真の理解を学習し、ChatGPTのようなLLMからのパラダイムシフトの可能性を示しています。

メタのAI責任者からの衝撃発言

ヤン・ルカンは、機械が見ることや考えることを学ぶ方法を置き換えようと何十年も努力してきました。このチューリング賞受賞者は、畳み込みニューラルネットワークの発明に貢献し、現在はMetaのチーフAIサイエンティストとして活躍しています。彼は再び、自身が育てた分野に的を絞っています。今回のターゲットは、今日のAIブームを支配する大規模言語モデルです。

MetaのFAIRラボは、LeCunのJoint Embedding Predictive Architecture (JEPA)に基づいたビジョン・ランゲージシステムを説明する新しい論文を静かに公開しました。VL-JEPAまたはVLJEPAモデルとしてブランド化されており、2023年の以前のV-JEPAの作業に、予測ビジュアルバックボーンの上に言語を追加することで拡張されています。モデルは、ピクセルやトークンを予測するのではなく、共有の埋め込み空間内で未来または欠落したコンテンツを直接予測することを学びます。

ルクンは長年にわたって、真の知性はテキストの自動補完ではなく、世界モデルの学習から生まれると主張してきました。この新しいJEPAベースのシステムはその立場を体現しています:それは「意味ベクトル」を予測する非生成モデルとして機能し、プロンプトがあった時のみ言葉を生成します。このアーキテクチャは、言語をより豊かで静かな内部状態の上に存在するオプションのインターフェースとして扱います。

そのため、この論文は一般的なマルチモーダルベンチマークのエントリーというよりも、現行のLLMスタックに対する宣言のように読まれます。GPT-4、Claude、Llama 3などの自己回帰型モデルは、トークンを一つずつ、左から右へ生成し、すべてのステップがテキストとして公開されます。一方、JEPAスタイルのモデルは推論を内部に保持し、時間とともに潜在状態を更新し、最終的な直列化ステップとしてのみ言語を出力します。

レカンは、LLM(大規模言語モデル)を「ウェブのぼやけたJPEG」と称し、現在のアーキテクチャが数年内に原始的に見えるようになると予測しています。この研究は、連続したビデオ、音声、その他の感覚データのストリームから学習する予測的なセルフスーパービジョンシステムの彼の代替案を形式化することを試みています。その重要性はチャットボットを超え、ロボティクス、ARメガネ、計画を立てる必要がある現実世界のエージェントにまで及びます。

これらすべては、レカンがメタを離れ、次世代のJEPAスタイルのAIを中心にしたスタートアップを立ち上げる計画があるとの報道の中で起こっている。噂によると、インターネットから収集したテキストだけでなく、動画や具現化データでトレーニングされた大規模な世界モデルに焦点を当てた企業が立ち上がるという。もしそうなれば、メタのAI責任者は、彼が完全に受け入れなかったLLMパラダイムに対抗する先頭に立つことになるかもしれない。

このAIは考えるのに会話を必要としません。

イラスト:このAIは考えるために話す必要がない
イラスト:このAIは考えるために話す必要がない

生成的AIは答えに向かって自らを語ります。GPT-4やLlama 3のようなモデルは自己回帰エンジンとして機能し、次のトークンを予測し、更に次のトークンを予測することで左から右へと進んでいき、文が終わるまで続きます。すべての答えは成長するトークンの連鎖として存在し、「思考」と「発話」が同じ遅くて計算を多く消費するプロセスに融合しています。

非生成的JEPAモデルはそれらを分けます。ジョイントエンベディング予測アーキテクチャは、画像、動画、テキストを通じて何が起こっているのかの内部表現を形成し、その静かな理解の上に座ります。言語はオプションの翻訳層となり、思考自体の媒介ではなくなります。

生成システムは、自分の考えを声に出して説明しているように振る舞います。「まだ理解していないので、私が考えていることを説明させてください。」各単語は前の単語に依存しているため、モデルは文字通り、シーケンスが終了するまで最終的な表現や、時には最終的な答えすら知ることができません。このトークンごとの処理はGPUサイクルを消費し、各クエリに遅延をもたらします。

JEPAは脚本をひっくり返します。「私はすでに知っていて、あなたが尋ねれば説明します。」次の単語を予測する代わりに、高次元の意味空間で意味ベクトルを直接予測します。コア計算は、テキストを出力することなく、エンティティ、アクション、関係をエンコードした単一の密な表現を生成します。

JEPAはトークンスペースではなく意味空間で動作するため、LLMスタイルの推論の最も高価な部分を回避します。自己回帰モデルは以下を行う必要があります: - 各トークンごとにフォワードパスを実行する - 長いコンテキストウィンドウを維持・更新する - 大規模なボキャブラリ分布から繰り返しサンプリングする

JEPAは安定した埋め込みを得るために1回のフォワードパスを実行し、その後停止します。その埋め込みをキャプション、回答、またはコマンドに変換することは、主なイベントではなく軽量なデコーディングステップになります。MetaのVL-JEPAプロトタイプは、比較可能な生成視覚言語スタックの約半分のパラメータを使用しつつ、ベンチマークで同等またはそれを上回る性能を報告しています。

静かな内部状態は、絶え間ない喋りなしに継続的な理解を可能にします。VL-JEPAシステムは、ビデオストリームを観察し、数百のフレームにわたって意味ベクトルを洗練し、促されたときや外部システムが象徴的な説明を必要とする場合にのみ言語を発信します。思考は継続的に行われ、話すことは副次的な結果となります。

トークンを超えて:『意味空間』における推論

GPTのような言語モデルはトークンによって生き、また死にます。彼らは世界を離散的な単語の断片に切り分け、左から右へとそれらを処理し、次のテキストの断片を予測します。LLMのためのビジョンアドオンは通常、各フレームをキャプションに変換する分類器を取り付け、そのラベルをテキストエンジンに返します。

JEPAはそのパイプラインを逆転させます。MetaのVLJモデルは、未加工のビデオを取り込み、時間の経過に伴う出来事を追跡する密な内部表現—埋め込み—を構築します。すべてのフレームを語るのではなく、必要なときに言葉に変わる静かで連続した意味ベクトルを維持します。

その埋め込みは、トークンストリームではなく「意味空間」のように機能します。その空間の各ポイントは、手、カニスター、動き、意図など、複数のフレームにわたるオブジェクト、アクション、コンテキストを符号化しています。システムが最終的に「カニスターを拾う」と出力する時、それはその空間を通る軌跡を要約しているのであり、推測的な単語ごとの説明をつなげているのではありません。

Metaの研究者たちは、これが大きな効率性をもたらすと主張しています。VLJは、ピクセルやトークンを生成するのではなく、圧縮された潜在空間で予測を行うため、同等のビジョン・ランゲージトランスフォーマーの約半分のパラメータで済むと報告されており、標準的なベンチマークでもそれに匹敵するか、それを上回る性能を発揮しています。より少ないパラメータは、メモリの負担が軽くなり、推論が迅速になり、ヘッドセットやロボットなどのエッジハードウェアでのスケーリングが向上します。

それとは対照的に、典型的なLLMビジョンスタックは、標準的なビジョンエンコーダーが各フレームを見て、「ボトル」、「手」、「テーブル」といったラベルを出力し、各ステップ間のほとんどすべてを忘れてしまうというものです。持続的なセマンティック状態はなく、言語モデルが事後的に物語を織り交ぜようとするキャプションのストリームだけがあります。

JEPAの世界モデルは逆の流れです:持続的な理解が先で、言語が後です。VLJ: Vision-Language-Jeopardy (プレースホルダーarXivエントリー)の論文では、意味の内部映画を静かに流し続け、人間が文章を必要とする時にのみ、それをテキストとして浮かび上がらせるシステムについて説明しています。

なぜルカンはLLMが限界に達したと考えているのか

ヤン・ルカンは何年も同じポイントを強調してきました:知能とは、世界の内部モデルを構築することであり、英語で賢く聞こえることではありません。彼の見解では、言語は人間にとって便利な「I/Oプロトコル」として上に位置しており、モニターにとってのHDMIのようなものです。役に立つことは確かですが、本当の理解が存在する場所ではありません。

その哲学は、彼をLLM競争と真っ向から対立させる。GPTスタイルのシステムは、ほぼ完全にインターネットから収集されたテキストで訓練され、次にトークンごとに新しいテキストを生成する。ルカンは、この設定が雄弁さと理解を混同させ、研究を行き止まりのアーキテクチャに閉じ込めていると主張している。

彼は核心の問題を「根拠のない」学習と呼んでいます。テキストだけでは摩擦、重力、遮蔽、因果関係には触れられません。それは人間がそうしたことについて話す様子を反映するだけです。言葉だけに基づいて訓練すると、文化のモデルが得られ、現実のモデルは得られません、と彼は言います。

ルクンの批判は、彼の好きな比較で明らかになります。ティーンエイジャーが運転を習得するのにおおよそ20時間の練習が必要である一方で、10年以上、数十億ドル、数百万マイルの運転を経ても、依然として信頼できるレベル5の自動運転車は存在しません。彼にとって、そのギャップは単なる技術的遅れではなく、現在のデータとアーキテクチャが人間が能力を獲得する方法と根本的に不一致であることの証拠です。

人間は連続的で混沌とした感覚の流れ—視覚、音、自己受容感覚—から学び、その後に言葉を結びつけます。LLMはそのプロセスを逆転させ、キャプション、マニュアル、フォーラム投稿から始まります。LeCunは、この逆転がモデルにテキストの統計的パターンから物理や常識を偽ることを強いるため、エッジケース、ロボティクス、リアルタイム制御において崩壊する、と主張しています。

JEPAは彼の壁からの脱出装置です。Joint Embedding Predictive Architectureシステムは、特にビデオから、潜在的な「意味」空間でシーンの欠落している部分や未来の部分を予測することによって学習します。ピクセルやトークンを出力するのではなく、世界が特定の物理的および因果的ルールに従った場合、内部表現がどのように進化すべきかを予測します。

このように構築された世界モデルは、原則として「マグカップが傾くと液体がこぼれる」といった動態を、「こぼれる」という言葉を一度も読まずに内在化することができます。JEPAモデルに大規模な動画、たとえば運転映像、家庭内操作、倉庫ロボットの映像を与えると、彼らは動き、接触、そして結果の規則性を直接学習します。

ルクンは、VL-JEPAとその後継をLLMのプラトーを回避する道として位置付けています。テキストは、基盤となる知性そのものではなく、地に根ざしたワールドモデルに取り付けられたオプションのインターフェースとなります。

真の理解のアーキテクチャ

イラスト: 真の理解の建築
イラスト: 真の理解の建築

チャットボットは忘れてください;Metaの新しいモデルは生のビデオから始まります。ビジュアルエンコーダーはフレームのストリームを取り込み、それを密なベクトルに圧縮します。これは、何が起きているのかを内部的に示す映画の一種です。キャプションもラベルもなく、動き、物体、そして文脈のコンパクトな表現のみです。

これらのベクトルは、モデルの「脳」として機能する予測ネットワークに入力されます。その役割は、ビデオの一部が与えられたときに、その潜在空間の中で欠けている部分を想像することです。欠けたピクセルを埋める代わりに、欠けた意味を埋めようとします—システムがシーンを真に理解しているならば、見えないクリップの内部表現はどのように見えるべきかを考えます。

反対側にはターゲットエンコーダーが座っています。これは、実際に保持されたビデオセグメントを自身の潜在表現に変換します。トレーニングはシンプルですが厳しいゲームになります:予測者の想像したベクトルは、数百万のマスクされた予測エピソードを通じて、ターゲットエンコーダーの実際のベクトルとできるだけ密接に一致しなければなりません。

その設定は、V-JEPAが表面的なパターンではなく、抽象的な構造を学ぶことを強制します。成功するためには、モデルが「物の恒常性」や「遮蔽」、「因果関係」などの概念を内面化する必要があります。なぜなら、それこそが過去のフレームから隠れた未来のフレームを推測することを可能にするからです。行動の半分が欠けているときに、ただテクスチャを記憶するだけではいけません。

動画のシンプルなダイアグラムがこれを明らかにします。横に並ぶ三つのボックスを想像してください:「ビデオ入力」→「脳」→「理解のクラウド」。最初のボックスがビジュアルエンコーダーで、真ん中が予測者、クラウドは隣接するポイントが「手を伸ばす」や「物を掴む」といった類似のイベントに対応する意味の進化するマップです。

トレーニングは、その雲の一部を繰り返し消去し、脳にそれを復元させるようなものです。時には、脳は以前のフレームしか見えず、次に何が起こるかを推測しなければなりません。別の時には、マスクされた領域の境界しか見えず、その中で何が起こるかを推測しなければなりません。成功するたびに、コンテキストと結果の間のマッピングがより厳密になります。

時間が経つにつれて、その圧力は孤立したスナップショットではなく、連続する出来事を追跡する世界モデルを形作ります。言語は後にそれらの潜在的ベクトルにアクセスできますが、その理解はその意味空間の幾何学の下に存在しています。

真の報酬:物理世界のためのAI

ロボットは文で考えません。倉庫のアームが箱をつかむ方法を決めたり、家庭用ロボットが冷蔵庫を開ける方法を考えたりする際には、連続的で非言語的な世界モデルが必要です:物体がどこにあるか、どう動くか、押したり引いたり、または半秒長く待ったら何が起こるかを理解することです。

LLM(大規模言語モデル)、特にマルチモーダルなものは、視覚の上に言語を重ねています。彼らはフレームを見てキャプションを生成し、次のフレームのために別のキャプションを作成します。このトークンごとのナレーションは計算資源を無駄にし、さらに重要なことに、動き回るカニスターにグリッパーを正確に着地させなければならないときに役に立たない、断片的な瞬間に時間を壊してしまいます。

V-JEPAはそれを逆転させます。ビデオは視覚エンコーダーに流れ込み、そこから未来の潜在状態を予測する役割を持つ予測器に送られます。システムはシーンが展開するにつれて滑らかに進化するサイレントで高次元の「意味ベクトル」を維持し、下流のタスクが要求する場合にのみ言語を表面化させます。

安価なビジョンモデルは、各フレームを別々のクイズのように扱います。一枚の画像に「手」とラベル付けし、次に「ボトル」、その次に「カニスタを持ち上げる」、また「手」と戻り、記憶のない飛び跳ねた矛盾した出力を生成します。一方、V-JEPAは「カニスタに近づき、つかみ、持ち上げる手」の安定した時間的表現を追跡し、アクションパターンが確定すると単一の自信あるラベルを出力します。

その時間的安定性は、JEPAの予測目的から来ています。このモデルは、マスクされたり未来のビデオのチャンクの埋め込みを予測する方法を学び、現在目に見えるものだけでなく、次に起こりそうなこともエンコードすることを強いられます。時間における因果関係は、その潜在空間の幾何学に組み込まれます。

ロボティクスにおいて、その違いは存在論的なものです。「ボトル、ボトル、ボトル」としか認識できないロボットは、グリッパーを閉じるタイミングを決めることができませんが、「この軌道は成功したピックにつながる」と内部的にシミュレーションできるロボットは、動作のタイミングを合わせたり、滑りから回復したり、複数のステップを含む行動を計画したりできます。計画、制御、ナビゲーションはすべて、この種の先行モデルに依存しています。

Metaは、JEPAベースのシステムを具現化されたエージェント、ウェアラブルデバイス、ARデバイスの基盤として位置付けており、Meta AI Researchを通じて技術的詳細の発表を始めています。もしLeCunが正しければ、その静かで予測的な世界モデル――おしゃべりなLLMではなく――が次世代の物理的AIを推進するでしょう。

V-JEPAをテストする

ベンチマークは、MetaのV-JEPAが哲学の講義のように聞こえるのをやめ、今日のビジョン–言語モデルにとっての問題に変わるところです。動画では、このモデルがゼロショットビデオ分類において最先端の結果を出し、完全なテキストデコーダーに依存するより大きく、複雑なベースラインを打ち負かしています。この成果は、LeCunが常に話している「意味空間」の中で純粋に運用し、次の単語を推測することなく実現されています。

Metaの数値は、V-JEPAが人気のあるビジョン・言語スタックと同等かそれを上回るパフォーマンスを、アクション認識や時間的理解において示しており、ラベル付きの例にアクセスできる場合でもそうです。ゼロショット分割—モデルが対象データセットのラベル付きトレーニングクリップを一度も見たことがない状況—においても、V-JEPAはアクションやシーンをより正確にタグ付けします。これは、その内部表現が実際にドメインを超えて一般化することを示す兆候です。

効率性がもう一つの重要なポイントです。V-JEPAは、トレーニング中に重い自己回帰テキストデコーダーを省略するため、同様の視覚-言語セットアップの約半分のトレーニング可能パラメータを使用します。トークンを処理する巨大な言語ヘッドがないため、メモリが少なくなり、FLOP数も減少し、イテレーションが速くなります。一方で、コンパクトな潜在予測器が実際の知的作業を行います。

ここでの「ゼロショット」とは、モデルが自然言語のラベル空間しか受け取らず、「水を注ぐ」、「ドアを開ける」、「野菜を切る」といった新しい動画を、そのデータセットからラベル付けされた例を見ずに分類しなければならないことを意味します。強力なゼロショットパフォーマンスは、モデルの埋め込み空間が動き、意図、物体の相互作用といった概念を転送できる方法で既に符号化していることを示しています。これは一般化された理解のストレステストであり、単なる暗記ではありません。

Redditの批評家たちは、V-JEPAの予測が特にあいまいなフレームや奇妙なエッジケースにおいて時折外れることを指摘しています。この不満は偶然にもポイントを強調しています:これは初期の研究システムであり、洗練された製品ではありません。そして、複雑な時間予測で目に見えて失敗することができるという事実は、Metaが単にトークンを拡大するのではなく、ついに正しい難しい問題に取り組んでいることを示しています。

AIの未来における分岐点

イラスト:AIの未来における分岐点
イラスト:AIの未来における分岐点

静かだが非常に現実的な分岐がAI戦略の中で生まれつつあり、JEPAはその分岐の中心に位置しています。一方では、OpenAIやGoogleのような企業がLLM中心の生成システムに注力しており、コード、画像、動画、さらには行動計画までもが予測されるトークンの列として扱われます。他方では、ヤン・ルカンとMetaのFAIRラボが、考えるために話す必要のない共同埋め込み予測アーキテクチャを推進しています。

道筋の一つはお馴染みかもしれません:GPT-4スタイルのモデルを多モーダルな巨獣へとスケーリングし続けることです。OpenAIのGPT-4o、GoogleのGemini 1.5、AnthropicのClaude 3はすべて同じレシピに従っています:大規模なトランスフォーマー・バックボーン、数兆のウェブおよび独自データのトークン、自動回帰ループが次のシンボルを予測します。そのシンボルが単語、ピクセルトークン、または音声チャンクであるかにかかわらずです。

JEPAはその方向性からの大きな転換を意味します。ピクセルや単語を生成するのではなく、V-JEPAとVL-JEPAは未来や欠落したコンテンツの潜在表現を予測することを学習します—モデルがビデオで次に何が起こると考えているのか、または特定の領域がどの概念に属するのかを。言語は世界モデルの上に薄い層となり、知性の核心的な基盤ではなくなります。

その分岐は2つの最適化目標につながります。LLM優先のラボは、自然言語が主な入出力となるチャットインターフェース、コードアシスタント、検索、そして生産性ツールの最適化を行います。一方、JEPA優先の研究は、ロボット、ARグラス、および物体、意図、因果関係を時間の経過とともに追跡しながら、すべてのマイクロステップをナレーションすることなく機能する自律エージェントを最適化します。

LLMの道筋では、進歩はスケールと整合性から生まれます。より大きなコンテキストウィンドウ(最大2Mトークン)、豊かなツール利用、そして情報検索を強化した生成が、ソフトウェア開発、法的文書作成、カスタマーサポートなどのワークフローにおいてモデルをより深く押し進めます。指標は、人間にとって生成されたテキストとコードがどれほど一貫性があり、安全で有用に見えるかです。

JEPAの進化の道において、進歩はより優れた予測的世界モデルから生まれます。基準は、ゼロショットアクション認識、時間的ローカリゼーション、そしてダウンストリーム制御に移行します。システムは、缶を手に取ろうとする手を予測できるのか、冗長なプロンプトではなくコンパクトな内部状態を使ってロボットアームのために掴む行動や押す行動のシーケンスを計画できるのか?

両方の道は共存する可能性が高いですが、業界の重心を正反対に引っ張っています。どちらの言語も知性の普遍的なAPIとして残るか、あるいは無言の高度に構造化されたモデルの上にあるオプションのインターフェースの一つになるかのどちらかです。これらのモデルは主に物理的な世界を理解し、行動します。

ルカン・ギャンビット:新しいAIのための新たな冒険

ヤン・ルカンの次の動きに関する噂は、突然ゴシップのようではなく、戦略のように見えてきました。複数の報告によると、メタの最高AI科学者が新しいスタートアップを立ち上げているとのことで、メタは雇用者ではなく主たるパートナーおよび資金提供者として関与する可能性が高く、彼が10年間にわたり講演や論文で描いてきたようなAIを構築するための独自の手段を提供することになります。

ルクンは何年も前から、最先端のAI研究は10年単位で進むのに対し、大手テック企業は四半期単位で出荷していると不満を漏らしてきました。別のベンチャーでは、彼がJEPAスタイルの世界モデルや長期的な学習を追求できるようにし、すべての実験をReelsのエンゲージメントや広告のターゲティングに対して正当化する必要がありません。

彼の示した目標は、OpenAIやAnthropicの意味での「AGI」ではなく、高度な機械知能(AMI)です。LeCunの定義によれば、AMIは次のようなシステムを意味します: - 生の感覚入力から予測的な世界モデルを構築する - 長期的な視野で推論と計画を行う - 現実世界に対する持続的で具体的な記憶を維持する

このビジョンにおいて、AMIはチャットボットに先立ってロボット、ARグラス、車両、家庭用デバイスに存在します。それは単に文を自動完了するのではなく、時間の経過とともに物体、意図、物理を追跡する必要があります。まさにそこが、JEPAやV-JEPAスタイルのモデルがトークン空間ではなく潜在的な「意味空間」で予測を行い、構造的優位性を主張する領域です。

メタの最新のV-JEPAとVL-JEPAの研究は、ノンジェネレーティブモデルがゼロショットビデオ分類と時間的理解において、約半分のパラメータでより大きなジェネレーティブライバルに勝ったり、並んだりしていることを示しています。創業者にとって、これらの数字は単純な理論に変換されます:世界モデル中心のAMIは、幻覚を見たり因果関係に苦しんだりするますます大きなLLMよりもスケールしやすいのです。

したがって、LeCunのスタートアップは、JEPAが今日のトランスフォーマーLLMスタックを超えるというクリーンで高リスクな賭けのように見えます。OpenAIとGoogleが巨大な自己回帰モデルに注力する一方で、彼の陣営は、求められたときだけ話し、常に考えている静かな予測システムを推進します。

この分野を追跡している人は、2025 AI Index Report – Stanford HAIを読むべきです。この報告書では、純粋な言語ベンチマークからマルチモーダル、具現化された、代理的な評価へのシフトがすでに指摘されています。もしこれらの指標が重要なスコアカードになるなら、ルカンのギャンビットは反対意見ではなく、主要なイベントに見えてくるでしょう。

これは本当に「ポストLLM」時代なのでしょうか?

ポストLLMは黙示録的に聞こえますが、現実は絶滅よりも共存に近いです。大規模言語モデルはすでに検索エンジン、生産性スイート、コードエディタ、カスタマーサービススタックの中で稼働しており、その経済性はNvidiaが新しいGPUを出荷するたびに改善されています。企業はLLMインフラに数百億ドルを注ぎ込み、その勢いだけでも今後数年間にわたり商業AIインターフェースを支配することが保証されています。

JEPAスタイルのシステムは、スタックの異なる層をターゲットにしています。LLMはインターネットを圧縮してオートコンプリートを強化することに優れていますが、基盤となる知覚、長期的予測、または空間における身体の精密な制御を必要とするタスクには苦労します。不均一な地面に足を置く場所を決定しなければならないロボットは、その選択肢に関する200トークンのエッセイを待つことはできません。

LLM後、LeCunのボキャブラリーにおいては、研究の最前線を指し、製品の棚ではありません。この最前線は「次のトークンを予測する」から「世界の次の状態を予測する」へと移行しています。これは画像、動画、音声、センサーストリームにわたります。言語は思考の基盤ではなく、クエリとレポートのチャネルとなります。

JEPAモデル、例えばV-JEPAやその視覚と言語の仲間は、時間と共に進化するコンパクトな「意味ベクトル」を学ぼうとします。毎時点で言葉を発する代わりに、新しいフレームが到着するたびに更新される沈黙した内部状態を維持し、「何が起こっているのか?」や「次は何をすべきか?」と尋ねられた際にその状態を示します。この設計は、ロボティクス、AR眼鏡、自動車、工場システムにおける制御ループと一致しています。

商業的には、次のようなスタックを想像できます: - JEPAに似たコアが環境を監視し、未来の状態を予測します - プランニングモジュールがその潜在空間においてアクションを選択します - LLMがそれらのアクションを自然言語で人間に説明します

それはポストLLMの世界です:LLMなしではなく、LLMの中心から外れた世界です。

もしLeCunが正しいなら、歴史的な転換点はより大きなモデルのことではなく、異なる思考の原則についてです。トークンごとの生成を学習された意味空間での連続的な予測に置き換えることが、アジャイルロボット、持続的エージェント、リアルタイムアシスタントといった能力を解き放つ可能性がある—GPTスタイルのシステムをさらに10倍スケールアップしても実現できないものです。

よくある質問

JEPA AIアーキテクチャとは何ですか?

JEPA(共同埋め込み予測アーキテクチャ)は、Metaのヤン・ルカンによって設計されたAIモデルの一種です。文中の次の単語を予測するのではなく、圧縮された抽象的な「意味空間」で欠落している情報や将来の情報を予測することによって、世界の内部モデルを学習します。

JEPAはChatGPTのような大規模言語モデル(LLM)とどのように異なりますか?

LLMはトークン単位でテキストを生成する生成モデルです。JEPAはその本質において非生成的であり、まず内部の理解を構築し、言語をオプションとして生成します。これにより、ロボティクスのような実世界の基盤が求められるタスクに対して、より効率的で適したものになる可能性があります。

JEPAモデルはLLMを置き換えるでしょうか?

必ずしも置き換えるわけではありませんが、それぞれ異なる課題に焦点を当てています。LLMは言語ベースのタスクに優れていますが、JEPAは物理的な世界との相互作用や計画の解決を目指しています。ルカンは、この「世界モデル」アプローチがより高度なAIへの道であり、現在のLLMが多くの将来のアプリケーションにおいて時代遅れになる可能性があると信じています。

ヤン・ルカンは、今日の大規模言語モデルに対してなぜ批判的なのでしょうか?

レカンは、知能とは言語を操作することだけではなく、世界を理解することだと主張しています。彼は、テキストだけでモデルを訓練することは根本的な制限であると考えており、つまり、動画などの感覚データから得られる現実の深い因果理解が欠けていると述べています。JEPAはそのために設計されています。

🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts