TL;DR / Key Takeaways
Die Sensation vom KI-Chef von Meta
Yann LeCun hat Jahrzehnte damit verbracht, zu verändern, wie Maschinen sehen und denken lernen. Der Turing-Preisträger, der zur Entwicklung von Faltungsneuronalen Netzen beigetragen hat und nun als Chief AI Scientist bei Meta tätig ist, zielt erneut direkt auf das Gebiet, das er mitbegründet hat. Sein Ziel diesmal: die großen Sprachmodelle, die den aktuellen Hype-Zyklus der KI dominieren.
Die FAIR-Lab von Meta hat leise ein neues Papier veröffentlicht, in dem ein vision-sprachliches System beschrieben wird, das auf LeCuns Joint Embedding Predictive Architecture (JEPA) basiert. Unter dem Namen VL-JEPA oder VLJEPA Modell bekannt, baut es auf der früheren V-JEPA-Arbeit aus 2023 auf, indem es Sprache auf ein prädiktives visuelles Fundament anwendet. Anstatt Pixel oder Tokens vorherzusagen, lernt das Modell, zukünftige oder fehlende Inhalte direkt in einem gemeinsamen Einbettungsraum zu antizipieren.
LeCun hat jahrelang argumentiert, dass echte Intelligenz aus dem Lernen eines Weltmodells stammt und nicht aus der automatischen Vervollständigung von Text. Dieses neue auf JEPA basierende System verkörpert diese Auffassung: Es funktioniert als nicht-generatives Modell, das „Bedeutungsvektoren“ vorhersagt und nur auf Aufforderung Wörter produziert. Die Architektur behandelt Sprache als eine optionale Schnittstelle, die auf einem reichhaltigeren, stillen internen Zustand sitzt.
Das sorgt dafür, dass das Papier weniger wie ein weiterer multimodaler Benchmark-Eintrag und mehr wie ein Manifest gegen den herrschenden LLM-Stack wirkt. Autoregressive Modelle wie GPT-4, Claude und Llama 3 erzeugen Ausgaben tokenweise von links nach rechts, wobei jeder Schritt als Text sichtbar ist. JEPA-ähnliche Modelle halten ihr Denken intern, aktualisieren einen latenten Zustand über die Zeit und geben Sprache nur als letzten Serialisierungsschritt aus.
LeCun hat öffentlich LLMs als „unscharfe JPEGs des Webs“ bezeichnet und vorhergesagt, dass die aktuellen Architekturen in ein paar Jahren primitiv erscheinen werden. Diese Arbeit versucht, seine Alternative zu formalisieren: prädiktive, selbstüberwachende Systeme, die aus kontinuierlichen Strömen von Video-, Audio- und anderen Sensordaten lernen. Die Herausforderungen gehen über Chatbots hinaus und reichen in die Robotik, AR-Brillen und reale Agenten, die planen müssen, anstatt nur zu reden.
All dies geschieht vor dem Hintergrund von Berichten, dass LeCun plant, Meta zu verlassen, um ein Startup zu gründen, das sich um KI der nächsten Generation im JEPA-Stil dreht. Gerüchte deuten auf ein Unternehmen hin, das sich auf groß angelegte Weltmodelle konzentriert, die auf Video- und verkörperten Daten trainiert werden, nicht nur auf Text, der aus dem Internet gesammelt wurde. Wenn das passiert, könnte Metas eigener KI-Chef die Initiative gegen das LLM-Paradigma übernehmen, das er nie vollständig akzeptiert hat.
Diese KI muss nicht sprechen, um zu denken.
Generative KI arbeitet sich sprichwörtlich zu einer Antwort vor. Modelle wie GPT‑4 oder Llama 3 fungieren als autoregressive Engines: Sie sagen das nächste Token voraus, dann das nächste, und schreiten von links nach rechts voran, bis der Satz endet. Jede Antwort existiert nur als eine wachsende Kette von Tokens, sodass „Denken“ und „Sprechen“ in denselben langsamen, rechenintensiven Prozess verschmolzen sind.
Nicht-generative JEPA-Modelle trennen diese Aspekte. Eine Joint Embedding Predictive Architecture bildet zunächst eine interne Darstellung dessen, was geschieht – über Bilder, Videos und Texte hinweg – und basiert dann auf diesem stillen Verständnis. Sprache wird zur optionalen Übersetzungsebene, nicht zum Medium des Denkens selbst.
Generative Systeme verhalten sich wie jemand, der sein Denken laut schildert: „Lass mich erklären, was ich denke, während ich es noch herausfinde.“ Jedes Wort hängt vom vorherigen ab, sodass das Modell buchstäblich nicht die endgültige Formulierung oder manchmal sogar die endgültige Antwort kennen kann, bis die Sequenz abgeschlossen ist. Diese token‑weise Verarbeitung verbraucht GPU-Zyklen und führt zu Verzögerungen bei jeder Anfrage.
JEPA dreht den Spieß um: „Ich weiß es bereits und werde nur erklären, wenn du fragst.“ Anstatt das nächste Wort vorherzusagen, sagt es einen Bedeutungsvektor direkt in einem hochdimensionalen semantischen Raum voraus. Die Kernberechnung erzeugt eine einzelne, dichte Darstellung, die Entitäten, Aktionen und Beziehungen kodiert, ohne jemals Text auszugeben.
Da JEPA im semantischen Raum und nicht im Token-Raum arbeitet, umgeht es den kostspieligsten Teil der Inferenz im Stil von LLM. Autoregressive Modelle müssen: - Für jedes Token einen Vorwärtsdurchlauf durchführen - Ein langes Kontextfenster pflegen und aktualisieren - Wiederholt aus einer großen Vokabularverteilung sampeln
JEPA führt einen Vorwärtsdurchlauf durch, um ein stabiles Embedding zu erhalten, und stoppt dann. Die Umwandlung dieses Embeddings in eine Bildunterschrift, Antwort oder Befehl wird zu einem leichten Dekodierungsschritt statt zu dem Hauptereignis. Die Prototypen von Metas VL-JEPA berichten bereits, dass sie ungefähr die Hälfte der Parameter vergleichbarer generativer Vision-Sprach-Stacks verwenden, während sie in den Benchmarks mithalten oder sie übertreffen.
Ein stiller interner Zustand ermöglicht auch ein kontinuierliches Verständnis ohne ständiges Gerede. Ein VL-JEPA-System kann einen Video-Stream beobachten, seinen Bedeutungsvektor über Hunderte von Bildern verfeinern und nur Sprache ausgeben, wenn es dazu aufgefordert wird oder wenn ein externes System eine symbolische Beschreibung benötigt. Denken geschieht kontinuierlich; Sprechen wird zu einem Nebeneffekt.
Über Tokens hinaus: Denken in einem 'Bedeutungsraum'
Sprachmodelle wie GPT leben und sterben nach Tokens. Sie zerschneiden die Welt in diskrete Wortteile und verarbeiten diese dann von links nach rechts, um den nächsten Textabschnitt vorherzusagen. Visuelle Erweiterungen für LLMs fügen in der Regel einfach einen Klassifikator hinzu, der jedes Bildfeld in eine Bildunterschrift umwandelt und diese Beschriftungen dann an die Text-Engine zurückgibt.
JEPA kehrt dieses Pipeline-Konzept um. Das VLJ-Modell von Meta nimmt roh-Video auf und erstellt eine dichte interne Darstellung – ein Embedding –, das verfolgt, was über die Zeit passiert. Anstatt jeden Frame zu beschreiben, hält es einen stillen, kontinuierlichen Bedeutungsvektor bereit, der sich nur dann in Worte verwandelt, wenn Sie danach fragen.
Dieses Einbettung verhält sich wie ein „Bedeutungsraum“ statt wie ein Token-Stream. Jeder Punkt in diesem Raum kodiert Objekte, Aktionen und Kontexte über mehrere Rahmen: Hand, Behälter, Bewegung, Absicht. Wenn das System schließlich „einen Behälter aufnehmen“ ausgibt, fasst es eine Trajektorie durch diesen Raum zusammen, anstatt eine vage Wort-für-Wort-Beschreibung zusammenzusetzen.
Die Forscher von Meta behaupten, dass dies ernsthafte Effizienz kauft. Da VLJ in einem komprimierten latenten Raum vorhersagt, anstatt Pixel oder Tokens zu generieren, verwendet es Berichten zufolge ungefähr die Hälfte der Parameter im Vergleich zu ähnlichen vision-language Transformern, während es auf standardisierten Benchmarks entweder gleichwertig abschneidet oder sie übertrifft. Weniger Parameter bedeuten geringeren Druck auf den Speicher, schnellere Inferenz und bessere Skalierung auf Edge-Hardware wie Headsets oder Robotern.
Setzen Sie dies in Kontrast zu einem typischen LLM-Vision-Stack. Ein standardmäßiger Vision-Encoder betrachtet jeden Frame, gibt ein Label aus – „Flasche“, „Hand“, „Tisch“ – und vergisst fast alles zwischen den Schritten. Es gibt keinen beständigen semantischen Zustand, nur einen kontinuierlichen Strom von Beschriftungen, die das Sprachmodell nachträglich in eine Geschichte zu verweben versucht.
Das Weltmodell von JEPA funktioniert andersherum: zuerst nachhaltiges Verständnis, dann Sprache. Das VLJ: Vision-Language-Jeopardy (Platzhalter arXiv-Eintrag) beschreibt ein System, das diesen internen Film der Bedeutung stillschweigend laufen lässt und ihn erst dann als Text auftauchen lässt, wenn Menschen einen Satz benötigen.
Warum LeCun glaubt, dass LLMs an eine Wand gestoßen sind.
Yann LeCun betont seit Jahren den gleichen Punkt: Intelligenz besteht darin, ein internes Modell der Welt aufzubauen, nicht darin, auf Englisch besonders klug zu klingen. Seiner Ansicht nach ist Sprache ein praktisches „I/O-Protokoll“ für Menschen, ähnlich wie HDMI für Monitore. Nützlich, ja, aber nicht der Ort, an dem echtes Verständnis lebt.
Diese Philosophie bringt ihn direkt in Konflikt mit dem LLM-Rüstungswettlauf. GPT-ähnliche Systeme trainieren fast ausschließlich mit Texten, die aus dem Internet extrahiert wurden, und generieren dann Text Token für Token. LeCun argumentiert, dass diese Herangehensweise Eloquenz mit Verständnis verwechselt und die Forschung in eine Sackgasse drängt.
Er nennt das Kernproblem "bodenloses" Lernen. Text allein berührt niemals Reibung, Schwerkraft, Okklusion oder Kausalität; er reflektiert nur, wie Menschen über diese Dinge sprechen. Trainiert man nur mit Wörtern, sagt er, erhält man ein Modell der Kultur, nicht ein Modell der Realität.
LeCuns Kritik zeigt sich in seinem Lieblingvergleich: Ein Teenager lernt in etwa 20 Stunden Praxis Autofahren, und doch haben wir nach mehr als einem Jahrzehnt, Milliarden von Dollar und Millionen von gefahrenen Meilen immer noch keine zuverlässigen Level 5-selbstfahrenden Autos. Für ihn ist diese Lücke nicht nur ein technisches Defizit; sie ist ein Beweis dafür, dass die aktuellen Daten und Architekturen grundlegend nicht mit der Art und Weise übereinstimmen, wie Menschen Kompetenzen erlangen.
Menschen lernen aus kontinuierlichen, chaotischen sensorischen Strömen – Vision, Klang, Propriozeption – und fügen erst später Wörter hinzu. LLMs kehren diese Pipeline um und beginnen mit Beschriftungen, Handbüchern und Forenbeiträgen. LeCun argumentiert, dass diese Umkehrung die Modelle zwingt, Physik und gesunden Menschenverstand aus statistischen Mustern im Text zu fälschen, was in Grenzfällen, Robotik und Echtzeitkontrolle versagt.
JEPA ist sein Fluchtweg von dieser Wand. Joint Embedding Predictive Architecture-Systeme lernen, indem sie fehlende oder zukünftige Teile einer Szene in einem latenten „Bedeutungs“-Raum, insbesondere aus Videos, vorhersagen. Anstatt Pixel oder Token auszugeben, sagen sie voraus, wie sich interne Darstellungen entwickeln sollten, wenn die Welt bestimmten physischen und ursächlichen Regeln gehorcht.
Weltmodelle, die auf diese Weise aufgebaut werden, können im Prinzip Dynamiken wie „wenn die Tasse kippt, fließt die Flüssigkeit aus“ internalisieren, ohne jemals das Wort „auslaufen“ zu lesen. Wenn man JEPA-Modelle mit großflächigen Videos füttert – Fahraufnahmen, Haushaltsmanipulationen, Lagerroboter – lernen sie die Regelmäßigkeiten von Bewegung, Kontakt und Konsequenz direkt.
LeCun beschreibt VL‑JEPA und seine Nachfolger als den Weg um das LLM-Plateau. Text wird zu einer optionalen Schnittstelle, die an ein fundiertes Weltmodell angekoppelt ist, und nicht zur Grundlage der Intelligenz selbst.
Die Architektur des echten Verstehens
Vergessen Sie gesprächige Bots; Metas neues Modell beginnt mit rohem Video. Ein visueller Encoder nimmt einen Stream von Frames auf und komprimiert sie in dichte Vektoren, eine Art internes Film über das, was passiert. Keine Untertitel, keine Labels, nur kompakte Darstellungen von Bewegung, Objekten und Kontext.
Diese Vektoren fließen in ein Vorhersagenetzwerk ein, das als das „Gehirn“ des Modells fungiert. Seine Aufgabe: Gegeben einige Teile des Videos, sich die fehlenden Teile in diesem latenten Raum vorzustellen. Anstatt fehlende Pixel zu ergänzen, versucht es, fehlende Bedeutungen zu ergänzen – wie die interne Darstellung des unsichtbaren Clips aussehen sollte, wenn das System die Szene wirklich versteht.
Auf der anderen Seite sitzt ein Target Encoder. Er verarbeitet das tatsächliche zurückgehaltene Videosegment in seine eigene latente Darstellung. Das Training wird zu einem einfachen, aber brutalen Spiel: Der vorgestellte Vektor des Prädiktors muss so genau wie möglich mit dem realen Vektor des Target Encoders übereinstimmen, über Millionen von Maskierungs- und Vorhersageepisoden.
Dieses Setup zwingt V‑JEPA dazu, abstrakte Strukturen statt Oberflächenmuster zu lernen. Um erfolgreich zu sein, muss das Modell Konzepte wie „Objektpermanenz“, „Bedeckung“ und „Ursache und Wirkung“ verinnerlichen, da diese genau das sind, was es ihm ermöglicht, ein verborgenes zukünftiges Bild aus einem vergangenen abzuleiten. Man kann nicht einfach Texturen auswendig lernen, wenn die Hälfte der Handlung fehlt.
Das vereinfachte Diagramm im Video hilft, dies zu entmystifizieren. Stellen Sie sich drei Kästen in einer Reihe vor: „Video In“ → „Gehirn“ → „Verstehens-Cloud.“ Der erste Kasten ist der visuelle Encoder, der mittlere ist der Prädiktor, und die Cloud ist die sich entwickelnde Karte der Bedeutungen, wobei nahe Punkte ähnlichen Ereignissen entsprechen, wie „Hand greift“ oder „Gegenstand wird ergriffen.“
Training sieht so aus, als würde man immer wieder Teile dieser Wolke löschen und dann das Gehirn auffordern, sie wiederherzustellen. Manchmal sieht es nur frühere Bilder und muss raten, was als Nächstes kommt; andere Male sieht es die Ränder eines maskierten Bereichs und muss schließen, was in der Mitte passiert. Jeder Erfolg verstärkt die Zuordnung zwischen Kontext und Konsequenz.
Im Laufe der Zeit formt dieser Druck ein Weltmodell, das kontinuierliche Ereignisse anstatt isolierter Schnappschüsse verfolgt. Die Sprache kann später auf diese latenten Vektoren zugreifen, aber das Verständnis liegt darunter, in der Geometrie des Bedeutungsraums.
Der wahre Preis: KI für die physische Welt
Roboter denken nicht in Sätzen. Ein Lagerarm, der entscheidet, wie er eine Kiste greifen soll, oder ein Haushaltsroboter, der herausfindet, wie man einen Kühlschrank öffnet, benötigt ein kontinuierliches, nicht-sprachliches Modell der Welt: wo sich Objekte befinden, wie sie sich bewegen, was passiert, wenn man drückt, zieht oder eine halbe Sekunde länger wartet.
LLMs, selbst multimodale, setzen Sprache auf Vision. Sie sehen einen Frame, generieren eine Bildunterschrift und dann eine weitere Bildunterschrift für den nächsten Frame. Diese tokenweise Erzählung verschwendet Rechenleistung und, was noch wichtiger ist, zerbricht die Zeit in unverbundene Schnappschüsse, die nutzlos sind, wenn ein Greifer auf einem sich bewegenden Behälter landen muss.
V-JEPA kehrt das um. Video fließt in einen visuellen Encoder, der einen Prädiktor speist, der damit beauftragt ist, zukünftige latente Zustände vorherzusagen, nicht zukünftige Wörter. Das System hält einen stillen, hochdimensionalen „Bedeutungsvektor“ bereit, der sich sanft entwickelt, während die Szene sich entfaltet, und bringt Sprache nur dann zum Vorschein, wenn eine nachgelagerte Aufgabe dies verlangt.
Günstige Visionsmodelle behandeln jeden Frame wie ein separates Quiz. Sie kennzeichnen das eine Bild als „Hand“, das nächste als „Flasche“, dann als „Greifen des Kanisters“ und zurück zur „Hand“, was springende, widersprüchliche Ausgaben ohne Gedächtnis erzeugt. V-JEPA hingegen verfolgt eine stabile temporale Darstellung von „einer Hand, die sich nähert, greift und einen Kanister anhebt“ und gibt ein einzelnes, sicheres Etikett aus, sobald das Handlungsmuster sich verfestigt.
Diese zeitliche Stabilität stammt aus dem prädiktiven Ziel von JEPA. Das Modell lernt, die Einbettung von maskierten oder zukünftigen Videoabschnitten vorherzusagen, was es zwingt, nicht nur das, was jetzt sichtbar ist, sondern auch das, was wahrscheinlich als Nächstes passieren wird, zu kodieren. Ursache und Wirkung im Laufe der Zeit werden in die Geometrie seines latenten Raums eingebettet.
Für die Robotik ist dieser Unterschied existenziell. Ein Roboter, der nur "Flasche, Flasche, Flasche" erkennt, kann nicht entscheiden, wann er seinen Greifer schließen soll; ein Roboter, der intern simuliert "dieser Pfad endet mit einem erfolgreichen Greifen", kann seine Bewegung timen, sich von Rutschern erholen und mehrstufige Verhaltensweisen planen. Planung, Steuerung und Navigation basieren alle auf dieser Art von Vorwärtsmodell.
Meta positioniert JEPA-basierte Systeme als das Rückgrat für verkörperte Agenten, tragbare Technologien und AR-Geräte und hat begonnen, technische Details über Meta AI Research zu veröffentlichen. Wenn LeCun recht hat, werden diese ruhigen, prädiktiven Weltmodelle – nicht gesprächige LLMs – die nächste Generation der physischen KI vorantreiben.
V-JEPA auf die Probe stellen
Benchmarks sind der Punkt, an dem Meta's V-JEPA nicht mehr wie eine Philosophievorlesung klingt und zu einem Problem für die heutigen Vision-Sprach-Modelle wird. Im Video erzielt das Modell Spitzenleistungen bei der Zero-Shot-Video-Klassifizierung und schlägt dabei größere, komplexere Baselines, die auf vollwertigen Text-Decodern basieren. Das geschieht ausschließlich im „Bedeutungsraum“, von dem LeCun ständig spricht, und nicht durch das Raten des nächsten Wortes.
Metas Zahlen zeigen, dass V-JEPA in der Aktions- und Zeitverständnis-Erkennung gleichauf oder sogar besser abschneidet als beliebte Vision-Language-Stacks, selbst wenn sie Zugang zu gekennzeichneten Beispielen haben. Bei Zero-Shot-Splits – wo Modelle niemals gekennzeichnete Trainingsclips aus dem Ziel-Datensatz sehen – kennzeichnet V-JEPA dennoch Aktionen und Szenen genauer, was ein Zeichen dafür ist, dass seine internen Repräsentationen tatsächlich über verschiedene Domänen hinweg verallgemeinern.
Effizienz ist die andere Überschrift. V-JEPA verwendet ungefähr die Hälfte der trainierbaren Parameter im Vergleich zu ähnlichen Vision-Language-Setups, da es während des Trainings den schweren, autoregressiven Textdecoder überspringt. Kein riesiges Sprachmodul, das durch Token verarbeitet wird, bedeutet weniger Speicher, weniger FLOPs und schnellere Iterationen, während der kompakte latente Prädiktor die eigentliche intellektuelle Arbeit leistet.
„Zero-Shot“ bedeutet hier, dass das Modell nur einen natürlichen Sprachlabelraum erhält – sagen wir „Wasser gießen“, „Tür öffnen“, „Gemüse schneiden“ – und neue Videos klassifizieren muss, ohne zuvor Beispiele aus diesem Datensatz gesehen zu haben. Eine starke Zero-Shot-Leistung impliziert, dass der Einbettungsraum des Modells bereits Konzepte wie Bewegung, Absicht und Objektinteraktion in einer Weise codiert, die übertragbar ist. Es ist ein Belastungstest für generalisierte Verständnisses, nicht nur für Memorierung.
Kritiker auf Reddit haben bereits darauf hingewiesen, dass die Vorhersagen von V-JEPA manchmal ungenau sind, insbesondere in mehrdeutigen Szenarien oder in seltsamen Grenzfällen. Diese Beschwerde unterstreicht versehentlich den Punkt: Dies ist ein frühes Forschungssystem, kein ausgereiftes Produkt, und die Tatsache, dass es bei komplexen zeitlichen Vorhersagen sichtbar versagen kann, zeigt, dass Meta endlich das richtige, schwierige Problem angeht, anstatt einfach nur mehr Tokens zu skalieren.
Ein Scheideweg für die Zukunft der KI
Eine ruhige, aber sehr reale Gabelung eröffnet sich in der KI-Strategie, und JEPA steht genau an der Weggabelung. Auf der einen Seite setzen Unternehmen wie OpenAI und Google verstärkt auf LLM-zentrierte, generative Systeme, die alles – Code, Bilder, Videos, sogar Aktionspläne – als Folgen von Tokens betrachten, die vorhergesagt werden müssen. Auf der anderen Seite drängen Yann LeCun und das FAIR-Labor von Meta auf Gemeinsame Einbettungsvorhersage-Architekturen, die niemals sprechen müssen, um zu denken.
Weg eins kommt bekannt vor: weiterhin GPT-4-ähnliche Modelle zu multimodalen Ungeheuern zu skalieren. OpenAIs GPT-4o, Googles Gemini 1.5 und Anthropic's Claude 3 folgen alle dem gleichen Rezept: massive Transformer-Architekturen, Billionen von Tokens aus Web- und proprietären Daten und eine autoregressive Schleife, die das nächste Symbol vorhersagt, egal ob dieses Symbol ein Wort, ein Pixel-Token oder ein Audio-Chunk ist.
JEPA stellt einen radikalen Wandel dar. Anstatt Pixel oder Wörter zu generieren, lernen V-JEPA und VL-JEPA, latente Repräsentationen von zukünftigen oder fehlenden Inhalten vorherzusagen – was das Modell glaubt, was als Nächstes in einem Video passieren wird oder welchem Konzept ein Bereich angehört. Sprache wird zu einer dünnen Schicht auf einem Weltmodell, nicht zum Kernsubstrat der Intelligenz.
Diese Teilung führt zu zwei Optimierungszielen. LLM-first-Labore optimieren für Chat-Schnittstellen, Code-Assistenten, Suchmaschinen und Produktivitätstools, bei denen natürliche Sprache die primäre Eingabe/Ausgabe bleibt. JEPA-first-Forschung optimiert für Roboter, AR-Brillen und autonome Agenten, die Objekte, Absichten und Kausalitäten über die Zeit verfolgen müssen, ohne jeden Mikroschritt narrativ darzustellen.
Auf dem LLM-Pfad kommt der Fortschritt durch Skalierung und Abstimmung. Größere Kontextfenster (bis zu 2 Millionen Tokens), reichhaltigere Nutzung von Werkzeugen und abrufunterstützte Generierung führen Modelle tiefer in Arbeitsabläufe wie Softwareentwicklung, rechtliche Ausarbeitung und Kundensupport. Die Messgröße ist, wie kohärent, sicher und nützlich der generierte Text und Code für Menschen aussieht.
Auf dem JEPA-Pfad kommt der Fortschritt durch bessere vorhersagende Weltmodelle. Die Benchmarks verschieben sich auf Zero-Shot-Aktionserkennung, zeitliche Lokalisierung und nachgelagerte Steuerung: Kann das System eine Hand vorhersagen, die nach einem Behälter greift, oder eine Abfolge von Greif- und Schiebebewegungen für einen Roboterarm planen, indem es einen kompakten internen Zustand anstelle von ausführlichen Eingaben verwendet?
Beide Wege werden wahrscheinlich koexistieren, aber sie ziehen das Zentrum der Branche in entgegengesetzte Richtungen. Entweder bleibt die Sprache die universelle API für Intelligenz, oder sie wird nur eine optionale Schnittstelle über stillen, hochstrukturierten Modellen, die hauptsächlich die physische Welt verstehen und darin handeln.
Das LeCun-Gambit: Ein neues Unternehmen für eine neue KI
Gerüchte über Yann LeCuns nächsten Schritt wirken plötzlich weniger wie Klatsch und mehr wie Strategie. Mehrere Berichte besagen, dass Metas Chief AI Scientist ein neues Startup ins Leben ruft, wobei Meta wahrscheinlich als Hauptpartner und Geldgeber und nicht als Arbeitgeber fungiert. Dies gibt ihm ein separates Vehikel, um die Art von KI zu entwickeln, die er seit einem Jahrzehnt in Gesprächen und Fachartikeln skizziert.
LeCun hat seit Jahren beklagt, dass die Forschung im Bereich der fortschrittlichen KI auf Zeitrahmen von Jahrzehnten ausgerichtet ist, während Big Tech in vierteljährlichen Zyklen arbeitet. Ein separates Unternehmen ermöglicht es ihm, JEPA-ähnliche Weltmodelle und langfristiges Lernen zu verfolgen, ohne jedes Experiment an der Interaktion mit Reels oder der Anzeigenausrichtung rechtfertigen zu müssen.
Sein erklärte Ziel ist nicht "AGI" im Sinne von OpenAI oder Anthropic, sondern Advanced Machine Intelligence (AMI). In LeCuns Definition bedeutet AMI Systeme, die: - Vorhersage-Modelle der Welt aus rohen sensorischen Eingaben erstellen können - Über längere Zeiträume nachdenken und planen können - Eine anhaltende, fundierte Gedächtnisstütze der realen Welt aufrechterhalten können
AMI lebt in dieser Vision in Robotern, AR-Brillen, Fahrzeugen und Geräten im Haushalt, bevor es in Chatbots lebt. Es muss Objekte, Absichten und physikalische Gegebenheiten im Lauf der Zeit verfolgen, nicht nur Sätze automatisch vervollständigen. Das ist genau das Regime, in dem JEPA- und V-JEPA-Modelle, die im latenten "Bedeutungsraum" anstelle des Tokenraums vorhersagen, einen strukturellen Vorteil beanspruchen.
Metas neueste V-JEPA und VL-JEPA zeigen bereits, dass nicht-generative Modelle größere generative Mitbewerber bei der Zero-Shot-Videoklassifizierung und dem temporalen Verständnis entweder schlagen oder ihnen gleichkommen, und das mit ungefähr der Hälfte der Parameter. Für einen Gründer übersetzen sich diese Zahlen in eine einfache These: Weltmodell-zentrierte AMI skaliert besser als immer größere LLMs, die halluzinieren und mit Kausalität kämpfen.
LeCuns Startup erscheint daher wie eine saubere, riskante Wette, dass JEPA die heutigen Transformer-LLM-Modelle übertreffen wird. Während OpenAI und Google auf massive autoregressive Modelle setzen, wird sein Team lautlose, prädiktive Systeme vorantreiben, die nur sprechen, wenn sie gefragt werden, aber ständig denken.
Jeder, der diese Spaltung verfolgt, sollte den 2025 AI Index Report – Stanford HAI lesen, der bereits einen Wandel von reinen Sprachbenchmarks zu multimodalen, verkörperten und agentischen Bewertungen anzeigt. Wenn diese Metriken zum entscheidenden Maßstab werden, hört LeCuns Strategie auf, konträr zu sein, und beginnt, wie das Hauptthema auszusehen.
Ist das wirklich die 'Post-LLM'-Ära?
Post-LLM klingt apokalyptisch, aber die Realität ähnelt eher einer Koexistenz als einer Auslöschung. Große Sprachmodelle sind bereits in Suchmaschinen, Produktivitätssuiten, Code-Editoren und Kundenservicetools integriert, und ihre Wirtschaftlichkeit verbessert sich jedes Mal, wenn Nvidia eine neue GPU herausbringt. Unternehmen haben zig Milliarden in die Infrastruktur von LLM investiert, und allein dieser Schwung stellt sicher, dass sie in den kommenden Jahren die kommerziellen KI-Schnittstellen dominieren werden.
JEPA-Style-Systeme zielen auf eine andere Ebene des Stapels ab. LLMs glänzen darin, das Internet in eine Autocomplete-Version auf Steroiden zu komprimieren, aber sie haben Schwierigkeiten mit Aufgaben, die eine fundierte Wahrnehmung, langfristige Vorhersagen oder eine präzise Kontrolle von Körpern im Raum erfordern. Ein Roboter, der entscheiden muss, wo er seinen Fuß auf unebenem Boden platzieren soll, kann nicht auf einen 200-token langen Aufsatz über seine Optionen warten.
Post-LLM beschreibt in LeCuns Vokabular die Forschungsgrenze, nicht das Produktregal. Die Grenze verschiebt sich vom „Vorhersagen des nächsten Tokens“ hin zum „Vorhersagen des nächsten Zustands der Welt“ über Bilder, Videos, Audios und Sensordatenströme. Sprache wird zu einem Abfrage- und Berichtskanal, nicht zum Substrat des Denkens.
JEPA-Modelle wie V-JEPA und ihre vision- und sprachbasierten Verwandten versuchen, kompakte „Bedeutungsvektoren“ zu lernen, die sich im Laufe der Zeit weiterentwickeln. Anstatt in jedem Zeitintervall Wörter auszugeben, halten sie einen stillen internen Zustand aufrecht, der sich aktualisiert, wenn neue Frames eintreffen, und geben diesen Zustand preis, wenn sie gefragt werden: „Was passiert gerade?“ oder „Was soll ich als Nächstes tun?“ Dieses Design entspricht den Regelkreisen in der Robotik, in AR-Brillen, Autos und Fertigungssystemen.
Kaufmännisch können Sie sich einen Stapel vorstellen, bei dem: - Ein JEPA-ähnlicher Kern die Umgebung überwacht und zukünftige Zustände vorhersagt - Ein Planungsmodul Aktionen über diesen latenten Raum auswählt - Ein LLM diese Aktionen in natürlicher Sprache den Menschen erklärt
Das ist eine Welt nach den LLMs: nicht frei von LLMs, sondern LLM-dezentralisiert.
Wenn LeCun recht hat, geht es bei dem historischen Wandel nicht um größere Modelle, sondern um andere Denkprimitive. Den Austausch der tokenbasierten Generierung gegen kontinuierliche Vorhersagen in einem erlernten semantischen Raum könnte Fähigkeiten freisetzen – agile Roboter, persistente Agenten, Echtzeithilfen –, die selbst eine weitere 10-fache Skalierung von GPT-ähnlichen Systemen nicht liefern kann.
Häufig gestellte Fragen
Was ist die JEPA AI-Architektur?
JEPA, oder Joint Embedding Predictive Architecture, ist ein KI-Modell, das von Metas Yann LeCun entwickelt wurde. Anstatt das nächste Wort in einem Satz vorherzusagen, lernt es ein internes Modell der Welt, indem es fehlende oder zukünftige Informationen in einem komprimierten, abstrakten 'Bedeutungsraum' vorhersagt.
Wie unterscheidet sich JEPA von einem LLM wie ChatGPT?
LLMs sind generative Modelle, die Text Token für Token erzeugen. JEPA hingegen ist im Kern nicht-generativ; es entwickelt zunächst ein internes Verständnis und generiert Sprache nur als optionale Ausgabe. Dies macht es potenziell effizienter und besser geeignet für Aufgaben, die eine Verankerung in der realen Welt erfordern, wie beispielsweise Robotik.
Werden JEPA-Modelle LLMs ersetzen?
Nicht unbedingt als Ersatz, sondern sie zielen auf unterschiedliche Probleme ab. Während LLMs sich in sprachbasierten Aufgaben hervortut, zielt JEPA darauf ab, Probleme der Interaktion und Planung in der physischen Welt zu lösen. LeCun ist der Meinung, dass dieser Ansatz des "Weltmodells" der Weg zu fortschrittlicherer KI ist, die potenziell dazu führen könnte, dass aktuelle LLMs für viele zukünftige Anwendungen obsolet werden.
Warum ist Yann LeCun kritisch gegenüber den heutigen großen Sprachmodellen?
LeCun argumentiert, dass Intelligenz das Verständnis der Welt umfasst und nicht nur das Manipulieren von Sprache. Er ist der Meinung, dass das Trainieren von Modellen nur mit Text eine grundlegende Einschränkung darstellt, da ihnen das tiefgehende, ursächliche Verständnis der Realität fehlt, das aus sensorischen Daten wie Video stammt, aus denen JEPA gelernt werden soll.