L'IA silencieuse de Meta remplacera les modèles de langage de grande taille.

Le responsable de l'IA de Meta, Yann LeCun, a dévoilé une nouvelle architecture qui ne génère pas de texte token par token. Ce nouveau modèle, JEPA, acquiert une véritable compréhension du monde, marquant un potentiel changement de paradigme par rapport aux LLM comme ChatGPT.

Stork.AI
Hero image for: L'IA silencieuse de Meta remplacera les modèles de langage de grande taille.
💡

TL;DR / Key Takeaways

Le responsable de l'IA de Meta, Yann LeCun, a dévoilé une nouvelle architecture qui ne génère pas de texte token par token. Ce nouveau modèle, JEPA, acquiert une véritable compréhension du monde, marquant un potentiel changement de paradigme par rapport aux LLM comme ChatGPT.

La déclaration choc du responsable de l'IA de Meta

Yann LeCun a passé des décennies à essayer de remplacer la façon dont les machines apprennent à voir et à penser. Le prix Turing qu'il a reçu, qui a aidé à inventer les réseaux de neurones convolutionnels et qui est maintenant Chief AI Scientist chez Meta, vise à nouveau directement le domaine qu'il a contribué à créer. Son objectif cette fois : les modèles de langage de grande taille qui dominent le cycle d'engouement actuel de l'IA.

Le laboratoire FAIR de Meta a discrètement publié un nouvel article décrivant un système de vision-langage basé sur l'Architecture Prédictive d'Embeddings Communs (JEPA) de LeCun. Désigné sous le nom de modèle VL-JEPA ou VLJEPA, il prolonge les travaux antérieurs de V-JEPA de 2023 en ajoutant du langage sur une base visuelle prédictive. Au lieu de prédire des pixels ou des jetons, le modèle apprend à anticiper le contenu futur ou manquant directement dans un espace d'embedding partagé.

LeCun a soutenu pendant des années que la véritable intelligence provient de l'apprentissage d'un modèle du monde, et non de l'achèvement automatique de texte. Ce nouveau système basé sur JEPA incarne cette position : il fonctionne comme un modèle non génératif qui prédit des "vecteurs de sens" et ne produit des mots que sur demande. L'architecture considère la langue comme une interface optionnelle reposant sur un état interne plus riche et silencieux.

Cela donne à l'article une allure moins celle d'une autre entrée de référence multimodale et plus celle d'un manifeste contre l'empilement LLM régnant. Les modèles autorégressifs tels que GPT-4, Claude et Llama 3 génèrent des sorties jeton par jeton, de gauche à droite, chaque étape étant exposée sous forme de texte. Les modèles de style JEPA gardent leur raisonnement interne, mettant à jour un état latent au fil du temps et émettant un langage seulement en tant qu'étape de sérialisation finale.

LeCun a publiquement qualifié les LLM de "JPEG flous du web" et a prédit que les architectures actuelles paraîtront primitives d'ici quelques années. Ce travail tente de formaliser son alternative : des systèmes prédictifs et auto-supervisés qui apprennent à partir de flux continus de vidéos, d'audios et d'autres données sensorielles. Les enjeux dépassent les chatbots, touchant à la robotique, aux lunettes de réalité augmentée et aux agents du monde réel qui doivent planifier plutôt que de simplement parler.

Tout cela survient dans un contexte où des rapports indiquent que LeCun envisage de quitter Meta pour lancer une startup axée sur une IA de nouvelle génération au style JEPA. Des rumeurs suggèrent une entreprise centrée sur des modèles du monde à grande échelle entraînés sur des données vidéo et des données incarnées, et pas seulement sur du texte extrait d'internet. Si cela se produit, le responsable de l'IA de Meta pourrait se retrouver à mener la charge contre le paradigme des LLM qu'il n'a jamais entièrement adopté.

Cette IA n'a pas besoin de parler pour penser.

Illustration : Cette IA n'a pas besoin de parler pour réfléchir.
Illustration : Cette IA n'a pas besoin de parler pour réfléchir.

L'IA générative parle pour arriver à une réponse. Des modèles comme GPT-4 ou Llama 3 fonctionnent comme des moteurs autoregressifs : ils prédisent le prochain jeton, puis le suivant, avançant de gauche à droite jusqu'à ce que la phrase soit terminée. Chaque réponse existe uniquement comme une chaîne croissante de jetons, si bien que « penser » et « parler » sont fusionnés en un même processus lent et exigeant en calcul.

Les modèles JEPA non génératifs les séparent. Une Architecture Prédictive d'Incorporation Conjointe forme d'abord une représentation interne de ce qui se passe—à travers des images, des vidéos et du texte—puis repose sur cette compréhension silencieuse. Le langage devient une couche de traduction optionnelle, et non le médium de la pensée elle-même.

Les systèmes génératifs se comportent comme quelqu'un qui narre son raisonnement à haute voix : « Laissez-moi expliquer ce que je pense pendant que je suis encore en train de comprendre. » Chaque mot dépend du précédent, donc le modèle ne peut littéralement pas connaître la formulation finale, ou parfois même la réponse finale, avant que la séquence ne soit terminée. Ce pipeline par états introduit une consommation de cycles GPU et une latence à chaque requête.

JEPA change la donne : « Je sais déjà, et je n'expliquerai que si vous demandez. » Au lieu de prédire le mot suivant, il prédit directement un vecteur de signification dans un espace sémantique haute dimension. Le calcul central produit une seule représentation dense qui encode des entités, des actions et des relations sans jamais émettre de texte.

Parce que JEPA opère dans l'espace sémantique plutôt que dans l'espace de jetons, il évite la partie la plus coûteuse de l'inférence de type LLM. Les modèles autoregressifs doivent : - Effectuer un passage avant pour chaque jeton - Maintenir et mettre à jour une longue fenêtre de contexte - Échantillonner de manière répétée à partir d'une large distribution de vocabulaire

JEPA réalise un passage en avant pour obtenir un embedding stable et s'arrête. La conversion de cet embedding en légende, réponse ou commande devient une étape de décodage légère au lieu d'être l'événement principal. Les prototypes VL-JEPA de Meta rapportent déjà utiliser environ la moitié des paramètres des piles de vision-langage génératives comparables tout en égalant ou en les surpassant sur les benchmarks.

Un état interne silencieux permet également une compréhension continue sans bavardage constant. Un système VL-JEPA peut observer un flux vidéo, affiner son vecteur de signification sur des centaines de frames, et n’émettre du langage que lorsqu'il est sollicité ou lorsqu'un système externe a besoin d'une description symbolique. La pensée se produit en continu ; parler devient un effet secondaire.

Au-delà des jetons : Raisonnement dans un 'espace de signification'

Les modèles de langage comme GPT vivent et meurent par les tokens. Ils découpent le monde en morceaux de mots discrets, puis les traitent de gauche à droite, prédisant le prochain fragment de texte. Les extensions de vision pour les LLM se contentent généralement d'ajouter un classificateur qui transforme chaque image en une légende, puis renvoient ces étiquettes au moteur de texte.

JEPA renverse cette approche. Le modèle VLJ de Meta ingère des vidéos brutes et construit une représentation interne dense—un embedding—qui suit ce qui se passe dans le temps. Au lieu de narrer chaque image, il maintient un vecteur de signification silencieux et continu qui se transforme en mots seulement lorsque vous les demandez.

Cette intégration se comporte comme un « espace de signification » plutôt que comme un flux de tokens. Chaque point dans cet espace encode des objets, des actions et un contexte à travers plusieurs cadres : main, canister, mouvement, intention. Lorsque le système finit par produire « ramasser un canister », il résume une trajectoire à travers cet espace, et non pas une description approximative mot à mot.

Les chercheurs de Meta affirment que cela procure une efficacité sérieuse. En effet, VLJ prédit dans un espace latent compressé au lieu de générer des pixels ou des tokens, et utilise selon les rapports environ la moitié des paramètres des transformateurs vision-langage comparables tout en les égalant ou les surpassant sur des benchmarks standards. Moins de paramètres signifient une pression mémoire plus faible, une inférence plus rapide et une meilleure mise à l'échelle sur du matériel de pointe comme des casques ou des robots.

Contrastez cela avec une pile de vision LLM typique. Un encodeur de vision standard examine chaque image, émet une étiquette — “bouteille”, “main”, “table” — et oublie presque tout entre les étapes. Il n'y a pas d'état sémantique persistant, seulement un flux de légendes que le modèle linguistique tente d'entrelacer dans une histoire après coup.

Le modèle mondial de JEPA fonctionne dans l'autre sens : compréhension persistante d'abord, langue ensuite. L'article VLJ : Vision-Language-Jeopardy (entrée arXiv de remplacement) décrit un système qui maintient ce film interne de signification en cours d'exécution silencieusement, puis le surface sous forme de texte seulement lorsque les humains ont besoin d'une phrase.

Pourquoi LeCun pense que les LLM ont atteint un mur

Yann LeCun martèle le même point depuis des années : l'intelligence consiste à construire un modèle interne du monde, et non à avoir l'air intelligent en anglais. Selon lui, la langue est un « protocole d'entrée/sortie » pratique pour les humains, de la même manière que le HDMI l'est pour les moniteurs. Utile, oui, mais ce n'est pas là que réside la véritable compréhension.

Cette philosophie le place directement en désaccord avec la course à l'armement des LLM. Les systèmes de type GPT s'entraînent presque entièrement sur du texte récupéré sur Internet, puis génèrent du texte, token par token. LeCun soutient que cette configuration confond éloquence et compréhension et enferme la recherche dans une architecture sans issue.

Il appelle le problème central un apprentissage "non fondé". Le texte seul ne touche jamais à la friction, à la gravité, à l'occlusion ou à la causalité ; il ne reflète que la manière dont les humains parlent de ces choses. En s'entraînant uniquement sur des mots, dit-il, on obtient un modèle de culture, et non un modèle de réalité.

La critique de LeCun se manifeste dans sa comparaison préférée : un adolescent apprend à conduire en environ 20 heures de pratique, alors qu'après plus d'une décennie, des milliards de dollars et des millions de kilomètres parcourus, nous n'avons toujours pas de voitures autonomes fiables de niveau 5. Pour lui, cet écart n'est pas seulement un retard technique ; c'est la preuve que les données et les architectures actuelles sont fondamentalement mal alignées avec la manière dont les humains acquièrent des compétences.

Les humains apprennent à partir de flux sensoriels continus et désordonnés—vision, son, proprioception—et n'attachent des mots qu'ensuite. Les LLM inversent ce pipeline, en commençant par des légendes, manuels et publications sur des forums. LeCun soutient que cette inversion oblige les modèles à simuler la physique et le bon sens à partir de motifs statistiques dans le texte, ce qui échoue dans les cas extrêmes, la robotique et le contrôle en temps réel.

JEPA est sa porte de sortie de ce mur. Les systèmes Joint Embedding Predictive Architecture apprennent en prédisant des éléments manquants ou futurs d'une scène dans un espace latent de « signification », notamment à partir de vidéos. Au lieu de produire des pixels ou des jetons, ils prédisent comment les représentations internes devraient évoluer si le monde obéit à certaines règles physiques et causales.

Les modèles du monde construits de cette manière peuvent, en principe, intérioriser des dynamiques telles que "si la tasse se renverse, le liquide se renverse" sans jamais avoir lu le mot "renverser". Nourrissez les modèles JEPA avec des vidéos à grande échelle - séquences de conduite, manipulation domestique, robots d'entrepôt - et ils apprennent directement les régularités du mouvement, du contact et de la conséquence.

LeCun présente VL-JEPA et ses successeurs comme la voie autour du plateau des LLM. Le texte devient une interface optionnelle ajoutée à un modèle de monde ancré, et non la fondation de l'intelligence elle-même.

L'Architecture de la Véritable Compréhension

Illustration : L'Architecture de la Véritable Compréhension
Illustration : L'Architecture de la Véritable Compréhension

Oubliez les bots bavards ; le nouveau modèle de Meta commence avec de la vidéo brute. Un encodeur visuel ingère un flux d'images et les compresse en vecteurs denses, une sorte de film interne de ce qui se passe. Pas de sous-titres, pas d'étiquettes, juste des représentations compactes du mouvement, des objets et du contexte.

Ces vecteurs alimentent un réseau de prédiction qui fonctionne comme le "cerveau" du modèle. Son rôle : étant donné certaines parties de la vidéo, imaginer les morceaux manquants à l'intérieur de cet espace latent. Au lieu de combler des pixels manquants, il essaye de combler un sens manquant — à quoi devrait ressembler la représentation interne du clip non vu si le système comprend réellement la scène.

De l'autre côté se trouve un encodeur cible. Il transforme le segment vidéo retenu en sa propre représentation latente. L'entraînement devient un jeu simple mais brutal : le vecteur imaginé par le prédicteur doit correspondre le plus précisément possible au vecteur réel de l'encodeur cible, au cours de millions d'épisodes de masquage et de prédiction.

Cette configuration oblige V‑JEPA à apprendre des structures abstraites plutôt que des motifs de surface. Pour réussir, le modèle doit intérioriser des concepts tels que « permanence de l'objet », « occlusion » et « cause à effet », car ce sont exactement ces éléments qui lui permettent d'inférer un cadre futur caché à partir d'un cadre passé. On ne peut pas simplement mémoriser des textures lorsque la moitié de l'action est manquante.

Le diagramme simplifié de la vidéo aide à démystifier cela. Imaginez trois cases alignées : « Vidéo Entrante » → « Cerveau » → « Nuage de Compréhension ». La première case est le codeur visuel, la seconde est le prédicteur, et le nuage est la carte évolutive des significations où des points proches correspondent à des événements similaires, comme « main tendue » ou « objet saisi ».

L'entraînement consiste à effacer répétitivement des morceaux de ce nuage et à demander au cerveau de les restaurer. Parfois, il ne voit que des images antérieures et doit deviner ce qui vient ensuite ; d'autres fois, il aperçoit les contours d'une région masquée et doit inférer ce qui se passe au milieu. Chaque succès renforce la correspondance entre le contexte et la conséquence.

Au fil du temps, cette pression façonne un modèle du monde qui suit des événements continus plutôt que des instantanés isolés. La langue peut ensuite puiser dans ces vecteurs latents, mais la compréhension réside en dessous, dans la géométrie de cet espace de signification.

Le véritable prix : l'IA pour le monde physique

Les robots ne pensent pas en phrases. Un bras de magasin décidant comment saisir une boîte ou un robot domestique cherchant à ouvrir un réfrigérateur a besoin d'un modèle continu et non linguistique du monde : où se trouvent les objets, comment ils se déplacent, ce qui se passe s'il pousse, tire ou attend une demi-seconde de plus.

Les LLM, même les multimodaux, superposent le langage à la vision. Ils voient un cadre, génèrent une légende, puis une autre légende pour le cadre suivant. Cette narration, mot par mot, gaspille des ressources de calcul et, plus important encore, détruit le temps en instantanés déconnectés qui sont inutiles lorsqu'un bras robotisé doit se poser sur un conteneur en mouvement.

V-JEPA renverse cela. La vidéo est transmise à un encodeur visuel, qui alimente un prévisionniste chargé de prévoir les états latents futurs, et non les mots futurs. Le système maintient un « vecteur de signification » silencieux et de haute dimension qui évolue en douceur à mesure que la scène se déroule, n'affichant le langage que lorsque une tâche en aval l'exige.

Les modèles vision à faible coût traitent chaque image comme un quiz distinct. Ils étiquettent une image « main », la suivante « bouteille », puis « prendre un contenant », avant de revenir à « main », produisant ainsi des résultats saccadés et contradictoires sans mémoire. V-JEPA, en revanche, suit une représentation temporelle stable de « une main s'approchant, saisissant et soulevant un contenant » et émet une seule étiquette confiante une fois que le schéma d'action est verrouillé.

Cette stabilité temporelle découle de l'objectif prédictif de JEPA. Le modèle apprend à prédire l'intégration de morceaux de vidéo masqués ou futurs, l'obligeant à encoder non seulement ce qui est visible maintenant, mais aussi ce qui est susceptible de se produire ensuite. La cause et l'effet au fil du temps deviennent intégrés à la géométrie de son espace latent.

Pour la robotique, cette différence est existentielle. Un robot qui ne reconnaît que "bouteille, bouteille, bouteille" ne peut pas décider quand fermer son serre-joint ; un robot qui simule en interne "cette trajectoire se termine par un ramassage réussi" peut chronométrer son mouvement, récupérer des glissades et planifier des comportements en plusieurs étapes. La planification, le contrôle et la navigation reposent tous sur ce type de modèle prédictif.

Meta positionne les systèmes basés sur JEPA comme l'épine dorsale des agents incarnés, des dispositifs portables et des appareils de réalité augmentée, et a commencé à publier des détails techniques via Meta AI Research. Si LeCun a raison, ces modèles du monde prédictifs et discrets — et non des LLM bavards — sont ceux qui propulseront la prochaine génération d'IA physique.

Mettre V-JEPA à l'épreuve

Les benchmarks sont là où le V-JEPA de Meta cesse de ressembler à un cours de philosophie et commence à apparaître comme un défi pour les modèles vision-langage d'aujourd'hui. Dans la vidéo, le modèle affiche des résultats de pointe en classification vidéo zéro-shot, surpassant des références plus grandes et plus complexes qui s'appuient sur des décodeurs textuels à part entière. Il le fait en opérant uniquement dans cet "espace de signification" dont parle constamment LeCun, et non en devinant le mot suivant.

Les chiffres de Meta montrent que V-JEPA égalise ou dépasse les piles de vision-langage les plus populaires en matière de reconnaissance des actions et de compréhension temporelle, même lorsqu'elles ont accès à des exemples étiquetés. Sur des répartitions à zéro coup (où les modèles ne voient jamais d'extraits d'entraînement étiquetés issus du jeu de données cible), V-JEPA identifie toujours les actions et les scènes de manière plus précise, signe que ses représentations internes se généralisent réellement à travers les domaines.

L'efficacité est l'autre point fort. V-JEPA utilise environ la moitié des paramètres entraînables des configurations vision-langage comparables car il omet le lourd décodeur de texte autoregressif pendant l'entraînement. Pas de gigantesque tête linguistique traitant des tokens signifie moins de mémoire, moins de FLOPs, et une itération plus rapide, tandis que le prédicteur latent compact effectue le véritable travail intellectuel.

« Zéro-shot » ici signifie que le modèle reçoit uniquement un espace d'étiquettes en langage naturel—par exemple, « verser de l'eau », « ouvrir une porte », « couper des légumes »—et doit classer de nouvelles vidéos sans avoir vu d'exemples étiquetés de cet ensemble de données. Une forte performance en zéro-shot implique que l'espace d'embedding du modèle encode déjà des concepts comme le mouvement, l'intention et l'interaction entre objets d'une manière qui se transfère. C'est un test de stress de compréhension généralisée, pas seulement de mémorisation.

Les critiques sur Reddit ont déjà souligné que les prédictions de V-JEPA sont parfois erronées, surtout dans des cadres ambigus ou des cas limites étranges. Cette plainte souligne accidentellement le fait que c'est un système de recherche précoce, pas un produit fini, et le fait qu'il puisse échouer visiblement sur des prévisions temporelles complexes montre que Meta s'attaque enfin au bon problème difficile plutôt que de simplement augmenter le nombre de tokens.

Un tournant décisif pour l'avenir de l'IA

Illustration : Un carrefour pour l'avenir de l'IA
Illustration : Un carrefour pour l'avenir de l'IA

Une bifurcation silencieuse mais très réelle s'ouvre dans la stratégie d'IA, et JEPA se situe exactement à cette intersection. D'un côté, des entreprises comme OpenAI et Google insistent sur des systèmes centrés sur les LLM, génératifs, qui traitent tout—code, images, vidéos, même plans d'action—comme des séquences de jetons à prédire. De l'autre, Yann LeCun et le laboratoire FAIR de Meta défendent les Architectures Prédictives d’Embeddings Communs qui n'ont jamais besoin de parler pour penser.

Le premier chemin semble familier : continuer à développer des modèles de style GPT-4 en monstres multimodaux. Le GPT-4o d'OpenAI, le Gemini 1.5 de Google, et le Claude 3 d'Anthropic suivent tous la même recette : de gigantesques architectures en transformateur, des trillions de tokens de données web et propriétaires, et une boucle autoregressive qui prédit le prochain symbole, que ce symbole soit un mot, un token pixel ou un morceau audio.

JEPA représente un changement radical par rapport à cela. Au lieu de générer des pixels ou des mots, V-JEPA et VL-JEPA apprennent à prédire des représentations latentes de contenu futur ou manquant—ce que le modèle pense qu'il va se passer ensuite dans une vidéo, ou à quel concept appartient une région. La langue devient une couche mince au-dessus d'un modèle du monde, et non le substrat central de l'intelligence.

Cette division conduit à deux objectifs d'optimisation. Les laboratoires orientés LLM optimisent les interfaces de chat, les assistants de code, la recherche et les outils de productivité où le langage naturel reste la principale entrée/sortie. La recherche orientée JEPA optimise les robots, les lunettes en réalité augmentée et les agents autonomes qui doivent suivre des objets, des intentions et des causes au fil du temps sans narrer chaque micro-pas.

Sur le chemin des LLM, le progrès provient de l'échelle et de l'alignement. Des fenêtres contextuelles plus grandes (jusqu'à 2 millions de tokens), une utilisation d'outils plus riche et une génération augmentée par la récupération poussent les modèles plus profondément dans des flux de travail tels que le développement logiciel, la rédaction juridique et le support client. La métrique est de savoir à quel point le texte et le code générés semblent cohérents, sûrs et utiles pour les humains.

Sur le chemin du JEPA, le progrès provient de meilleurs modèles prédictifs du monde. Les références évoluent vers la reconnaissance d'action sans aucun exemple, la localisation temporelle et le contrôle en aval : le système peut-il anticiper une main se dirigeant vers un flacon, ou planifier une séquence de saisies et de poussées pour un bras robotique, en utilisant un état interne compact au lieu de requêtes verbeuses ?

Les deux voies coexisteront probablement, mais elles tirent le centre de gravité de l'industrie dans des directions opposées. Soit le langage reste l'API universelle pour l'intelligence, soit il devient juste une interface optionnelle au-dessus de modèles silencieux et très structurés qui comprennent et agissent principalement dans le monde physique.

Le Gambit LeCun : Une Nouvelle Venture pour une Nouvelle IA

Les rumeurs concernant la prochaine étape de Yann LeCun semblent soudain moins relever du potin et plus d'une stratégie. Plusieurs rapports indiquent que le chef scientifique en IA de Meta lance une nouvelle startup, avec Meta probablement en tant que partenaire et financeur principal plutôt qu'employeur, lui offrant ainsi un véhicule distinct pour développer le type d'IA qu'il esquisse dans ses discussions et ses publications depuis une décennie.

LeCun se plaint depuis des années que la recherche sur l'IA de pointe avance sur des timelines décennales, tandis que les grandes entreprises technologiques agissent sur des délais trimestriels. Un projet distinct lui permet de poursuivre des modèles mondiaux de style JEPA et un apprentissage à long terme sans avoir à justifier chaque expérience par rapport à l'engagement sur Reels ou au ciblage publicitaire.

Son objectif déclaré n’est pas "l'AGI" au sens d'OpenAI ou d'Anthropic, mais l'Intelligence Machine Avancée (IMA). Selon la définition de LeCun, l'IMA désigne des systèmes capables de : - Construire des modèles du monde prédictifs à partir d'entrées sensorielles brutes - Raisonnement et planification sur de longues périodes - Maintenir une mémoire persistante et ancrée du monde réel

Dans cette vision, AMI vit dans des robots, des lunettes AR, des véhicules et des appareils domestiques avant de vivre dans des chatbots. Il doit suivre les objets, les intentions et la physique au fil du temps, et pas seulement compléter des phrases. C'est précisément dans ce régime que les modèles de type JEPA et V-JEPA, qui prédisent dans un "espace de signification" latent plutôt que dans un espace de tokens, revendiquent un avantage structurel.

Les derniers travaux de Meta sur V-JEPA et VL-JEPA montrent déjà que les modèles non génératifs surpassent ou égalent de plus grands concurrents génératifs dans la classification vidéo zéro-shot et la compréhension temporelle avec environ la moitié des paramètres. Pour un fondateur, ces chiffres se traduisent par une thèse simple : l'AMI centrée sur le modèle du monde se développe mieux que des LLM de plus en plus gros qui hallucinent et rencontrent des difficultés avec la causalité.

La startup de LeCun apparaît donc comme un pari audacieux et clair que JEPA dépassera l'architecture actuelle des LLM à transformeurs. Si OpenAI et Google insistent sur des modèles autoregressifs massifs, son équipe mettra en avant des systèmes silencieux et prédictifs qui ne s'expriment que lorsqu'on leur pose des questions, mais qui réfléchissent en permanence.

Quiconque suit cette division devrait lire le Rapport sur l'Index AI 2025 – Stanford HAI, qui signale déjà un passage des benchmarks purement linguistiques à des évaluations multimodales, incarnées et agentiques. Si ces métriques deviennent la référence qui compte, le pari de LeCun cesse d'être contrariant et commence à ressembler à l'événement principal.

Est-ce vraiment l'ère du « post-LLM » ?

Post-LLM semble apocalyptique, mais la réalité ressemble davantage à une coexistence qu'à une extinction. Les grands modèles linguistiques fonctionnent déjà dans les moteurs de recherche, les suites de productivité, les éditeurs de code et les systèmes de service client, et leur rentabilité s'améliore à chaque fois qu'Nvidia lance un nouveau GPU. Les entreprises ont investi des dizaines de milliards dans l'infrastructure des LLM, et cette dynamique garantit à elle seule qu'ils domineront les interfaces d'IA commerciale pendant des années.

Les systèmes de style JEPA visent un autre niveau de la pile. Les LLM excellent à compresser Internet en une fonction de complétion automatique sur-stéroïdée, mais ils ont du mal avec des tâches qui exigent une perception ancrée, une prévision à long terme ou un contrôle précis des corps dans l'espace. Un robot qui doit décider où placer un pied sur un terrain inégal ne peut pas attendre un essai de 200 tokens sur ses options.

Post-LLM, dans le vocabulaire de LeCun, décrit la frontière de la recherche, et non la vitrine des produits. La frontière évolue de "prédire le prochain élément" à "prédire le prochain état du monde" à travers les images, la vidéo, l'audio et les flux de capteurs. Le langage devient un canal de requête et de rapport, non le substrat de la pensée.

Les modèles JEPA tels que V-JEPA et ses homologues vision-langage essaient d'apprendre des « vecteurs de signification » compacts qui évoluent au fil du temps. Au lieu d'émettre des mots à chaque instant, ils maintiennent un état interne silencieux qui se met à jour à mesure que de nouveaux cadres arrivent, puis exposent cet état lorsqu'on leur demande : « Que se passe-t-il ? » ou « Que devrais-je faire ensuite ? » Cette conception correspond aux boucles de contrôle dans la robotique, les lunettes AR, les voitures et les systèmes d'usine.

Commercialement, vous pouvez imaginer une architecture où : - Un noyau semblable à un JEPA surveille l'environnement et prédit des états futurs - Un module de planification choisit des actions dans cet espace latent - Un LLM explique ces actions aux humains en langage naturel

C'est un monde post-LLM : non pas sans LLM, mais décentré par rapport au LLM.

Si LeCun a raison, le tournant historique ne concerne pas des modèles plus grands, mais des primitives de pensée différentes. Échanger la génération token par token contre une prédiction continue dans un espace sémantique appris pourrait débloquer des capacités—robots agiles, agents persistants, assistants en temps réel—que l'échelle des systèmes de type GPT, même multipliée par dix, ne pourra toujours pas offrir.

Questions Fréquemment Posées

Quelle est l'architecture JEPA AI ?

JEPA, ou Architecture Prédictive d'Embedding Joint, est un type de modèle d'IA conçu par Yann LeCun de Meta. Au lieu de prédire le mot suivant dans une phrase, il apprend un modèle interne du monde en prédisant des informations manquantes ou futures dans un 'espace de signification' compressé et abstrait.

Comment JEPA est-il différent d'un LLM comme ChatGPT ?

Les LLMs sont des modèles génératifs qui produisent du texte jeton par jeton. JEPA est non génératif par essence ; il construit d'abord une compréhension interne et ne génère le langage qu'en tant que sortie optionnelle. Cela le rend potentiellement plus efficace et mieux adapté aux tâches nécessitant un ancrage dans le monde réel, comme la robotique.

Les modèles JEPA remplaceront-ils les LLM ?

Pas nécessairement remplacer, mais ils ciblent des problèmes différents. Alors que les LLMs excellent dans les tâches basées sur le langage, JEPA vise à résoudre l'interaction avec le monde physique et la planification. LeCun pense que cette approche de « modèle du monde » est la voie vers une IA plus avancée, rendant potentiellement les LLMs actuels obsolètes pour de nombreuses applications futures.

Pourquoi Yann LeCun est-il critique envers les grands modèles de langage d'aujourd'hui ?

LeCun soutient que l'intelligence consiste à comprendre le monde, et pas seulement à manipuler le langage. Il estime que former des modèles uniquement sur du texte est une limitation fondamentale, car ils manquent de la compréhension profonde et causale de la réalité que fournissent des données sensorielles comme la vidéo, d'où l'objectif d'apprentissage de JEPA.

Frequently Asked Questions

Est-ce vraiment l'ère du « post-LLM » ?
Post-LLM semble apocalyptique, mais la réalité ressemble davantage à une coexistence qu'à une extinction. Les grands modèles linguistiques fonctionnent déjà dans les moteurs de recherche, les suites de productivité, les éditeurs de code et les systèmes de service client, et leur rentabilité s'améliore à chaque fois qu'Nvidia lance un nouveau GPU. Les entreprises ont investi des dizaines de milliards dans l'infrastructure des LLM, et cette dynamique garantit à elle seule qu'ils domineront les interfaces d'IA commerciale pendant des années.
Quelle est l'architecture JEPA AI ?
JEPA, ou Architecture Prédictive d'Embedding Joint, est un type de modèle d'IA conçu par Yann LeCun de Meta. Au lieu de prédire le mot suivant dans une phrase, il apprend un modèle interne du monde en prédisant des informations manquantes ou futures dans un 'espace de signification' compressé et abstrait.
Comment JEPA est-il différent d'un LLM comme ChatGPT ?
Les LLMs sont des modèles génératifs qui produisent du texte jeton par jeton. JEPA est non génératif par essence ; il construit d'abord une compréhension interne et ne génère le langage qu'en tant que sortie optionnelle. Cela le rend potentiellement plus efficace et mieux adapté aux tâches nécessitant un ancrage dans le monde réel, comme la robotique.
Les modèles JEPA remplaceront-ils les LLM ?
Pas nécessairement remplacer, mais ils ciblent des problèmes différents. Alors que les LLMs excellent dans les tâches basées sur le langage, JEPA vise à résoudre l'interaction avec le monde physique et la planification. LeCun pense que cette approche de « modèle du monde » est la voie vers une IA plus avancée, rendant potentiellement les LLMs actuels obsolètes pour de nombreuses applications futures.
Pourquoi Yann LeCun est-il critique envers les grands modèles de langage d'aujourd'hui ?
LeCun soutient que l'intelligence consiste à comprendre le monde, et pas seulement à manipuler le langage. Il estime que former des modèles uniquement sur du texte est une limitation fondamentale, car ils manquent de la compréhension profonde et causale de la réalité que fournissent des données sensorielles comme la vidéo, d'où l'objectif d'apprentissage de JEPA.
🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts