TL;DR / Key Takeaways
La bomba del jefe de IA de Meta.
Yann LeCun ha pasado décadas intentando reemplazar la forma en que las máquinas aprenden a ver y a pensar. El ganador del Premio Turing, que ayudó a inventar las redes neuronales convolucionales y que ahora es Científico Jefe de IA en Meta, vuelve a apuntar directamente al campo que ayudó a crear. Su objetivo esta vez: los grandes modelos de lenguaje que dominan el ciclo de exageración de la IA actual.
El laboratorio FAIR de Meta publicó silenciosamente un nuevo documento que describe un sistema de visión-lenguaje construido sobre la Arquitectura Predictiva de Emparejamiento Conjunto (JEPA) de LeCun. Denominado modelo VL-JEPA o VLJEPA, extiende el trabajo anterior de V-JEPA de 2023 al añadir lenguaje sobre una base visual predictiva. En lugar de predecir píxeles o tokens, el modelo aprende a anticipar contenido futuro o faltante directamente en un espacio de emparejamiento compartido.
LeCun ha sostenido durante años que la verdadera inteligencia proviene de aprender un modelo del mundo, no de completar textos. Este nuevo sistema basado en JEPA encarna esa postura: opera como un modelo no generativo que predice "vectores de significado" y solo produce palabras cuando se le solicita. La arquitectura trata el lenguaje como una interfaz opcional que se sitúa sobre un estado interno más rico y silencioso.
Eso hace que el artículo se lea menos como otra entrada de referencia multimodal y más como un manifiesto contra la pila de LLM reinante. Los modelos autorregresivos como GPT-4, Claude y Llama 3 generan salidas token por token, de izquierda a derecha, con cada paso expuesto como texto. Los modelos al estilo JEPA mantienen su razonamiento interno, actualizando un estado latente a lo largo del tiempo y emitiendo lenguaje solo como un paso final de serialización.
LeCun ha llamado públicamente a los LLMs “JPEGs borrosos de la web” y ha predicho que las arquitecturas actuales parecerán primitivas en unos pocos años. Este trabajo intenta formalizar su alternativa: sistemas predictivos y auto-supervisados que aprenden de flujos continuos de video, audio y otros datos sensoriales. La apuesta va más allá de los chatbots, alcanzando la robótica, gafas de AR y agentes del mundo real que deben planificar en lugar de simplemente hablar.
Todo esto surge en medio de informes que indican que LeCun planea abandonar Meta para lanzar una startup centrada en la inteligencia artificial del estilo JEPA de próxima generación. Los rumores sugieren una empresa enfocada en modelos del mundo a gran escala entrenados con datos de video y datos incorporados, no solo con texto extraído de internet. Si eso sucede, el propio jefe de IA de Meta podría terminar liderando la lucha contra el paradigma de LLM que nunca abrazó por completo.
Esta IA no necesita hablar para pensar.
La IA generativa avanza hacia una respuesta. Modelos como GPT-4 o Llama 3 funcionan como motores autoregresivos: predicen el siguiente token, luego el siguiente, avanzando de izquierda a derecha hasta que la oración termina. Cada respuesta existe únicamente como una cadena creciente de tokens, por lo que "pensar" y "hablar" están fusionados en el mismo proceso lento y hambriento de computación.
Los modelos JEPA no generativos los separan. Una Arquitectura Predictiva de Incorporeación Conjunta primero forma una representación interna de lo que está sucediendo—en imágenes, video y texto—y luego se basa en esa comprensión silenciosa. El lenguaje se convierte en una capa de traducción opcional, no en el medio del pensamiento en sí.
Los sistemas generativos se comportan como alguien que narra su razonamiento en voz alta: “Déjame explicar lo que pienso mientras aún lo estoy averiguando.” Cada palabra depende de la anterior, por lo que el modelo no puede saber literalmente la redacción final, o a veces incluso la respuesta final, hasta que la secuencia termina. Ese proceso de un token a la vez consume ciclos de GPU e introduce latencia en cada consulta.
JEPA cambia las reglas del juego: “Ya lo sé, y solo lo explicaré si me preguntas.” En lugar de predecir la siguiente palabra, predice un vector de significado directamente en un espacio semántico de alta dimensión. El cálculo central produce una única representación densa que codifica entidades, acciones y relaciones sin emitir texto.
Debido a que JEPA opera en el espacio semántico en lugar de en el espacio de tokens, evita la parte más costosa de la inferencia al estilo LLM. Los modelos autorregresivos deben: - Ejecutar un pase hacia adelante para cada token - Mantener y actualizar una ventana de contexto larga - Muestrear repetidamente de una gran distribución de vocabulario
JEPA realiza un único pase hacia adelante para obtener una incrustación estable y se detiene. Convertir esa incrustación en un pie de foto, respuesta o comando se convierte en un paso de decodificación ligero en lugar de ser el evento principal. Los prototipos VL-JEPA de Meta ya informan que utilizan aproximadamente la mitad de los parámetros de apilamientos de visión-lenguaje generativos comparables, mientras igualan o superan sus resultados en los benchmarks.
Un estado interno silencioso también permite una comprensión continua sin charlas constantes. Un sistema VL-JEPA puede observar un flujo de video, refinar su vector de significado a lo largo de cientos de fotogramas, y solo emitir lenguaje cuando se le solicita o cuando un sistema externo necesita una descripción simbólica. El pensamiento ocurre de manera continua; hablar se convierte en un efecto secundario.
Más Allá de los Tokens: Razonamiento en un 'Espacio de Significado'
Los modelos de lenguaje como GPT viven y mueren por los tokens. Dividen el mundo en piezas de palabras discretas y las procesan de izquierda a derecha, prediciendo el siguiente fragmento de texto. Los complementos de visión para los LLMs generalmente simplemente agregan un clasificador que convierte cada cuadro en un título, y luego devuelven esas etiquetas al motor de texto.
JEPA revierte ese enfoque. El modelo VLJ de Meta ingiere video en bruto y construye una representación interna densa—un embedding—que sigue lo que está sucediendo a lo largo del tiempo. En lugar de narrar cada fotograma, mantiene un vector de significado silencioso y continuo que solo se convierte en palabras cuando lo solicitas.
Esa incrustación se comporta como un “espacio de significado” en lugar de una secuencia de tokens. Cada punto en ese espacio codifica objetos, acciones y contexto a través de múltiples marcos: mano, canister, movimiento, intención. Cuando el sistema finalmente genera “recoger un canister”, está resumiendo una trayectoria a través de ese espacio, no ensamblando una descripción imprecisa palabra por palabra.
Los investigadores de Meta afirman que esto compra una eficiencia seria. Debido a que VLJ predice en un espacio latente comprimido en lugar de generar píxeles o tokens, se dice que utiliza aproximadamente la mitad de los parámetros de transformadores de visión-lenguaje comparables, mientras que iguala o supera su rendimiento en benchmarks estándar. Menos parámetros significan una menor presión en la memoria, inferencia más rápida y mejor escalabilidad en hardware periférico como auriculares o robots.
Contrastalo con una pila de visión típica de LLM. Un codificador de visión estándar observa cada fotograma, emite una etiqueta—“botella,” “mano,” “mesa”—y olvida casi todo entre los pasos. No hay un estado semántico persistente, solo un flujo de subtítulos que el modelo de lenguaje intenta entrelazar en una historia después del hecho.
El modelo mundial de JEPA funciona al revés: comprensión persistente primero, lenguaje segundo. El documento VLJ: Vision-Language-Jeopardy (entrada provisional en arXiv) describe un sistema que mantiene esa película interna de significado funcionando en silencio, y luego la presenta como texto solo cuando los humanos necesitan una oración.
Por qué LeCun cree que los LLM han llegado a un límite.
Yann LeCun ha estado insistiendo en el mismo punto durante años: la inteligencia se trata de construir un modelo interno del mundo, no de sonar inteligente en inglés. En su opinión, el lenguaje se sitúa encima como un conveniente "protocolo de entrada/salida" para los humanos, de la manera en que el HDMI lo es para los monitores. Útil, sí, pero no es donde reside la verdadera comprensión.
Esa filosofía lo coloca en conflicto directo con la carrera armamentista de los LLM. Los sistemas al estilo GPT entrenan casi exclusivamente con texto extraído de internet y luego generan más texto, token por token. LeCun sostiene que esta configuración confunde la elocuencia con la comprensión y encierra la investigación en una arquitectura sin salida.
Él llama al problema central un aprendizaje “desenraizado”. El texto por sí solo nunca aborda la fricción, la gravedad, la oclusión o la causalidad; solo refleja cómo los humanos hablan sobre esas cosas. Entrena solo con palabras, dice, y obtienes un modelo de cultura, no un modelo de realidad.
La crítica de LeCun se manifiesta en su comparación favorita: un adolescente aprende a conducir en aproximadamente 20 horas de práctica, sin embargo, después de más de una década, miles de millones de dólares y millones de millas recorridas, aún no tenemos coches autónomos de Nivel 5 fiables. Para él, esa brecha no es solo un retraso en la ingeniería; es evidencia de que los datos y arquitecturas actuales están fundamentalmente desalineados con la forma en que los humanos adquieren competencia.
Los humanos aprenden de flujos sensoriales continuos y desordenados—visión, sonido, propriocepción—y solo más tarde añaden palabras. Los LLMs invierten ese proceso, comenzando desde subtítulos, manuales y publicaciones en foros. LeCun argumenta que esta inversión obliga a los modelos a simular física y sentido común a partir de patrones estadísticos en el texto, lo que se descompone en casos límite, robótica y control en tiempo real.
JEPA es su escape de esa pared. La Arquitectura Predictiva de Incrustación Conjunta (Joint Embedding Predictive Architecture) aprende al predecir fragmentos ausentes o futuros de una escena en un espacio latente de "significado", especialmente a partir de video. En lugar de generar píxeles o tokens, predicen cómo deberían evolucionar las representaciones internas si el mundo obedece ciertas reglas físicas y causales.
Los modelos del mundo construidos de esta forma pueden, en principio, internalizar dinámicas como "si la taza se vuelca, el líquido se derrama" sin haber leído nunca la palabra "derramar". Alimenta a los modelos JEPA con videos de gran escala—imágenes de conducción, manipulación en el hogar, robots de almacén—y aprenden las regularidades del movimiento, el contacto y la consecuencia de manera directa.
LeCun enmarca VL-JEPA y sus sucesores como el camino alrededor del estancamiento de los LLM. El texto se convierte en una interfaz opcional anexada a un modelo del mundo fundamentado, no en la base de la inteligencia misma.
La Arquitectura de la Verdadera Comprensión
Olvídate de los bots habladores; el nuevo modelo de Meta comienza con video en bruto. Un codificador visual ingiere un flujo de fotogramas y los comprime en vectores densos, una especie de película interna de lo que está sucediendo. Sin subtítulos, sin etiquetas, solo representaciones compactas de movimiento, objetos y contexto.
Esos vectores se alimentan a una red predictora que funciona como el “cerebro” del modelo. Su tarea: dado algunas partes del video, imaginar las piezas faltantes dentro de ese espacio latente. En lugar de rellenar píxeles ausentes, intenta llenar el significado perdido: cómo debería verse la representación interna del clip no visto si el sistema realmente comprende la escena.
En el otro lado se encuentra un codificador de objetivo. Este procesa el segmento de video retenido en su propia representación latente. El entrenamiento se convierte en un juego simple pero brutal: el vector imaginado por el predictor debe coincidir lo más posible con el vector real del codificador de objetivo, a lo largo de millones de episodios de enmascaramiento y predicción.
Esa configuración obliga a V-JEPA a aprender la estructura abstracta en lugar de patrones superficiales. Para tener éxito, el modelo debe internalizar conceptos como "permanencia del objeto", "ocultamiento" y "causa y efecto", ya que son precisamente esos conceptos los que le permiten inferir un cuadro futuro oculto a partir de uno pasado. No se puede simplemente memorizar texturas cuando falta la mitad de la acción.
El diagrama simplificado del video ayuda a desmitificar esto. Imagínate tres cajas en fila: "Video In" → "Cerebro" → "Nube de Comprensión." La primera caja es el codificador visual, la del medio es el predictor, y la nube es el mapa evolutivo de significados donde los puntos cercanos corresponden a eventos similares, como "mano alcanzando" o "objeto siendo agarrado."
El entrenamiento se asemeja a borrar repetidamente fragmentos de esa nube y pedirle a la caja del cerebro que los restaure. A veces solo ve fotogramas anteriores y debe adivinar qué viene a continuación; otras veces ve los bordes de una región enmascarada y debe inferir lo que sucede en el medio. Cada éxito refuerza el vínculo entre el contexto y la consecuencia.
Con el tiempo, esa presión esculpe un modelo del mundo que sigue eventos continuos en lugar de instantáneas aisladas. El lenguaje puede luego acceder a esos vectores latentes, pero la comprensión reside en el fondo, en la geometría de ese espacio de significado.
El Verdadero Premio: IA para el Mundo Físico
Los robots no piensan en oraciones. Un brazo de almacén que decide cómo agarrar una caja o un robot doméstico que intenta abrir un frigorífico necesita un modelo continuo y no lingüístico del mundo: dónde están los objetos, cómo se mueven, qué sucede si empuja, tira o espera medio segundo más.
Los LLMs, incluso los multimodales, añaden el lenguaje sobre la visión. Ven un cuadro, generan un subtítulo, y luego otro subtítulo para el siguiente cuadro. Esa narración token por token desperdicia capacidad de cálculo y, lo que es más importante, fragmenta el tiempo en instantáneas desconectadas que son inútiles cuando un agarre tiene que aterrizar en un contenedor en movimiento.
V-JEPA invierte eso. El video se convierte en un codificador visual, que alimenta a un predictor encargado de prever estados latentes futuros, no palabras futuras. El sistema mantiene un "vector de significado" silencioso y de alta dimensión que evoluciona suavemente a medida que se desarrolla la escena, y solo genera lenguaje cuando una tarea posterior lo exige.
Los modelos de visión baratos tratan cada fotograma como un cuestionario separado. Etiquetan una imagen como “mano”, la siguiente como “botella”, luego “recogiendo el recipiente”, y de vuelta a “mano”, produciendo salidas saltarinas y contradictorias sin memoria. V-JEPA, en cambio, sigue una representación temporal estable de “una mano acercándose, agarrando y levantando un recipiente,” y emite una sola etiqueta confiable una vez que el patrón de acción se consolida.
Esa estabilidad temporal proviene del objetivo predictivo de JEPA. El modelo aprende a predecir la representación de fragmentos de video enmascarados o futuros, lo que lo obliga a codificar no solo lo que es visible ahora, sino también lo que probablemente sucederá a continuación. La causa y el efecto a lo largo del tiempo se integran en la geometría de su espacio latente.
Para la robótica, esa diferencia es existencial. Un robot que solo reconoce “botella, botella, botella” no puede decidir cuándo cerrar su garra; un robot que simula internamente “esta trayectoria termina en una recogida exitosa” puede cronometrar su movimiento, recuperarse de deslizamientos y planificar comportamientos de múltiples pasos. La planificación, el control y la navegación dependen de este tipo de modelo predictivo.
Meta posiciona los sistemas basados en JEPA como la columna vertebral de los agentes encarnados, dispositivos portátiles y dispositivos de realidad aumentada, y ha comenzado a publicar detalles técnicos a través de Meta AI Research. Si LeCun tiene razón, esos modelos del mundo silenciosos y predictivos—no los LLMs locuaces—impulsarán la próxima generación de IA física.
Poniendo a prueba el V-JEPA
Los puntos de referencia son donde el V-JEPA de Meta deja de sonar como una conferencia filosófica y comienza a parecerse a un problema para los modelos de visión-lenguaje actuales. En el video, el modelo presenta resultados de vanguardia en clasificación de video en cero disparos, superando líneas base más grandes y complejas que dependen de decodificadores de texto completos. Lo hace operando puramente en ese "espacio de significados" del que LeCun sigue hablando, no adivinando la próxima palabra.
Los números de Meta muestran que V-JEPA iguala o supera a las pilas de visión-lenguaje populares en el reconocimiento de acciones y la comprensión temporal, incluso cuando tienen acceso a ejemplos etiquetados. En las divisiones de cero disparos—donde los modelos nunca ven clips de entrenamiento etiquetados del conjunto de datos objetivo—V-JEPA aún etiqueta acciones y escenas con más precisión, una señal de que sus representaciones internas realmente generalizan entre dominios.
La eficiencia es el otro titular. V-JEPA utiliza aproximadamente la mitad de los parámetros entrenables de configuraciones de visión-lenguaje comparables porque omite el pesado decodificador de texto autorregresivo durante el entrenamiento. No tener una gran cabeza de lenguaje procesando tokens significa menos memoria, menos FLOPs y una iteración más rápida, mientras que el predictor latente compacto realiza el verdadero trabajo intelectual.
"Zero-shot" aquí significa que el modelo recibe solo un espacio de etiquetas en lenguaje natural—por ejemplo, "vertiendo agua", "abriendo una puerta", "cortando verduras”—y debe clasificar nuevos videos sin haber visto ejemplos etiquetados de ese conjunto de datos. Un fuerte rendimiento en zero-shot implica que el espacio de incrustación del modelo ya codifica conceptos como movimiento, intención e interacción de objetos de una manera que se transfiere. Es una prueba de estrés de entendimiento generalizado, no solo de memorización.
Los críticos en Reddit ya han señalado que las predicciones de V-JEPA a veces son imprecisas, especialmente en cuadros ambiguos o en casos extraños. Esa queja subraya accidentalmente el punto: este es un sistema de investigación temprano, no un producto pulido, y el hecho de que pueda fallar de manera notable en predicciones temporales complejas muestra que Meta finalmente está abordando el problema correcto y difícil, en lugar de simplemente escalar más tokens.
Una encrucijada para el futuro de la IA
Una bifurcación silenciosa pero muy real se está abriendo en la estrategia de IA, y JEPA se encuentra justo en la división. Por un lado, empresas como OpenAI y Google apuestan fuertemente por sistemas generativos centrados en LLM, que tratan todo—código, imágenes, video, incluso planes de acción—como secuencias de tokens a predecir. Por el otro, Yann LeCun y el laboratorio FAIR de Meta impulsan Arquitecturas Predictivas de Embedding Conjunto que nunca necesitan hablar para pensar.
El camino uno parece familiar: seguir escalando modelos al estilo GPT-4 hacia behemoths multimodales. GPT-4o de OpenAI, Gemini 1.5 de Google y Claude 3 de Anthropic siguen la misma receta: enormes estructuras de transformadores, billones de tokens de datos web y propietarios, y un bucle autorregresivo que predice el siguiente símbolo, ya sea que ese símbolo sea una palabra, un token de píxel o un fragmento de audio.
JEPA representa un cambio radical en esa dirección. En lugar de generar píxeles o palabras, V-JEPA y VL-JEPA aprenden a predecir representaciones latentes de contenido futuro o faltante: lo que el modelo cree que sucederá a continuación en un video, o a qué concepto pertenece una región. El lenguaje se convierte en una capa delgada sobre un modelo del mundo, no en el sustrato central de la inteligencia.
Esa división conduce a dos objetivos de optimización. Los laboratorios centrados en LLM optimizan para interfaces de chat, asistentes de código, búsqueda y herramientas de productividad donde el lenguaje natural sigue siendo la entrada y salida principal. La investigación centrada en JEPA optimiza para robots, gafas de realidad aumentada y agentes autónomos que deben rastrear objetos, intenciones y causalidad a lo largo del tiempo sin narrar cada micro paso.
En la trayectoria de los LLM, el progreso proviene de la escala y la alineación. Ventanas de contexto más grandes (de hasta 2 millones de tokens), un uso de herramientas más rico y la generación aumentada por recuperación llevan a los modelos más profundamente en flujos de trabajo como el desarrollo de software, la redacción legal y el soporte al cliente. La métrica es cuán coherente, segura y útil parece el texto y el código generados para los humanos.
En el camino del JEPA, el progreso proviene de mejores modelos predictivos del mundo. Los puntos de referencia cambian hacia el reconocimiento de acciones en cero disparos, la localización temporal y el control descendente: ¿puede el sistema anticipar una mano alcanzando un frasco, o planear una secuencia de agarres y empujes para un brazo robótico, utilizando un estado interno compacto en lugar de indicaciones extensas?
Ambos caminos probablemente coexistirán, pero tiran del centro de gravedad de la industria en direcciones opuestas. O bien el lenguaje se mantiene como la API universal para la inteligencia, o se convierte en una interfaz opcional sobre modelos silenciosos y altamente estructurados que entienden y actúan principalmente en el mundo físico.
El Gambito LeCun: Una Nueva Aventura para una Nueva IA
Los rumores sobre el próximo movimiento de Yann LeCun de repente parecen menos chismes y más estrategia. Varios informes indican que el principal científico de IA de Meta está creando una nueva startup, con Meta probablemente como socio y financista ancla en lugar de empleador, lo que le brinda un vehículo separado para desarrollar el tipo de IA que ha estado esbozando en charlas y documentos durante una década.
LeCun se ha quejado durante años de que la investigación de IA de vanguardia se mueve en plazos de una década, mientras que las grandes empresas tecnológicas lanzan productos en plazos trimestrales. Un proyecto separado le permite perseguir modelos del mundo al estilo JEPA y el aprendizaje a largo plazo sin tener que justificar cada experimento en función del engagement de Reels o la segmentación de anuncios.
Su objetivo declarado no es "AGI" en el sentido de OpenAI o Anthropic, sino Inteligencia Artificial Avanzada (AMI). En la definición de LeCun, AMI se refiere a sistemas que pueden: - Construir modelos predictivos del mundo a partir de entradas sensoriales crudas - Razonar y planificar a lo largo de horizontes prolongados - Mantener una memoria persistente y fundamentada del mundo real
AMI, en esta visión, vive en robots, gafas de realidad aumentada, vehículos y dispositivos domésticos antes de vivir en chatbots. Necesita rastrear objetos, intenciones y física a lo largo del tiempo, no solo autocompletar oraciones. Ese es precisamente el régimen donde los modelos al estilo de JEPA y V-JEPA, que predicen en un "espacio de significado" latente en lugar de en un espacio de tokens, afirman tener una ventaja estructural.
El último trabajo de V-JEPA y VL-JEPA de Meta ya muestra que los modelos no generativos superan o igualan a sus rivales generativos más grandes en clasificación de video en cero disparos y comprensión temporal con aproximadamente la mitad de los parámetros. Para un fundador, esos números se traducen en una tesis simple: el AMI centrado en el modelo del mundo escala mejor que los LLMs cada vez más grandes que alucinan y luchan con la causalidad.
La startup de LeCun parece, por lo tanto, una apuesta limpia y de alto riesgo de que JEPA superará la actual pila de modelos LLM basados en transformadores. Si OpenAI y Google refuerzan su inversión en modelos autorregresivos masivos, su equipo promoverá sistemas silenciosos y predictivos que solo hablarán cuando se les pregunte, pero pensarán todo el tiempo.
Cualquiera que esté siguiendo esta división debería leer el Informe AI Index 2025 - Stanford HAI, que ya señala un cambio de los benchmarks de lenguaje puro a evaluaciones multimodales, incorporadas y agenticas. Si esos métricas se convierten en el indicador que importa, la jugada de LeCun deja de ser contraria y comienza a parecerse al evento principal.
¿Es realmente esta la era 'post-LLM'?
El concepto de Post-LLM suena apocalíptico, pero la realidad se asemeja más a la coexistencia que a la extinción. Los grandes modelos de lenguaje ya operan dentro de motores de búsqueda, suites de productividad, editores de código y plataformas de atención al cliente, y su economía mejora cada vez que Nvidia lanza una nueva GPU. Las empresas han invertido decenas de miles de millones en la infraestructura de LLM, y ese impulso por sí solo garantiza que dominarán las interfaces de IA comercial durante años.
Los sistemas al estilo JEPA apuntan a una capa diferente en la arquitectura. Los LLMs son excelentes en comprimir internet en una autocompletación potenciadas, pero tienen dificultades con tareas que requieren percepción fundamentada, predicción a largo plazo o control detallado de cuerpos en el espacio. Un robot que debe decidir dónde colocar un pie en un terreno irregular no puede esperar un ensayo de 200 tokens sobre sus opciones.
Post-LLM, en el vocabulario de LeCun, describe la frontera de investigación, no la estantería de productos. La frontera está cambiando de "predecir el siguiente token" a "predecir el siguiente estado del mundo" a través de imágenes, video, audio y flujos de sensores. El lenguaje se convierte en un canal de consulta e informe, no en el sustrato del pensamiento.
Modelos JEPA como V-JEPA y sus primos visión-lenguaje intentan aprender “vectores de significado” compactos que evolucionan a lo largo del tiempo. En lugar de emitir palabras en cada instante, mantienen un estado interno silencioso que se actualiza a medida que llegan nuevos fotogramas, y luego exponen ese estado cuando se les pregunta: “¿Qué está sucediendo?” o “¿Qué debo hacer a continuación?” Ese diseño se alinea con los bucles de control en robótica, gafas de realidad aumentada, coches y sistemas de fábrica.
Comercialmente, puedes imaginar una pila donde: - Un núcleo similar a un JEPA rastrea el entorno y predice estados futuros - Un módulo de planificación elige acciones sobre ese espacio latente - Un LLM explica esas acciones a los humanos en lenguaje natural
Ese es un mundo post-LLM: no libre de LLM, sino descentrado en LLM.
Si LeCun tiene razón, el giro histórico no se trata de modelos más grandes, sino de diferentes primitivos de pensamiento. Sustituir la generación token por token por una predicción continua en un espacio semántico aprendido podría desbloquear capacidades—robots ágiles, agentes persistentes, asistentes en tiempo real—que escalar sistemas al estilo GPT otras 10 veces aún no puede ofrecer.
Preguntas Frecuentes
¿Cuál es la arquitectura de JEPA AI?
JEPA, o Arquitectura Predictiva de Embedding Conjunto, es un tipo de modelo de IA diseñado por Yann LeCun de Meta. En lugar de predecir la siguiente palabra en una oración, aprende un modelo interno del mundo al predecir información faltante o futura en un 'espacio de significado' comprimido y abstracto.
¿Cómo se diferencia JEPA de un LLM como ChatGPT?
Los LLMs son modelos generativos que producen texto token por token. JEPA es no generativa en su esencia; primero construye una comprensión interna y solo genera lenguaje como un resultado opcional. Esto lo hace potencialmente más eficiente y mejor adaptado para tareas que requieren un anclaje en el mundo real, como la robótica.
¿Los modelos JEPA reemplazarán a los LLM?
No necesariamente reemplazar, sino que abordan diferentes problemas. Mientras que los LLMs sobresalen en tareas basadas en el lenguaje, JEPA busca resolver la interacción y la planificación en el mundo físico. LeCun cree que este enfoque de 'modelo del mundo' es el camino hacia una inteligencia artificial más avanzada, lo que podría hacer que los LLMs actuales sean obsoletos para muchas aplicaciones futuras.
¿Por qué es crítico Yann LeCun con los Modelos de Lenguaje Grande de hoy en día?
LeCun argumenta que la inteligencia se trata de comprender el mundo, no solo de manipular el lenguaje. Cree que entrenar modelos solo con texto es una limitación fundamental, ya que carecen de la comprensión profunda y causal de la realidad que proviene de datos sensoriales como el video, de los cuales JEPA está diseñado para aprender.