A IA Silenciosa da Meta Substituirá os LLMs

O chefe de IA da Meta, Yann LeCun, apresentou uma nova arquitetura que não gera texto token por token. Este novo modelo, JEPA, aprende uma verdadeira compreensão do mundo, marcando uma possível mudança de paradigma em relação a LLMs como o ChatGPT.

Stork.AI
Hero image for: A IA Silenciosa da Meta Substituirá os LLMs
💡

TL;DR / Key Takeaways

O chefe de IA da Meta, Yann LeCun, apresentou uma nova arquitetura que não gera texto token por token. Este novo modelo, JEPA, aprende uma verdadeira compreensão do mundo, marcando uma possível mudança de paradigma em relação a LLMs como o ChatGPT.

A Revelação do Chefe de IA da Meta

Yann LeCun passou décadas tentando substituir a forma como as máquinas aprendem a ver e pensar. O vencedor do Prêmio Turing, que ajudou a inventar redes neurais convolucionais e agora ocupa o cargo de Cientista Chefe de IA na Meta, está mais uma vez mirando diretamente no campo que ajudou a criar. Seu alvo desta vez: os grandes modelos de linguagem que dominam o ciclo de hype da IA atual.

O laboratório FAIR da Meta publicou discretamente um novo artigo descrevendo um sistema de visão-linguagem construído sobre a Arquitetura Preditiva de Embeber Conjunto (JEPA) de LeCun. Denominado modelo VL-JEPA ou VLJEPA, ele amplia o trabalho anterior V-JEPA de 2023, adicionando linguagem a uma estrutura visual preditiva. Em vez de prever pixels ou tokens, o modelo aprende a antecipar conteúdos futuros ou ausentes diretamente em um espaço de embeber compartilhado.

LeCun tem argumentado há anos que a verdadeira inteligência vem do aprendizado de um modelo de mundo, e não da auto-completação de texto. Este novo sistema baseado em JEPA incorpora essa postura: ele opera como um modelo não gerativo que prevê “vetores de significado” e produz palavras apenas quando solicitado. A arquitetura trata a linguagem como uma interface opcional situada sobre um estado interno mais rico e silencioso.

Isso faz com que o artigo pareça menos uma entrada de referência multimodal e mais um manifesto contra o stack de LLM reinante. Modelos autoregressivos como GPT-4, Claude e Llama 3 geram saídas token por token, da esquerda para a direita, com cada passo exposto como texto. Modelos no estilo JEPA mantêm seu raciocínio interno, atualizando um estado latente ao longo do tempo e emitindo linguagem apenas como um passo final de serialização.

LeCun chamou publicamente os LLMs de “JPEGs embaçados da web” e previu que as arquiteturas atuais parecerão primitivas em poucos anos. Este trabalho tenta formalizar sua alternativa: sistemas preditivos, auto-supervisionados que aprendem com fluxos contínuos de vídeo, áudio e outros dados sensoriais. Os desafios vão além de chatbots, alcançando robótica, óculos de AR e agentes do mundo real que precisam planejar em vez de apenas conversar.

Tudo isso acontece em meio a relatos de que LeCun planeja deixar a Meta para lançar uma startup focada em uma IA de estilo JEPA de próxima geração. Rumores sugerem uma empresa voltada para modelos de mundo em grande escala, treinados com dados de vídeo e dados incorporados, não apenas texto extraído da internet. Se isso acontecer, o próprio chefe de IA da Meta pode acabar liderando a resistência contra o paradigma LLM que ele nunca abraçou completamente.

Esta IA Não Precisa Falar para Pensar

Ilustração: Esta IA Não Precisa Falar para Pensar
Ilustração: Esta IA Não Precisa Falar para Pensar

A IA generativa busca uma resposta por meio da conversa. Modelos como GPT-4 ou Llama 3 operam como motores autoregressivos: eles preveem o próximo token, em seguida o seguinte, avançando da esquerda para a direita até que a frase termine. Cada resposta existe apenas como uma cadeia crescente de tokens, de modo que “pensar” e “falar” se fundem no mesmo processo lento e que consome muito poder computacional.

Modelos JEPA não generativos separam essas partes. Uma Arquitetura Preditiva de Embedding Conjunto primeiro forma uma representação interna do que está acontecendo — através de imagens, vídeos e textos — e então se fundamenta nessa compreensão silenciosa. A linguagem se torna uma camada de tradução opcional, não o meio do próprio pensamento.

Sistemas generativos se comportam como alguém narrando seu raciocínio em voz alta: “Deixe-me explicar o que penso enquanto ainda estou tentando entender.” Cada palavra depende da anterior, então o modelo literalmente não pode saber a formulação final, ou às vezes até mesmo a resposta final, até que a sequência termine. Esse pipeline de token por token consome ciclos de GPU e introduz latência em cada consulta.

JEPA inverte o jogo: “Eu já sei, e só explicarei se você perguntar.” Em vez de prever a próxima palavra, ele prevê um vetor de significado diretamente em um espaço semântico de alta dimensão. O núcleo da computação produz uma única representação densa que codifica entidades, ações e relacionamentos sem nunca emitir texto.

Porque o JEPA opera no espaço semântico em vez do espaço de tokens, ele evita a parte mais cara da inferência no estilo LLM. Modelos autorregressivos devem: - Realizar uma passagem para frente para cada token - Manter e atualizar uma longa janela de contexto - Amostrar repetidamente de uma grande distribuição de vocabulário

O JEPA realiza uma passagem direta para obter uma incorporação estável e para. Converter essa incorporação em uma legenda, resposta ou comando se torna uma etapa de decodificação leve em vez de ser o evento principal. Os protótipos VL-JEPA da Meta já relatam o uso de aproximadamente metade dos parâmetros de pilhas de linguagem-vision gerativas comparáveis, enquanto igualam ou superam esses modelos em benchmarks.

O estado interno silencioso também permite uma compreensão contínua sem a necessidade de conversa constante. Um sistema VL-JEPA pode assistir a um fluxo de vídeo, refinar seu vetor de significado ao longo de centenas de quadros e só emitir linguagem quando solicitado ou quando um sistema externo precisar de uma descrição simbólica. O pensamento acontece de forma contínua; falar se torna um efeito colateral.

Além dos Tokens: Raciocínio em um 'Espaço de Significado'

Modelos de linguagem como o GPT vivem e morrem por tokens. Eles fragmentam o mundo em pedaços discretos de palavras, depois passam por eles da esquerda para a direita, prevendo o próximo fragmento de texto. Complementos de visão para LLMs geralmente apenas acrescentam um classificador que transforma cada quadro em uma legenda, e então devolvem esses rótulos para o motor de texto.

O JEPA inverte esse fluxo. O modelo VLJ do Meta absorve vídeo bruto e constrói uma representação interna densa — uma incorporação — que rastreia o que está acontecendo ao longo do tempo. Em vez de narrar cada quadro, ele mantém um vetor de significado silencioso e contínuo que se transforma em palavras apenas quando você as solicita.

Esse embedding se comporta como um “espaço de significado” em vez de um fluxo de tokens. Cada ponto nesse espaço codifica objetos, ações e contexto em vários quadros: mão, canister, movimento, intenção. Quando o sistema finalmente gera “pegando um canister”, ele está resumindo uma trajetória por esse espaço, não costurando uma descrição incerta palavra por palavra.

Os pesquisadores da Meta afirmam que isso proporciona uma eficiência séria. Como o VLJ faz previsões em um espaço latente comprimido, em vez de gerar pixels ou tokens, afirma-se que utiliza aproximadamente metade dos parâmetros de transformadores de visão-linguagem comparáveis, ao mesmo tempo em que os iguala ou supera em benchmarks padrão. Menos parâmetros significam menor pressão na memória, inferência mais rápida e melhor escalabilidade em hardware de borda, como headsets ou robôs.

Contrastando isso com uma pilha de visão LLM típica. Um codificador de visão padrão analisa cada quadro, emite um rótulo—"garrafa", "mão", "mesa"—e esquece quase tudo entre as etapas. Não há um estado semântico persistente, apenas um fluxo de legendas que o modelo de linguagem tenta entrelaçar em uma história depois do fato.

O modelo de mundo da JEPA funciona de maneira oposta: compreensão persistente primeiro, linguagem em segundo lugar. O artigo VLJ: Vision-Language-Jeopardy (entrada provisória no arXiv) descreve um sistema que mantém esse filme interno de significado rodando silenciosamente, e só o torna explícito como texto quando os humanos precisam de uma sentença.

Por que LeCun acredita que os LLMs chegaram a um impasse

Yann LeCun tem batido na mesma tecla há anos: inteligência é sobre construir um modelo interno do mundo, não sobre parecer inteligente em inglês. Na sua visão, a linguagem é um conveniente "protocolo de entrada/saída" para os humanos, da mesma forma que o HDMI é para monitores. Útil, sim, mas não é onde a verdadeira compreensão reside.

Essa filosofia o coloca em condições opostas à corrida armamentista dos LLMs. Sistemas do tipo GPT treinam quase que inteiramente com textos extraídos da internet, gerando mais texto token por token. LeCun argumenta que essa configuração confunde eloquência com compreensão e aprisiona a pesquisa em uma arquitetura sem saída.

Ele chama o problema central de aprendizado “desconectado”. O texto por si só nunca aborda atrito, gravidade, oclusão ou causalidade; ele apenas reflete como os humanos falam sobre essas coisas. Treinar apenas com palavras, ele diz, gera um modelo de cultura, não um modelo de realidade.

A crítica de LeCun aparece em sua comparação favorita: um adolescente aprende a dirigir em aproximadamente 20 horas de prática, no entanto, após mais de uma década, bilhões de dólares e milhões de milhas dirigidas, ainda não temos carros autônomos Nível 5 confiáveis. Para ele, essa lacuna não é apenas um atraso na engenharia; é uma evidência de que os dados e arquiteturas atuais estão fundamentalmente desalinhados com a maneira como os humanos adquirem competência.

Os humanos aprendem a partir de fluxos contínuos e desordenados de sensações — visão, som, propriocepção — e só depois atribuem palavras. Os LLMs invertem esse fluxo, começando a partir de legendas, manuais e postagens em fóruns. LeCun argumenta que essa inversão força os modelos a simular física e senso comum a partir de padrões estatísticos em texto, o que falha em casos extremos, robótica e controle em tempo real.

JEPA é sua porta de fuga daquela parede. Arquitetura Preditiva de Embeddings Conjuntos aprende prevendo partes faltantes ou futuras de uma cena em um espaço latente de “significado”, especialmente a partir de vídeo. Em vez de gerar pixels ou tokens, elas preveem como as representações internas devem evoluir se o mundo obedecer a certas regras físicas e causais.

Modelos de mundo construídos dessa forma podem, em princípio, internalizar dinâmicas como “se a caneca tombar, o líquido derrama” sem nunca ler a palavra “derramar.” Alimente modelos JEPA com vídeo em larga escala—imagens de direção, manipulação em casa, robôs de armazém—e eles aprendem as regularidades de movimento, contato e consequência diretamente.

LeCun apresenta o VL‑JEPA e seus sucessores como o caminho para contornar o platô dos LLMs. O texto se torna uma interface opcional anexada a um modelo de mundo fundamentado, não a base da própria inteligência.

A Arquitetura da Verdadeira Compreensão

Ilustração: A Arquitetura da Verdadeira Compreensão
Ilustração: A Arquitetura da Verdadeira Compreensão

Esqueça os bots tagarelas; o novo modelo da Meta começa com vídeo bruto. Um codificador visual recebe um fluxo de quadros e os comprime em vetores densos, uma espécie de filme interno do que está acontecendo. Sem legendas, sem rótulos, apenas representações compactas de movimento, objetos e contexto.

Esses vetores alimentam uma rede preditora que funciona como o “cérebro” do modelo. Sua tarefa: dado algumas partes do vídeo, imaginar as peças faltantes dentro daquele espaço latente. Em vez de preencher pixels ausentes, ele tenta preencher significados ausentes — como deveria ser a representação interna do clipe não visto se o sistema realmente compreendesse a cena.

Do outro lado está um codificador alvo. Ele processa o segmento de vídeo retido em sua própria representação latente. O treinamento se torna um jogo simples, mas brutal: o vetor imaginado do preditor deve corresponder o mais próximo possível ao vetor real do codificador alvo, ao longo de milhões de episódios de mascaramento e predição.

Essa configuração força o V-JEPA a aprender estruturas abstratas em vez de padrões superficiais. Para ter sucesso, o modelo precisa internalizar conceitos como “permanência do objeto”, “oclusão” e “causa e efeito”, pois são exatamente esses conceitos que permitem inferir um quadro futuro oculto a partir de um passado. Não se pode apenas memorizar texturas quando metade da ação está ausente.

O diagrama simplificado do vídeo ajuda a desmistificar isso. Imagine três caixas em uma linha: “Vídeo de Entrada” → “Cérebro” → “Nuvem de Compreensão.” A primeira caixa é o codificador visual, a do meio é o preditor, e a nuvem é o mapa em evolução de significados onde pontos próximos correspondem a eventos similares, como “mão alcançando” ou “objeto sendo agarrado.”

O treinamento parece com apagar repetidamente pedaços daquela nuvem e pedir ao cérebro para restaurá-los. Às vezes, ele apenas vê quadros anteriores e deve adivinhar o que vem a seguir; outras vezes, vê as bordas de uma região mascarada e deve inferir o que acontece no meio. Cada sucesso aperta o mapeamento entre contexto e consequência.

Com o tempo, essa pressão esculpe um modelo de mundo que acompanha eventos contínuos em vez de instantâneas isoladas. A linguagem pode então explorar esses vetores latentes, mas a compreensão reside abaixo, na geometria desse espaço de significado.

O Verdadeiro Prêmio: IA para o Mundo Físico

Os robôs não pensam em frases. Um braço de armazém decidindo como pegar uma caixa ou um robô doméstico descobrindo como abrir uma geladeira precisa de um modelo contínuo e não linguístico do mundo: onde os objetos estão, como se movem, o que acontece se empurrarem, puxarem ou esperarem meio segundo a mais.

Os LLMs, mesmo os multimodais, adicionam a linguagem sobre a visão. Eles veem um quadro, geram uma legenda, e depois outra legenda para o próximo quadro. Essa narração token a token desperdiça poder de computação e, mais importante, fragmenta o tempo em instantâneas desconectadas que são inúteis quando uma pinça precisa pousar em um cilindro em movimento.

O V-JEPA inverte isso. O vídeo flui para um codificador visual, que alimenta um preditor encarregado de prever estados latentes futuros, e não palavras futuras. O sistema mantém um "vetor de significado" silencioso e de alta dimensão que evolui suavemente conforme a cena se desenrola, e só revela a linguagem quando uma tarefa a montante exige.

Modelos de visão baratos tratam cada quadro como um quiz separado. Eles rotulam uma imagem como “mão”, a seguinte como “garrafa”, depois “pegando o cilindro” e voltam para “mão”, produzindo saídas instáveis e contraditórias sem memória. O V-JEPA, em vez disso, rastreia uma representação temporal estável de “uma mão se aproximando, agarrando e levantando um cilindro”, e emite um único rótulo confiante assim que o padrão de ação se fixa.

Essa estabilidade temporal vem do objetivo preditivo da JEPA. O modelo aprende a prever a incorporação de trechos de vídeo mascarados ou futuros, forçando-o a codificar não apenas o que é visível agora, mas o que é provável que aconteça a seguir. Causa e efeito ao longo do tempo se torna parte da geometria de seu espaço latente.

Para a robótica, essa diferença é existencial. Um robô que apenas reconhece “garrafa, garrafa, garrafa” não pode decidir quando fechar seu grampo; um robô que simula internamente “essa trajetória termina em uma captura bem-sucedida” consegue temporizar seu movimento, recuperar-se de escorregões e planejar comportamentos em múltiplas etapas. O planejamento, o controle e a navegação dependem todos desse tipo de modelo preditivo.

A Meta posiciona os sistemas baseados em JEPA como a espinha dorsal para agentes incorporados, dispositivos vestíveis e dispositivos de realidade aumentada, e começou a publicar detalhes técnicos através do Meta AI Research. Se LeCun estiver certo, aqueles modelos de mundo silenciosos e preditivos—não os LLMs falantes—impulsionarão a próxima geração de IA física.

Colocando o V-JEPA à Prova

Os benchmarks são onde o V-JEPA da Meta deixa de parecer uma palestra filosófica e começa a se transformar em um problema para os modelos de visão-linguagem de hoje. No vídeo, o modelo apresenta resultados de ponta em classificação de vídeo zero-shot, superando bases de comparação maiores e mais complexas que dependem de decodificadores de texto completos. Ele faz isso operando puramente naquele "espaço de significado" do qual LeCun continua falando, e não adivinhando a próxima palavra.

Os números da Meta mostram que o V-JEPA está igualando ou superando pilhas populares de visão-linguagem em reconhecimento de ações e compreensão temporal, mesmo quando têm acesso a exemplos rotulados. Nos splits de zero-shot—onde os modelos nunca veem clipes de treinamento rotulados do conjunto de dados-alvo—o V-JEPA ainda marca ações e cenas com mais precisão, um sinal de que suas representações internas realmente se generalizam entre domínios.

A eficiência é o outro destaque. O V-JEPA utiliza aproximadamente metade dos parâmetros treináveis de configurações de visão-linguagem comparáveis, pois evita o pesado decodificador de texto autoregressivo durante o treinamento. Sem uma enorme cabeça de linguagem processando tokens, isso significa menos memória, menos FLOPs e uma iteração mais rápida, enquanto o preditor latente compacto faz o verdadeiro trabalho intelectual.

"Zero-shot" aqui significa que o modelo recebe apenas um espaço de rótulos em linguagem natural—por exemplo, "vertendo água", "abrindo a porta", "cortando vegetais"—e deve classificar novos vídeos sem ter visto nenhum exemplo rotulado desse conjunto de dados. Um forte desempenho em zero-shot implica que o espaço de incorporação do modelo já codifica conceitos como movimento, intenção e interação entre objetos de uma maneira que transfere. É um teste de estresse de compreensão generalizada, não apenas de memorização.

Críticos no Reddit já apontaram que as previsões do V-JEPA estão às vezes erradas, especialmente em quadros ambíguos ou casos extremos estranhos. Essa reclamação acidentalmente destaca o ponto: este é um sistema de pesquisa inicial, não um produto finalizado, e o fato de que ele pode falhar visivelmente em previsões temporais complexas mostra que a Meta finalmente está atacando o verdadeiro e difícil problema, em vez de apenas escalar mais tokens.

Uma Encruzilhada para o Futuro da IA

Ilustração: Uma Encruzilhada para o Futuro da IA
Ilustração: Uma Encruzilhada para o Futuro da IA

Uma bifurcação silenciosa, mas muito real, está se abrindo na estratégia de IA, e o JEPA está bem no meio dessa divisão. De um lado, empresas como OpenAI e Google estão se aprofundando em sistemas centrados em LLM, geradores que tratam tudo—código, imagens, vídeo, até planos de ação—como sequências de tokens a serem previstos. Do outro lado, Yann LeCun e o laboratório FAIR da Meta impulsionam Arquiteturas Preditivas de Embedding Conjunto que nunca precisam falar para pensar.

O caminho um parece familiar: continuar a escalar modelos no estilo GPT-4 em monstros multimodais. O GPT-4o da OpenAI, o Gemini 1.5 do Google e o Claude 3 da Anthropic seguem a mesma receita: grandes estruturas de transformadores, trilhões de tokens de dados da web e dados proprietários, e um loop autorregressivo que prevê o próximo símbolo, seja esse símbolo uma palavra, um token de pixel ou um trecho de áudio.

O JEPA representa uma mudança radical em relação a isso. Em vez de gerar pixels ou palavras, o V-JEPA e o VL-JEPA aprendem a prever representações latentes de conteúdo futuro ou ausente—o que o modelo acredita que acontecerá a seguir em um vídeo, ou a que conceito uma região pertence. A linguagem torna-se uma camada fina sobre um modelo de mundo, não o substrato central da inteligência.

Essa divisão resulta em dois alvos de otimização. Os laboratórios orientados para LLM priorizam interfaces de chat, assistentes de código, buscas e ferramentas de produtividade onde a linguagem natural continua sendo a principal entrada e saída. A pesquisa orientada para JEPA otimiza para robôs, óculos de AR e agentes autônomos que devem rastrear objetos, intenções e causalidade ao longo do tempo sem narrar cada microetapa.

No caminho dos LLM, o progresso vem da escala e do alinhamento. Janelas de contexto maiores (de até 2 milhões de tokens), uso mais rico de ferramentas e geração aumentada por recuperação empurram os modelos mais fundo em fluxos de trabalho como desenvolvimento de software, redação legal e suporte ao cliente. A métrica é quão coerente, segura e útil a texto e o código gerados parecem para os humanos.

No caminho do JEPA, o progresso vem de modelos preditivos do mundo melhores. Os benchmarks mudam para reconhecimento de ação zero-shot, localização temporal e controle a montante: o sistema pode antecipar uma mão se aproximando de um recipiente ou planejar uma sequência de pegadas e empurrões para um braço robótico, utilizando um estado interno compacto em vez de comandos extensos?

Ambos os caminhos provavelmente coexistirão, mas puxam o centro de gravidade da indústria em direções opostas. Ou a linguagem permanece a API universal para inteligência, ou se torna apenas uma interface opcional sobre modelos silenciosos e altamente estruturados que entendem e atuam principalmente no mundo físico.

O Gambito LeCun: Uma Nova Empreitada para uma Nova IA

Os rumores sobre o próximo movimento de Yann LeCun parecem de repente menos com fofocas e mais com estratégia. Vários relatos afirmam que o principal cientista de IA da Meta está criando uma nova startup, com a Meta provavelmente atuando como parceira âncora e financiadora, em vez de empregadora, proporcionando a ele um veículo separado para desenvolver o tipo de IA que ele vem esboçando em palestras e artigos há uma década.

LeCun tem reclamado há anos que a pesquisa em IA de ponta avança em prazos de uma década, enquanto as grandes empresas de tecnologia operam em prazos trimestrais. Um empreendimento separado permite que ele persiga modelos de mundo no estilo JEPA e aprendizado de longo prazo sem ter que justificar cada experimento em relação ao engajamento nos Reels ou à segmentação de anúncios.

Seu objetivo declarado não é "AGI" no sentido da OpenAI ou da Anthropic, mas sim Inteligência de Máquina Avançada (AMI). Na definição de LeCun, AMI significa sistemas que podem: - Construir modelos preditivos do mundo a partir de entradas sensoriais brutas - Raciocinar e planejar ao longo de horizontes prolongados - Manter uma memória persistente e fundamentada do mundo real

A AMI, nessa visão, vive em robôs, óculos de AR, veículos e dispositivos domésticos antes de viver em chatbots. Ela precisa rastrear objetos, intenções e física ao longo do tempo, não apenas completar frases. Esse é exatamente o regime onde modelos no estilo JEPA e V-JEPA, que preveem em um "espaço de significado" latente em vez de espaço de tokens, reivindicam uma vantagem estrutural.

O mais recente V-JEPA e VL-JEPA da Meta já mostram que modelos não generativos superam ou igualam rivais generativos maiores na classificação de vídeo zero-shot e compreensão temporal com aproximadamente metade dos parâmetros. Para um fundador, esses números se traduzem em uma tese simples: AMI centrado em modelos do mundo se escala melhor do que LLMs cada vez maiores que alucinam e têm dificuldades com causalidade.

A startup de LeCun, portanto, parece uma aposta limpa e de alto risco de que o JEPA ultrapassará a pilha atual de LLMs com transformadores. Se a OpenAI e o Google apostarem em modelos autorregressivos massivos, seu grupo irá promover sistemas silenciosos e preditivos que só falam quando solicitados, mas pensam o tempo todo.

Qualquer pessoa que esteja acompanhando essa divisão deve ler o Relatório de Índice de IA 2025 – Stanford HAI, que já sinaliza uma mudança de benchmarks puramente linguísticos para avaliações multimodais, incorporadas e agentivas. Se essas métricas se tornarem o critério que importa, a estratégia de LeCun deixa de ser contrária e começa a parecer o principal evento.

É Realmente a Era 'Pós-LLM'?

O pós-LLM soa apocalíptico, mas a realidade se assemelha mais a uma coexistência do que a uma extinção. Grandes modelos de linguagem já operam em mecanismos de busca, suítes de produtividade, editores de código e sistemas de atendimento ao cliente, e sua economia melhora a cada nova GPU lançada pela Nvidia. As empresas investiram dezenas de bilhões em infraestrutura de LLM, e esse impulso por si só garante que dominarão as interfaces comerciais de IA por anos.

Sistemas no estilo JEPA visam a uma camada diferente da pilha. Os LLMs se destacam em comprimir a internet em uma autocompletar potencializada, mas têm dificuldades com tarefas que exigem percepção fundamentada, previsões de longo prazo ou controle detalhado de corpos no espaço. Um robô que deve decidir onde colocar o pé em um terreno irregular não pode esperar por um ensaio de 200 tokens sobre suas opções.

Pós-LLM, no vocabulário de LeCun, descreve a fronteira de pesquisa, não a prateleira de produtos. A fronteira está mudando de "prever o próximo token" para "prever o próximo estado do mundo" em imagens, vídeos, áudios e fluxos de sensores. A linguagem se torna um canal de consulta e relatório, não o substrato do pensamento.

Modelos JEPA como V-JEPA e seus primos de visão-linguagem tentam aprender "vetores de significado" compactos que evoluem ao longo do tempo. Em vez de emitir palavras a cada instante, eles mantêm um estado interno silencioso que se atualiza conforme novos quadros chegam, e então expõem esse estado quando perguntados: “O que está acontecendo?” ou “O que devo fazer a seguir?” Esse design se alinha com loops de controle em robótica, óculos de AR, carros e sistemas de fábricas.

Comercialmente, você pode imaginar uma pilha onde: - Um núcleo semelhante ao JEPA monitora o ambiente e prevê estados futuros - Um módulo de planejamento escolhe ações sobre esse espaço latente - Um LLM explica essas ações para humanos em linguagem natural

Esse é um mundo pós-LLM: não livre de LLM, mas descentralizado em relação ao LLM.

Se LeCun estiver certo, o ponto de inflexão histórico não diz respeito a modelos maiores, mas a diferentes primitivas de pensamento. Trocar a geração token a token por predições contínuas em um espaço semântico aprendido poderia desbloquear capacidades—robôs ágeis, agentes persistentes, assistentes em tempo real—que escalar sistemas no estilo GPT mais 10x ainda não consegue entregar.

Perguntas Frequentes

Qual é a arquitetura JEPA AI?

JEPA, ou Arquitetura Preditiva de Embedding Conjunto, é um tipo de modelo de IA desenvolvido por Yann LeCun, da Meta. Em vez de prever a próxima palavra em uma frase, ele aprende um modelo interno do mundo ao prever informações faltantes ou futuras em um 'espaço de significado' comprimido e abstrato.

Como o JEPA é diferente de um LLM como o ChatGPT?

Os LLMs são modelos geradores que produzem texto token por token. O JEPA é não gerador em sua essência; ele constrói uma compreensão interna primeiro e só gera linguagem como uma saída opcional. Isso o torna potencialmente mais eficiente e melhor adequado para tarefas que exigem fundamentação no mundo real, como a robótica.

Os modelos JEPA substituirão os LLMs?

Não necessariamente substituir, mas eles visam problemas diferentes. Enquanto os LLMs se destacam em tarefas baseadas em linguagem, o JEPA tem como objetivo resolver interações no mundo físico e planejamento. LeCun acredita que essa abordagem de 'modelo de mundo' é o caminho para uma IA mais avançada, tornando potencialmente os LLMs atuais obsoletos para muitas aplicações futuras.

Por que Yann LeCun é crítico em relação aos Grandes Modelos de Linguagem de hoje?

LeCun argumenta que a inteligência é sobre entender o mundo, não apenas manipular linguagem. Ele acredita que treinar modelos apenas com texto é uma limitação fundamental, pois eles carecem da compreensão profunda e causal da realidade que vem de dados sensoriais como vídeo, que é do que o JEPA foi projetado para aprender.

Frequently Asked Questions

É Realmente a Era 'Pós-LLM'?
O pós-LLM soa apocalíptico, mas a realidade se assemelha mais a uma coexistência do que a uma extinção. Grandes modelos de linguagem já operam em mecanismos de busca, suítes de produtividade, editores de código e sistemas de atendimento ao cliente, e sua economia melhora a cada nova GPU lançada pela Nvidia. As empresas investiram dezenas de bilhões em infraestrutura de LLM, e esse impulso por si só garante que dominarão as interfaces comerciais de IA por anos.
Qual é a arquitetura JEPA AI?
JEPA, ou Arquitetura Preditiva de Embedding Conjunto, é um tipo de modelo de IA desenvolvido por Yann LeCun, da Meta. Em vez de prever a próxima palavra em uma frase, ele aprende um modelo interno do mundo ao prever informações faltantes ou futuras em um 'espaço de significado' comprimido e abstrato.
Como o JEPA é diferente de um LLM como o ChatGPT?
Os LLMs são modelos geradores que produzem texto token por token. O JEPA é não gerador em sua essência; ele constrói uma compreensão interna primeiro e só gera linguagem como uma saída opcional. Isso o torna potencialmente mais eficiente e melhor adequado para tarefas que exigem fundamentação no mundo real, como a robótica.
Os modelos JEPA substituirão os LLMs?
Não necessariamente substituir, mas eles visam problemas diferentes. Enquanto os LLMs se destacam em tarefas baseadas em linguagem, o JEPA tem como objetivo resolver interações no mundo físico e planejamento. LeCun acredita que essa abordagem de 'modelo de mundo' é o caminho para uma IA mais avançada, tornando potencialmente os LLMs atuais obsoletos para muitas aplicações futuras.
Por que Yann LeCun é crítico em relação aos Grandes Modelos de Linguagem de hoje?
LeCun argumenta que a inteligência é sobre entender o mundo, não apenas manipular linguagem. Ele acredita que treinar modelos apenas com texto é uma limitação fundamental, pois eles carecem da compreensão profunda e causal da realidade que vem de dados sensoriais como vídeo, que é do que o JEPA foi projetado para aprender.
🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts