메타의 조용한 AI가 LLM을 대체할 것이다.

메타의 AI 책임자인 얀 르쿤이 새롭게 텍스트를 토큰 단위로 생성하지 않는 새로운 아키텍처를 공개했습니다. 이 새로운 모델인 JEPA는 세계에 대한 진정한 이해를 학습하며, ChatGPT와 같은 LLM에서 벗어나는 잠재적인 패러다임 전환을 의미합니다.

Stork.AI
Hero image for: 메타의 조용한 AI가 LLM을 대체할 것이다.
💡

TL;DR / Key Takeaways

메타의 AI 책임자인 얀 르쿤이 새롭게 텍스트를 토큰 단위로 생성하지 않는 새로운 아키텍처를 공개했습니다. 이 새로운 모델인 JEPA는 세계에 대한 진정한 이해를 학습하며, ChatGPT와 같은 LLM에서 벗어나는 잠재적인 패러다임 전환을 의미합니다.

메타 AI 책임자의 충격적인 발언

얀 르쿤은 기계가 보는 방식과 사고하는 방식을 바꾸기 위해 수십 년을 연구해왔다. 튜링상 수상자인 그는 합성곱 신경망의 발명에 기여했으며 현재 메타의 최고 AI 과학자로 활동하고 있다. 그는 자신이 창조한 분야를 다시 정조준하고 있다. 이번 그의 목표는 오늘날 AI 열풍의 중심에 있는 대형 언어 모델이다.

메타의 FAIR 연구실은 LeCun의 Joint Embedding Predictive Architecture (JEPA)를 기반으로 한 비전-언어 시스템에 대한 새로운 논문을 조용히 발표했습니다. VL-JEPA 또는 VLJEPA 모델로 브랜드화된 이 모델은 예측 비주얼 백본 위에 언어를 추가하여 2023년의 V-JEPA 작업을 확장합니다. 이 모델은 픽셀이나 토큰을 예측하는 대신, 공유 임베딩 공간에서 미래 또는 누락된 콘텐츠를 직접적으로 예상하는 방법을 학습합니다.

르쿤은 수년 동안 진정한 지능은 텍스트를 자동으로 완성하는 것에서 오는 것이 아니라 세계 모델을 학습하는 것에서 온다고 주장해왔습니다. 이 새로운 JEPA 기반 시스템은 이러한 입장을 구현합니다: 비생성 모델로서 "의미 벡터"를 예측하고, 요청이 있을 때만 단어를 생성합니다. 이 아키텍처는 언어를 더 풍부하고 무언의 내부 상태 위에 위치한 선택적 인터페이스로 취급합니다.

이 논문은 또 하나의 다중 모달 벤치마크 항목처럼 읽히기보다 현행 LLM 스택에 대한 선언문처럼 보이게 한다. GPT-4, Claude, Llama 3 같은 자기 회귀 모델은 출력을 토큰 단위로 왼쪽에서 오른쪽으로 생성하며, 모든 단계가 텍스트로 노출된다. JEPA 스타일의 모델은 내부에서 추론을 유지하며, 시간에 따라 잠재 상태를 업데이트하고 최종 직렬화 단계에서만 언어를 내보낸다.

레쿤은 LLM을 "웹의 흐릿한 JPEG"이라고 공개적으로 언급하며, 현재의 아키텍처가 몇 년 내에 원시적으로 보일 것이라고 예측했습니다. 이 연구는 지속적인 비디오, 오디오 및 기타 감각 데이터 스트림에서 학습하는 예측적 자가 감독 시스템이라는 그의 대안을 형식화하려고 시도합니다. 이 문제는 단순한 챗봇을 넘어 로봇 공학, 증강 현실 안경, 그리고 단순한 대화가 아닌 계획을 세워야 하는 실제 세계의 에이전트에까지 영향을 미칩니다.

이 모든 것은 르쿤이 메타를 떠나 차세대 JEPA 스타일 AI를 기반으로 한 스타트업을 시작할 계획이라는 보도와 함께 전해진다. 소문에 따르면, 이 회사는 인터넷에서 긁어온 텍스트가 아닌 비디오와 구현된 데이터를 기반으로 훈련된 대규모 세계 모델에 초점을 맞출 것이라고 한다. 만약 그렇게 된다면, 메타의 AI 수장이 그가 완전히 수용하지 않았던 LLM 패러다임에 맞서 주도하는 상황이 발생할 수 있다.

이 AI는 생각하기 위해 대화할 필요가 없다.

일러스트: 이 AI는 생각하기 위해 대화할 필요가 없습니다.
일러스트: 이 AI는 생각하기 위해 대화할 필요가 없습니다.

생성적 AI는 대화로 답을 찾아냅니다. GPT-4 또는 Llama 3와 같은 모델은 자회귀 엔진으로 작동합니다: 다음 토큰을 예측하고, 그 다음 토큰을 예측하며, 문장이 끝날 때까지 왼쪽에서 오른쪽으로 나아갑니다. 모든 답변은 증가하는 토큰 체인으로만 존재하므로 “사고”와 “말하기”는 같은 느리고 계산 자원을 많이 소모하는 과정으로 융합됩니다.

비생성 JEPA 모델은 이를 분리합니다. 공동 임베딩 예측 아키텍처는 먼저 이미지, 비디오, 텍스트 전반에서 발생하는 일의 내부 표현을 형성한 다음, 그 침묵의 이해 위에 자리 잡습니다. 언어는 선택적인 번역 레이어가 되며, 사고 자체의 매체가 아닙니다.

생성 시스템은 마치 누군가가 자신의 생각을 소리 내어 설명하는 것과 같습니다: “아직 고민 중이지만 내가 생각하는 바를 설명해 보겠습니다.” 각 단어는 이전 단어에 의존하므로 모델은 literally 최종 문구나 때때로 최종 답변을 시퀀스가 끝날 때까지 알 수 없습니다. 이 토큰별 파이프라인은 GPU 사이클을 소모하고 모든 쿼리에 지연을 발생시킵니다.

JEPA는 방향을 바꿉니다: “저는 이미 알고 있으며, 당신이 물어보는 경우에만 설명하겠습니다.” 다음 단어를 예측하는 대신, 고차원 의미 공간에서 의미 벡터를 직접 예측합니다. 핵심 연산은 텍스트를 전혀 생성하지 않고도 엔티티, 행동 및 관계를 인코딩하는 단일 밀집 표현을 생성합니다.

JEPA는 토큰 공간이 아닌 의미 공간에서 작동하기 때문에 LLM 스타일 추론의 가장 비용이 많이 드는 부분을 피할 수 있습니다. 자동 회귀 모델은 다음을 수행해야 합니다: - 모든 토큰에 대해 순방향 패스를 실행해야 합니다. - 긴 맥락 창을 유지하고 업데이트해야 합니다. - 큰 어휘 분포에서 반복적으로 샘플링해야 합니다.

JEPA는 안정적인 임베딩을 얻기 위해 한 번의 포워드 패스를 실행하고 멈춥니다. 그 임베딩을 캡션, 답변 또는 명령으로 변환하는 것은 주요 이벤트가 아닌 경량 디코딩 단계가 됩니다. 메타의 VL-JEPA 프로토타입은 이미 비슷한 생성적 비전-언어 스택의 대략 절반에 해당하는 매개변수를 사용하면서 벤치마크에서 동등하거나 이를 초과하는 성능을 보이고 있다고 보고합니다.

조용한 내부 상태는 끊임없는 잡음 없이 지속적인 이해를 가능하게 합니다. VL-JEPA 시스템은 비디오 스트림을 감시하고 수백 개의 프레임에 걸쳐 의미 벡터를 다듬으며, 외부 시스템이 상징적 설명을 필요로 하거나 요청이 있을 때만 언어를 발산합니다. 사고는 지속적으로 이루어지고, 말은 부수적인 결과가 됩니다.

토큰을 넘어: '의미 공간'에서의 추론

GPT와 같은 언어 모델은 토큰에 의해 살아 있고 죽습니다. 이들은 세상을 개별적인 단어 조각으로 잘라낸 다음, 왼쪽에서 오른쪽으로 이를 처리하며 다음 텍스트 조각을 예측합니다. LLM을 위한 비전 애드온은 보통 각 프레임을 캡션으로 변환하는 분류기를 부착한 다음, 그 라벨을 텍스트 엔진에 다시 전달합니다.

JEPA는 그 파이프라인을 뒤집습니다. 메타의 VLJ 모델은 원시 비디오를 수집하고, 시간이 지남에 따라 일어나는 일을 추적하는 밀집 내부 표현—임베딩—을 구축합니다. 모든 프레임에 대해 설명하는 대신, 요청할 때만 단어로 변환되는 조용하고 지속적인 의미 벡터를 유지합니다.

그 임베딩은 토큰 스트림보다 “의미 공간”처럼 작동합니다. 그 공간의 각 점은 여러 프레임에 걸쳐 객체, 행동 및 맥락을 인코딩합니다: 손, 용기, 동작, 의도. 시스템이 마침내 “용기를 집어 올리기”라는 출력을 생성할 때, 이는 그 공간을 통한 경로를 요약하는 것이며, 엉성한 단어별 설명을 조합하는 것이 아닙니다.

메타의 연구자들은 이것이 상당한 효율성을 제공한다고 주장합니다. VLJ는 픽셀이나 토큰을 생성하는 대신 압축된 잠재 공간에서 예측하기 때문에, 비슷한 비전-언어 변환기와 비교했을 때 약 절반의 매개변수를 사용하면서도 표준 벤치마크에서 동등하거나 더 나은 성능을 발휘하는 것으로 보고됩니다. 매개변수가 적으면 메모리 압력이 낮아지고, 추론 속도가 빨라지며, 헤드셋이나 로봇과 같은 엣지 하드웨어에서 더 나은 확장이 가능합니다.

전형적인 LLM 비전 스택과 비교해 보십시오. 표준 비전 인코더는 각 프레임을 살펴보고 "병", "손", "테이블"이라는 레이블을 출력한 후 단계 간에 거의 모든 것을 잊어버립니다. 지속적인 의미 상태는 없고, 언어 모델이 사후에 이야기로 엮으려는 캡션의 흐름만 존재합니다.

JEPA의 세계 모델은 다른 방식으로 작동합니다: 지속적인 이해가 먼저, 언어는 그 다음입니다. VLJ: Vision-Language-Jeopardy (임시 arXiv 항목) 논문은 의미의 내부 영화를 조용히 계속 유지하다가 인간이 문장이 필요할 때만 텍스트로 표출하는 시스템을 설명합니다.

왜 르쿤은 LLM이 한계에 도달했다고 믿는가

얀 르쿤은 수년 동안 같은 주장을 계속해오고 있다: 지능은 세계에 대한 내부 모델을 구축하는 것이지, 영어로 똑똑하게 들리는 것이 아니다. 그의 관점에서 언어는 인간을 위한 편리한 “입출력 프로토콜”로 자리하고 있으며, 이는 모니터에 대한 HDMI와 같다. 유용하긴 하지만, 진정한 이해가 있는 곳은 아니다.

그 철학은 그를 LLM 무기 경쟁과 정면으로 대치시킵니다. GPT 스타일 시스템은 거의 전적으로 인터넷에서 긁어온 텍스트에 기반하여 학습한 후, 텍스트를 토큰 단위로 생성합니다. 르쿤은 이러한 설정이 유창함과 이해를 혼동하게 하며 연구를 막다른 아키텍처에 가두어 놓는다고 주장합니다.

그는 핵심 문제를 “근거 없는” 학습이라고 부른다. 텍스트만으로는 마찰, 중력,遮挡, 또는 인과관계를 다룰 수 없다; 그것은 단지 인간이 그러한 것들에 대해 이야기하는 방식을 반영할 뿐이다. 단어에만 의존해서 훈련한다면, 그는 문화의 모델을 얻게 될 뿐, 현실의 모델은 얻지 못한다고 말한다.

레쿤의 비판은 그가 선호하는 비교에서 드러납니다: 10대는 약 20시간의 연습으로 운전을 배웁니다. 그러나 10년 이상의 시간, 수십억 달러, 수백만 마일의 주행 후에도 우리는 여전히 신뢰할 수 있는 레벨 5 자율주행차를 가지고 있지 않습니다. 그에게 이 간극은 단순한 엔지니어링의 지연이 아니라, 현재의 데이터와 구조가 인간이 능력을 습득하는 방식과 근본적으로 일치하지 않는다는 증거입니다.

인간은 지속적이고 복잡한 감각 흐름—시각, 청각, 체감—을 통해 배우고, 그 후에 비로소 단어를 부여합니다. LLM은 이러한 과정의 순서를 반대로 하여 캡션, 매뉴얼, 포럼 게시물에서 시작합니다. LeCun은 이러한 순서의 반전이 모델로 하여금 텍스트의 통계적 패턴에서 물리학과 상식을 모방하게 만든다고 주장하며, 이는 극단적인 경우, 로봇 공학 및 실시간 제어에서 문제가 발생한다고 말합니다.

JEPA는 그 벽에서 벗어나는 출구입니다. Joint Embedding Predictive Architecture 시스템은 특히 비디오에서 장면의 누락된 부분이나 미래의 조각을 예측함으로써 학습합니다. 픽셀이나 토큰을 출력하는 대신, 이들은 세상이 특정 물리적 및 인과적 법칙을 따를 경우 내부 표현이 어떻게 진화해야 하는지를 예측합니다.

이런 방식으로 구축된 세계 모델은 원칙적으로 “머그컵이 기울어지면 액체가 쏟아진다”는 동작을 “쏟다”라는 단어를 읽지 않고도 내재화할 수 있습니다. JEPA 모델에 대규모 비디오를 제공하면—운전 장면, 가정에서의 조작, 창고 로봇—움직임, 접촉, 결과의 규칙성을 직접 학습합니다.

LeCun은 VL-JEPA와 그 후속작들을 LLM 정체기의 대안으로 제시합니다. 텍스트는 지상 모델에 부착된 선택적 인터페이스가 되며, 그것이 지능의 기초가 아닙니다.

진정한 이해의 구조

일러스트: 진정한 이해의 구조
일러스트: 진정한 이해의 구조

수다스러운 봇은 잊으세요; 메타의 새로운 모델은 원시 비디오로 시작합니다. 비주얼 인코더는 일련의 프레임을 수집하여 밀집된 벡터로 압축하며, 현재 일어나고 있는 일의 일종의 내부 영화를 만듭니다. 자막도, 레이블도 없이, 움직임, 물체, 그리고 맥락에 대한 간결한 표현만이 있습니다.

이 벡터들은 모델의 “두뇌” 역할을 하는 예측 네트워크에 입력됩니다. 이 네트워크의 임무는 비디오의 일부가 주어졌을 때, 그 잠재 공간에서 누락된 부분을 상상하는 것입니다. 누락된 픽셀을 채우는 대신, 누락된 의미를 채우려고 하며, 시스템이 장면을 정말 이해한다면 보이지 않는 클립의 내부 표현이 어떻게 보여야 하는지를 추론합니다.

반대편에는 타겟 인코더가 자리잡고 있습니다. 이 인코더는 실제로 withheld된 비디오 세그먼트를 자신의 잠재 표현으로 처리합니다. 훈련은 간단하지만 치열한 게임이 됩니다: 예측자의 상상하는 벡터는 타겟 인코더의 실제 벡터와 최대한 가깝게 일치해야 합니다. 수백만 번의 마스킹 및 예측 에피소드에 걸쳐서 말이죠.

그 설정은 V-JEPA가 표면 패턴이 아닌 추상 구조를 학습하도록 강요합니다. 성공하기 위해서는 모델이 “객체 지속성”, “폐색”, “인과 관계”와 같은 개념을 내면화해야 합니다. 이러한 개념들이 바로 과거 프레임에서 숨겨진 미래 프레임을 추론할 수 있게 해주기 때문입니다. 반쪽의 행동이 빠져 있을 때 그냥 질감을 암기할 수는 없습니다.

비디오의 단순화된 다이어그램은 이를 이해하는 데 도움을 줍니다. 한 줄에 놓인 세 개의 상자를 상상해 보세요: "비디오 입력" → "두뇌" → "이해의 클라우드." 첫 번째 상자는 시각 인코더, 가운데는 예측기, 그리고 클라우드는 “손이 닿는 것”이나 “물체를 잡는 것”과 같은 유사한 사건에 해당하는 근접한 점들이 존재하는 의미의 진화하는 지도를 나타냅니다.

훈련은 그 구름의 조각을 반복해서 지우고 뇌 상자에게 그것들을 복원하도록 요청하는 것처럼 보입니다. 때때로 뇌는 이전 프레임만 보고 다음에 무엇이 올지를 추측해야 하고, 다른 때에는 마스킹된 영역의 가장자리만 보고 가운데에서 어떤 일이 일어나는지를 유추해야 합니다. 매 성공은 맥락과 결과 사이의 매핑을 더욱 긴밀하게 만듭니다.

시간이 지남에 따라, 그 압력은 고립된 스냅샷이 아닌 연속적인 사건을 추적하는 세계 모델을 형성합니다. 나중에 언어는 그 잠재적인 벡터를 활용할 수 있지만, 이해는 그 의미 공간의 기하학 아래에 존재합니다.

진정한 상: 물리적 세계를 위한 AI

로봇은 문장으로 생각하지 않는다. 박스를 잡는 방법을 결정하는 창고 로봇 팔이나 냉장고를 여는 방법을 찾아내는 가정용 로봇은 연속적이고 비언어적인 세계 모델이 필요하다: 물체가 어디에 있는지, 어떻게 움직이는지, 밀거나 당기거나 0.5초 더 기다릴 경우에 무슨 일이 발생하는지.

LLM(대규모 언어 모델), 심지어 다중 모달 모델도 시각 위에 언어를 덧붙입니다. 그들은 한 프레임을 보고 자막을 생성한 다음 다음 프레임을 위한 또 다른 자막을 만듭니다. 이러한 토큰별 내레이션은 컴퓨팅 자원을 낭비하고, 더욱 중요한 것은 그리퍼가 움직이는 용기에 착지해야 할 때 무용한 단절된 스냅샷으로 시간을 분할한다는 것입니다.

V-JEPA는 그 반대의 접근을 채택합니다. 영상은 시각 인코더로 흐르고, 이 인코더는 미래의 잠재 상태를 예측하는 예측기에 데이터를 전달합니다. 시스템은 장면이 전개됨에 따라 부드럽게 진화하는 고차원 "의미 벡터"를 유지하며, 하류 작업이 언어를 요구할 때만 언어를 표출합니다.

저렴한 비전 모델은 각 프레임을 별도의 퀴즈처럼 취급합니다. 첫 번째 이미지는 “손”으로 라벨링되고, 다음은 “병”, 그다음은 “통을 집는 것”, 다시 “손”으로 돌아가며, 메모리 없이 불안정하고 모순된 출력을 생성합니다. 반면 V-JEPA는 “통을 향해 다가가고, 잡고, 들어올리는 손”의 안정적인 시간적 표현을 추적하며, 동작 패턴이 고정되면 단일하고 자신감 있는 라벨을 출력합니다.

그러한 시간적 안정성은 JEPA의 예측 목표에서 비롯됩니다. 모델은 마스킹된 또는 미래의 비디오 조각의 임베딩을 예측하는 방법을 배우며, 현재 보이는 것뿐만 아니라 다음에 일어날 가능성이 있는 것까지 인코딩해야 합니다. 시간에 따른 원인과 결과는 그 잠재 공간의 기하학에 내재화됩니다.

로봇 공학에서 그 차이는 존재론적입니다. "병, 병, 병"만 인식하는 로봇은 그립퍼를 닫을 시점을 결정할 수 없습니다. 반면, “이 경로가 성공적인 집게로 끝난다”를 내부적으로 시뮬레이션하는 로봇은 움직임의 타이밍을 조정하고, 미끄러짐에서 회복하며, 다단계 행동을 계획할 수 있습니다. 계획, 제어 및 탐색은 모두 이러한 유형의 전방 모델에 달려 있습니다.

메타는 JEPA 기반 시스템을 구현된 에이전트, 웨어러블 기기 및 AR 장치의 핵심으로 자리매김하며, 메타 AI 연구를 통해 기술적 세부사항을 발표하기 시작했습니다. LeCun이 맞다면, 그런 조용한 예측 세계 모델—수다스러운 LLM이 아닌—이 다음 세대의 물리적 AI를 이끌게 될 것입니다.

V-JEPA를 시험에 부치다

벤치마크는 메타의 V-JEPA가 철학 강의처럼 들리지 않고 오늘날 비전-언어 모델에 대한 문제처럼 보이기 시작하는 지점입니다. 영상에서 모델은 제로샷 비디오 분류에서 최첨단 결과를 기록하며, 전체 텍스트 디코더에 의존하는 더 크고 복잡한 기준을 능가합니다. 이는 레쿤이 계속 언급하는 그 "의미 공간"에서만 작업하면서, 다음 단어를 추측하여 이루어지는 것이 아닙니다.

메타의 수치에 따르면 V-JEPA는 라벨이 있는 예제에 접근할 때에도 인기 있는 비전-언어 스택과 비교해 행동 인식 및 시간 이해에서 동등하거나 이를 초월하는 성능을 보입니다. 제로샷 분할(모델이 목표 데이터셋의 라벨이 있는 훈련 클립을 전혀 보지 않는 경우)에서도 V-JEPA는 여전히 행동과 장면을 더 정확하게 태그하며, 이는 내부 표현이 실제로 여러 도메인에서 일반화된다는 신호입니다.

효율성은 또 다른 주요 포인트입니다. V-JEPA는 훈련 중 무거운 자기 회귀 텍스트 디코더를 생략하기 때문에 유사한 비전-언어 설정의 약 절반의 훈련 가능한 매개변수를 사용합니다. 거대한 언어 헤드가 토큰을 처리하지 않기 때문에 메모리가 적고 FLOPs가 적으며 반복 속도가 더 빨라지며, 컴팩트한 잠재 예측기가 실제 지적 작업을 수행합니다.

여기서 "제로샷(zero-shot)"은 모델이 자연어 레이블 공간만 받는 것을 의미합니다. 예를 들어 "물 붓기", "문 열기", "채소 자르기"와 같은 레이블을 받고, 해당 데이터 세트에서 레이블이 붙은 예를 보지 않고 새로운 비디오를 분류해야 합니다. 강력한 제로샷 성능은 모델의 임베딩 공간이 이미 동작, 의도 및 객체 상호작용과 같은 개념을 전이 가능한 방식으로 인코딩하고 있음을 나타냅니다. 이는 단순한 암기가 아닌 일반화된 이해의 스트레스 테스트입니다.

레딧의 비평가들은 V-JEPA의 예측이 특히 애매한 프레임이나 이상한 극단적 케이스에서 가끔 틀릴 수 있다는 점을 지적했습니다. 이 불만은 우연히도 요점을 강조합니다: 이것은 다듬어진 제품이 아닌 초기 연구 시스템이며, 복잡한 시간적 예측에서 눈에 띄게 실패할 수 있다는 사실은 메타가 단순히 더 많은 토큰을 확장하는 것이 아니라 마침내 올바르고 어려운 문제에 도전하고 있다는 것을 보여줍니다.

AI의 미래를 향한 갈림길

일러스트레이션: AI의 미래를 위한 갈림길
일러스트레이션: AI의 미래를 위한 갈림길

조용하지만 매우 실제적인 갈래가 AI 전략에서 열리고 있으며, JEPA는 그 갈림길에 위치하고 있습니다. 한쪽에서는 OpenAI와 Google과 같은 회사들이 모든 것을 토큰 시퀀스로 예측하는 LLM 중심의 생성 시스템에 집중하고 있습니다. 여기에는 코드, 이미지, 비디오, 심지어 행동 계획까지 포함됩니다. 반면에 Yann LeCun과 Meta의 FAIR 연구소는 생각하기 위해 대화할 필요가 없는 공동 임베딩 예측 아키텍처를 추진하고 있습니다.

경로 1은 익숙하게 보인다: GPT-4 스타일 모델을 다중 모달의 거대 괴물로 계속 확장하는 것이다. OpenAI의 GPT-4o, 구글의 제미니 1.5, 앤트로픽의 클로드 3 모두 같은 레시피를 따른다: 방대한 트랜스포머 기반, 수조 개의 웹 및 독점 데이터 토큰, 그리고 다음 기호를 예측하는 자기 회귀 루프. 그 기호가 단어이든, 픽셀 토큰이든, 오디오 조각이든 상관없이 말이다.

JEPA는 그로부터의 강력한 전환을 나타냅니다. 픽셀이나 단어를 생성하는 대신, V-JEPA와 VL-JEPA는 미래 또는 누락된 콘텐츠의 잠재 표현을 예측하는 방법을 학습합니다. 즉, 모델이 비디오에서 다음에 일어날 것이라고 믿는 것, 또는 특정 영역이 속하는 개념을 예측하는 것이죠. 언어는 세계 모델 위의 얇은 층이 되며, 지능의 핵심 기저는 아닙니다.

그 분할은 두 가지 최적화 목표로 이어집니다. LLM(대형 언어 모델) 중심의 실험실은 자연어가 주요 입력/출력으로 남아 있는 채팅 인터페이스, 코드 보조 도구, 검색 및 생산성 도구를 최적화합니다. JEPA(시간적 인과 관계에 대한 객체, 의도 및 인과성을 추적해야 하는 로봇, AR 안경 및 자율 에이전트 중심의) 연구는 모든 미세 단계를 설명하지 않고도 이를 최적화합니다.

LLM 경로에서 진전은 규모와 정렬에서 비롯됩니다. 최대 200만 토큰의 더 큰 맥락 창, 더 풍부한 도구 사용, 그리고 검색 보강 생성이 소프트웨어 개발, 법률 문서 작성, 고객 지원과 같은 워크플로우로 모델을 더 깊이 밀어냅니다. 기준은 생성된 텍스트와 코드가 인간에게 얼마나 일관되고 안전하며 유용하게 보이는가입니다.

JEPA 경로에서 진전은 더 나은 예측 세계 모델에서 비롯됩니다. 벤치마크는 제로샷 행동 인식, 시간적 위치 파악 및 하위 제어로 이동합니다: 시스템이 손이 용기를 향해 다가오는 것을 예측할 수 있거나, 장황한 프롬프트 대신 압축된 내부 상태를 사용하여 로봇 팔을 위한 일련의 잡기 및 밀기 동작을 계획할 수 있을까요?

두 경로는 아마도 공존할 것이지만, 산업의 중심을 서로 다른 방향으로 끌어당깁니다. 어떤 언어는 지능을 위한 보편적인 API로 남거나, 아니면 주로 물리적 세계를 이해하고 행동하는 조용하고 구조화된 모델 위의 단순한 선택적 인터페이스가 될 것입니다.

르쿤 갬빗: 새로운 AI를 위한 새로운 사업

얀 르쿤의 다음 행보에 대한 소문이 갑자기 찌라시처럼 보이지 않고 전략처럼 보이기 시작했다. 여러 보고서에 따르면 메타의 수석 AI 과학자가 새로운 스타트업을 설립하고 있으며, 메타는 고용주가 아니라 주요 파트너이자 자금 지원자로 역할을 할 가능성이 높아 그가 10년 동안 강의와 논문에서 구상해온 AI를 구축할 수 있는 독립적인 수단을 제공하고 있다.

레쿤은 수년간 최전선 AI 연구가 10년 단위로 진행되는 반면, 대기업 기술은 분기별로 운영된다고 불평해 왔습니다. 별도의 벤처는 그가 JEPA 스타일의 세계 모델과 장기 학습을 추구할 수 있게 해주며, 매 실험을 Reels 참여도나 광고 타겟팅에 맞춰 정당화할 필요가 없습니다.

그가 밝힌 목표는 OpenAI나 Anthropic의 “AGI”가 아니라 고급 기계 지능(AMI)입니다. LeCun의 정의에 따르면, AMI는 다음과 같은 시스템을 의미합니다: - 원시 감각 입력으로부터 예측 세계 모델을 구축 - 오랜 시간을 두고 사고하고 계획하기 - 현실 세계에 대한 지속적이고 확고한 기억 유지

이 비전에서 AMI는 채팅봇보다 로봇, AR 글래스, 차량 및 홈 디바이스에서 먼저 살아갑니다. AMI는 단순히 문장을 자동완성하는 것이 아니라, 시간을 두고 물체, 의도 및 물리학을 추적해야 합니다. 바로 이런 환경에서 JEPA 및 V-JEPA 스타일 모델이 토큰 공간이 아닌 잠재적 “의미 공간”에서 예측함으로써 구조적 이점을 주장합니다.

메타의 최신 V-JEPA와 VL-JEPA 작업은 비생성 모델들이 약 절반의 파라미터로 제로샷 비디오 분류와 시간적 이해에서 더 큰 생성 경쟁자를 능가하거나 동등한 성능을 보여준다는 것을 입증하고 있습니다. 창립자에게 이러한 숫자는 간단한 주제로 귀결됩니다: 세계 모델 중심의 AMI는 점점 더 커지는 허구형 LLM보다 더 나은 확장성을 가집니다.

레쿤의 스타트업은 따라서 JEPA가 현재의 트랜스포머 LLM 스택을 초월할 것이라는 깨끗하고 위험한 내기처럼 보입니다. 만약 OpenAI와 구글이 거대한 자율 회귀 모델에 더 집중한다면, 그의 팀은 요청받을 때만 말하고 항상 생각하는 조용한 예측 시스템을 추진할 것입니다.

이 분리를 추적하고 있는 누구나 2025 AI 지수 보고서 – 스탠포드 HAI를 읽어야 합니다. 이 보고서는 이미 순수 언어 기준에서 다중 모드, 구체화된, 그리고 적극적인 평가로의 전환을 경고하고 있습니다. 만약 이러한 지표들이 중요한 평가 기준이 된다면, 르쿤의 전략은 반대 의견이 아니라 주요 사건처럼 보이게 될 것입니다.

이것이 정말 '포스트 LLM' 시대인가요?

포스트 LLM은 아포칼립스처럼 들리지만, 현실은 멸종보다는 공존에 가까워 보입니다. 대규모 언어 모델은 이미 검색, 생산성 도구, 코드 편집기 및 고객 서비스 스택 안에서 작동하고 있으며, Nvidia가 새로운 GPU를 출시할 때마다 그 경제성은 개선됩니다. 기업들은 LLM 인프라에 수백억 달러를 투자했으며, 그 힘만으로도 앞으로 수년간 상업적 AI 인터페이스를 지배할 것을 보장합니다.

JEPA 스타일 시스템은 스택의 다른 계층을 목표로 합니다. LLM은 인터넷을 압축하여 자극적인 자동 완성 형태로 만드는 데 탁월하지만, 근거 있는 인식, 장기 예측, 또는 우주에서 물체의 정밀한 제어를 요구하는 작업에서는 어려움을 겪습니다. 불균형한 지면에서 발을 놓을 위치를 결정해야 하는 로봇은 자신의 선택에 대한 200토큰 에세이를 기다릴 수 없습니다.

Post-LLM은 LeCun의 어휘에서 연구의 최전선을 설명하며, 제품 선반이 아닙니다. 이 최전선은 “다음 토큰 예측”에서 “세계의 다음 상태 예측”으로 이동하고 있습니다. 이미지, 비디오, 오디오 및 센서 스트림 전반에 걸쳐 언어는 생각의 기초가 아니라 질의 및 보고 채널로 변모합니다.

JEPA 모델, 예를 들어 V-JEPA 및 그 비전-언어 형제들은 시간이 지남에 따라 발전하는 간결한 “의미 벡터”를 배우려고 합니다. 매 시간 단계마다 단어를 방출하는 대신, 새로운 프레임이 도착할 때 업데이트되는 조용한 내부 상태를 유지하며, “무슨 일이 일어나고 있나요?” 또는 “다음에 무엇을 해야 하나요?”라는 질문을 받았을 때 그 상태를 노출합니다. 이러한 설계는 로보틱스, AR 안경, 자동차 및 공장 시스템의 제어 루프와 일치합니다.

상업적으로, 다음과 같은 구조를 상상할 수 있습니다: - JEPA와 유사한 핵심이 환경을 추적하고 미래 상태를 예측합니다 - 계획 모듈이 그 잠재 공간에서 행동을 선택합니다 - LLM이 자연어로 그 행동을 인간에게 설명합니다

그것은 LLM 이후의 세계입니다: LLM이 없는 것이 아니라 LLM이 중심이 아닌.

LeCun이 맞다면, 역사적 전환은 더 큰 모델이 아니라 다른 사고 원리에 관한 것입니다. 토큰별 생성 방식을 학습된 의미 공간에서의 연속 예측으로 바꾸는 것은 민첩한 로봇, 지속적인 에이전트, 실시간 도우미와 같은 능력을 열 수 있습니다. 이는 GPT 스타일 시스템을 10배 더 확장한다고 해도 여전히 제공할 수 없는 것입니다.

자주 묻는 질문들

JEPA AI 아키텍처란 무엇인가요?

JEPA, 즉 공동 임베딩 예측 아키텍처는 메타의 얀 르쿤(Yann LeCun)이 설계한 AI 모델의 일종입니다. 문장에서 다음 단어를 예측하는 대신, 압축된 추상적 '의미 공간'에서 누락되거나 미래의 정보를 예측함으로써 세계에 대한 내부 모델을 학습합니다.

JEPA는 ChatGPT와 같은 LLM과 어떻게 다릅니까?

LLM은 텍스트를 토큰 단위로 생성하는 생성적 모델입니다. JEPA는 본질적으로 비생성적이며, 먼저 내부 이해를 구축한 후 언어를 선택적 출력으로 생성합니다. 이는 효과적으로 더 효율적이고 로봇 공학과 같은 실제 기반 작업에 더 적합할 수 있습니다.

JEPA 모델이 LLM을 대체할까요?

꼭 대체하는 것은 아니지만, 서로 다른 문제를 목표로 합니다. LLM은 언어 기반 작업에서 뛰어난 성능을 발휘하는 반면, JEPA는 물리적 세계의 상호 작용과 계획 수립을 해결하는 것을 목표로 합니다. 르쿤은 이러한 '세계 모델' 접근 방식이 더 발전된 인공 지능으로 가는 길이라고 믿으며, 이는 현재의 LLM이 향후 많은 응용 분야에서 쓸모없게 만들 수 있다고 합니다.

얀 르쿤은 오늘날의 대형 언어 모델에 대해 왜 비판적인가?

LeCun은 지능은 단순히 언어를 조작하는 것이 아니라 세상을 이해하는 것이라고 주장합니다. 그는 텍스트만으로 모델을 훈련시키는 것은 근본적인 한계가 있다고 믿으며, 이는 비디오와 같은 감각적 데이터에서 오는 깊고 인과적인 현실 이해가 결여되어 있기 때문이며, JEPA는 바로 이러한 학습을 위해 설계되었습니다.

Frequently Asked Questions

이것이 정말 '포스트 LLM' 시대인가요?
포스트 LLM은 아포칼립스처럼 들리지만, 현실은 멸종보다는 공존에 가까워 보입니다. 대규모 언어 모델은 이미 검색, 생산성 도구, 코드 편집기 및 고객 서비스 스택 안에서 작동하고 있으며, Nvidia가 새로운 GPU를 출시할 때마다 그 경제성은 개선됩니다. 기업들은 LLM 인프라에 수백억 달러를 투자했으며, 그 힘만으로도 앞으로 수년간 상업적 AI 인터페이스를 지배할 것을 보장합니다.
JEPA AI 아키텍처란 무엇인가요?
JEPA, 즉 공동 임베딩 예측 아키텍처는 메타의 얀 르쿤이 설계한 AI 모델의 일종입니다. 문장에서 다음 단어를 예측하는 대신, 압축된 추상적 '의미 공간'에서 누락되거나 미래의 정보를 예측함으로써 세계에 대한 내부 모델을 학습합니다.
JEPA는 ChatGPT와 같은 LLM과 어떻게 다릅니까?
LLM은 텍스트를 토큰 단위로 생성하는 생성적 모델입니다. JEPA는 본질적으로 비생성적이며, 먼저 내부 이해를 구축한 후 언어를 선택적 출력으로 생성합니다. 이는 효과적으로 더 효율적이고 로봇 공학과 같은 실제 기반 작업에 더 적합할 수 있습니다.
JEPA 모델이 LLM을 대체할까요?
꼭 대체하는 것은 아니지만, 서로 다른 문제를 목표로 합니다. LLM은 언어 기반 작업에서 뛰어난 성능을 발휘하는 반면, JEPA는 물리적 세계의 상호 작용과 계획 수립을 해결하는 것을 목표로 합니다. 르쿤은 이러한 '세계 모델' 접근 방식이 더 발전된 인공 지능으로 가는 길이라고 믿으며, 이는 현재의 LLM이 향후 많은 응용 분야에서 쓸모없게 만들 수 있다고 합니다.
얀 르쿤은 오늘날의 대형 언어 모델에 대해 왜 비판적인가?
LeCun은 지능은 단순히 언어를 조작하는 것이 아니라 세상을 이해하는 것이라고 주장합니다. 그는 텍스트만으로 모델을 훈련시키는 것은 근본적인 한계가 있다고 믿으며, 이는 비디오와 같은 감각적 데이터에서 오는 깊고 인과적인 현실 이해가 결여되어 있기 때문이며, JEPA는 바로 이러한 학습을 위해 설계되었습니다.
🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts