Skip to content

AI '월드 모델' 논쟁은 거짓이다

전문가들은 '세상은 단어로 이루어져 있지 않다'는 이유로 Large Language Models가 현실을 이해할 수 없다고 주장합니다. 이 화제의 기사는 그러한 주장이 근본적으로 왜 잘못되었는지, 그리고 진정한 AI 지능의 미래가 실제로 어떤 모습일지 밝힙니다.

Stork.AI
Hero image for: AI '월드 모델' 논쟁은 거짓이다

요약 / 핵심 포인트

전문가들은 '세상은 단어로 이루어져 있지 않다'는 이유로 Large Language Models가 현실을 이해할 수 없다고 주장합니다. 이 화제의 기사는 그러한 주장이 근본적으로 왜 잘못되었는지, 그리고 진정한 AI 지능의 미래가 실제로 어떤 모습일지 밝힙니다.

'세상은 단어가 아니다'라는 주장이 핵심을 놓치는 이유

"세상은 단어로 이루어져 있지 않다"는 대중적인 주장은 현대 AI를 근본적으로 오해하고 있으며, large language models (LLMs)가 텍스트로만 훈련되기 때문에 현실을 이해할 수 없다고 주장합니다. Lior Alexander와 같은 인물들이 자주 표명하는 이러한 관점은 점점 구식이 되고 있습니다. 결정적으로, AI 모델이 오직 언어만을 이해한다는 전제는 이제 틀렸습니다.

LLMs로 자주 잘못 분류되는 많은 시스템은 OpenAI의 ChatGPT-4o와 같이 multimodal "Omni models"로 진화했으며, 여기서 "O"는 옴니모달(omni-modal) 기능을 의미합니다. 이러한 고급 아키텍처는 오디오, 비디오, 이미지, 텍스트를 포함하는 포괄적인 데이터셋으로 훈련됩니다. 이러한 다양한 입력은 물리학자와 엔지니어들이 일관되게 강조하는 현실인 세상의 근본적인 수학적 구조와 예측 가능한 패턴을 이해할 수 있게 합니다. AI는 이러한 기초 수학을 빠르게 습득하며, 기하학과 물리적 공간에 대한 직관적인 이해를 발전시키고 있습니다.

따라서 이 논쟁은 진정으로 정도의 문제입니다. 멀티모달 통합 이전에도, 오래된 텍스트 전용 언어 모델은 비록 불완전하더라도 공간 관계와 객체의 정신적 지도를 근사화하는 기본적인 능력을 보여주었습니다. 오늘날의 Omni models는 지속적인 센서 데이터와 피드백 루프를 처리하여 이러한 이해를 크게 향상시킵니다. 이러한 발전은 AI를 단순한 언어 예측을 훨씬 뛰어넘게 하며, 더 깊은 세계 이해를 향한 명확하고 정량적인 경로를 보여줍니다.

로봇은 감각을 얻고, AGI는 물리학을 얻는다

로봇 공학에서 embodied intelligence의 가치를 부인하는 사람은 아무도 없습니다. 센서 데이터, 피드백 루프, 고유수용성 감각을 갖춘 물리적 월드 모델은 물리적 세계를 탐색하고 상호 작용하는 기계에 필수적입니다. 이것이 강력한 감각운동 기술의 영역입니다.

그러나 이러한 물리적 능력은 AGI에서 우리가 추구하는 일반 지능과는 상당히 다릅니다. 새, 고양이, 원숭이와 같은 동물들은 뛰어난 시공간 지능과 신체 제어 능력을 보여줍니다. 그들은 복잡한 환경을 탐색하고 정밀하게 복잡한 움직임을 실행하지만, 아무도 그들을 고급 인간 문제 해결에 유용한 방식으로 일반 지능을 가졌다고 생각하지 않습니다.

마찬가지로, AGI의 가장 혁신적인 영향은 주로 신체적 민첩성에서 비롯되지 않을 것입니다. 그 혁명적인 잠재력은 추상 지능을 마스터하는 데 있습니다: 수학적 및 과학적 추론의 영역입니다. 고급 물리학, 생물 물리학 및 기타 복잡한 이론적 영역은 AGI가 전례 없는 발견을 이끌어낼 진정한 개척지를 나타냅니다.

로봇 공학이 3차원 공간에 대한 '느껴지는 감각'으로부터 엄청난 이점을 얻는 반면, AGI의 진정한 힘은 근본적인 수학적 구조에 대한 직관적인 이해에서 나옵니다. 단순히 물리적 상호 작용을 예측하는 것이 아니라 추상적 추론을 위한 이러한 능력은 진정한 일반 지능과 그 심오한 사회적 기여로 가는 길을 정의합니다.

예측은 예측이다, 방법에 관계없이

Yann LeCun의 JEPA (Joint Embedding Predictive Architecture)와 같은 아키텍처는 센서 데이터로부터 추상적인 표현을 학습하여, 원시 픽셀이 아닌 압축된 잠재 공간에서 예측합니다. LeCun과 다른 이들은 이 방법이 world models를 구축하는 데 본질적으로 우월하며, 더 깊은 이해를 의미한다고 자주 주장합니다. 그러나 이러한 관점은 예측의 정확성보다 방법을 과도하게 우선시합니다.

예측은 예측입니다. AI가 다음 토큰, 미래 픽셀 또는 추상적인 상태를 예측하든, 진정한 척도는 출력의 정확성에 있습니다. David Shapiro가 강조했듯이, 정확한 예측은 추상적 표현에 대한 과학적 방법의 검증입니다. 시스템이 현실을 안정적으로 예측한다면 특정 양식이나 압축 기술은 부차적인 것이 됩니다.

비평가들은 또한 비-LLM 아키텍처만이 물리적 환경에서 복잡하고 다단계적인 계획을 관리할 수 있다고 주장합니다. 이는 기존의 발전을 간과하는 것입니다. Video-Language-Action (VLA) models는 이미 행동 결과를 시뮬레이션하고 복잡한 계획을 실행하는 강력한 능력을 보여주며, 그러한 계획이 특정 아키텍처 설계에만 국한된다는 개념에 직접적으로 도전합니다. 이론적 기반에 대한 더 깊은 통찰력을 얻으려면 Language Models, World Models, and Human Model-Building을 고려해 보십시오.

아키텍처 우월성에 대한 논쟁은 종종 의미론적 논쟁으로 변질됩니다. 핵심 요소는 모델이 원시 감각 스트림을 처리하든 고도로 추상화된 표현을 처리하든 관계없이 환경에 대해 일관되고 실행 가능한 예측을 생성하는 능력으로 남아 있습니다.

LLM을 넘어서: 다가오는 '옴니-모델' 두뇌

"Large Language Model"은 빠르게 시대에 뒤떨어진 오칭이 되고 있습니다. AI 산업은 이제 OpenAI의 최근 GPT-4o로 대표되는 진정한 멀티모달 Omni-models로 결정적으로 전환하고 있으며, 여기서 'O'는 명시적으로 "Omni"를 의미합니다. 이러한 아키텍처는 텍스트뿐만 아니라 오디오, 이미지, 비디오를 포함하는 방대한 통합 데이터셋으로 훈련되어 순전히 언어적 이해와 예측의 한계를 초월합니다.

이전에 분리되었던 두 가지 AI 개발 경로의 심오한 융합이 예측됩니다. 한 경로는 언어, 복잡한 수학, 정교한 코드 생성을 마스터하는 추상적 추론에 탁월합니다. 다른 경로는 강력한 로봇 공학, 물리적 상호 작용, 고유수용성 인식을 통해 3차원 공간을 탐색하는 데 필수적인 감각 운동 직관을 배양합니다. 이러한 통합은 단순한 데이터 입력을 넘어 통합된 처리 능력을 나타냅니다.

이 임박한 통합은 단일하고 통일된 인지 아키텍처, 즉 진정한 "로봇 두뇌"를 구상합니다. 이러한 시스템은 고급 과학적 발견부터 실시간으로 물리적 객체를 조작하는 것까지 모든 가능한 영역에서 본질적으로 추론하고 행동할 것입니다. 이 전체론적 접근 방식은 단편적인 "world model" 논쟁, 특히 "the world isn't words"와 같은 주장을 근본적으로 쓸모없게 만듭니다. 궁극적인 목표는 현실의 완전하고 다면적인 복잡성을 이해하고 상호 작용할 수 있는 포괄적인 AI 두뇌로 전환되어 예측을 진정으로 도메인 불가지론적으로 만듭니다.

자주 묻는 질문

AI '월드 모델'이란 무엇인가요?

AI 월드 모델은 세상이 어떻게 작동하는지에 대한 내부적이고 추상적인 표현입니다. 이는 AI가 데이터의 통계적 패턴을 인식하는 것을 넘어, 환경에 대한 일관된 이해를 바탕으로 인과 관계를 이해하고, 미래 사건을 시뮬레이션하며, 행동을 계획할 수 있도록 합니다.

일부 전문가들은 왜 언어 모델에 월드 모델이 부족하다고 말하나요?

핵심 주장은 LLM이 주로 텍스트로 훈련되기 때문에 물리적 현실에 대한 기반이 부족하다는 것입니다. Yann LeCun과 같은 비평가들은 세상은 단어가 아닌 감각 데이터로 이루어져 있으므로 진정한 이해는 언어뿐만 아니라 시각적 또는 물리적 상호 작용으로부터 학습해야 한다고 주장합니다.

구체화된 AI 지능과 추상적 AI 지능의 차이점은 무엇인가요?

Embodied intelligence는 센서 데이터, 피드백 루프, 고유 수용 감각을 통해 물리적 세계를 이해하고 탐색하는 것을 포함하며, 로봇 공학에 매우 중요합니다. Abstract intelligence는 수학, 물리학, 철학과 같은 개념에 대해 추론하는 것을 포함하며, 이는 고급 AGI의 핵심 기능으로 간주됩니다.

'Omni-model'이란 무엇인가요?

'Omni-model'은 'Large Language Model'이라는 명칭을 넘어선 차세대 AI를 지칭하는 용어입니다. 이는 텍스트, 이미지, 오디오, 비디오, 코드 등 여러 양식으로 훈련되어 세상을 보다 전체적이고 통합적으로 이해하도록 개발된 통합 모델을 설명합니다.

One weekly email of tools worth shipping. No drip funnel.

one email per week · unsubscribe in two clicks · no third-party tracking

🚀더 알아보기

AI 트렌드를 앞서가세요

Stork.AIが엄선한 최고의 AI 도구, 에이전트, MCP 서버를 만나보세요.

P.S. 쓸 만한 걸 만드셨나요? Stork에 등록

모든 게시물로 돌아가기