Великие дебаты о мировой модели ИИ: Неужели LLMs упускают реальность?

Почему аргумент «Мир состоит не из слов» упускает главное

Популярный аргумент о том, что «мир состоит не из слов», фундаментально искажает представление о современном ИИ, утверждая, что большие языковые модели (LLM) не могут понимать реальность, поскольку они обучены только на тексте. Эта точка зрения, часто высказываемая такими фигурами, как Lior Alexander, становится все более устаревшей. Важно отметить, что предпосылка о том, что модели ИИ понимают только язык, теперь ложна.

Многие системы, часто ошибочно называемые LLM, превратились в мультимодальные «Омни-модели», примером которых является ChatGPT-4o от OpenAI, где «O» означает всемодальные возможности. Эти передовые архитектуры обучаются на обширных наборах данных, включающих аудио, видео, изображения и текст. Этот разнообразный ввод позволяет им постигать лежащую в основе мира математическую структуру и предсказуемые закономерности — реальность, которую постоянно подчеркивают физики и инженеры. ИИ быстро осваивает эту фундаментальную математику, развивая интуитивное понимание геометрии и физического пространства.

Таким образом, дебаты на самом деле являются вопросом степени. Еще до мультимодальной интеграции старые текстовые языковые модели демонстрировали рудиментарную способность аппроксимировать пространственные отношения и ментальные карты объектов, хотя и несовершенно. Сегодняшние Омни-модели значительно улучшают это понимание, обрабатывая непрерывные данные датчиков и петли обратной связи. Это развитие выводит ИИ далеко за рамки простого лингвистического предсказания, демонстрируя четкий, количественный путь к более глубокому пониманию мира.

Роботы получают чувства, ОИИ получает физику

никто не оспаривает ценность воплощенного интеллекта для робототехники. Физические модели мира, оснащенные данными датчиков, петлями обратной связи и проприоцепцией, незаменимы для машин, перемещающихся и взаимодействующих с физическим миром. Это область надежных сенсомоторных навыков.

Но это физическое мастерство значительно отличается от общего интеллекта, который мы ищем в AGI. Животные, такие как птицы, кошки и обезьяны, демонстрируют исключительный зрительно-пространственный интеллект и физический контроль. Они перемещаются в сложных средах и выполняют сложные движения с точностью, но никто не считает их общеинтеллектуальными в смысле, полезном для решения сложных человеческих проблем.

Аналогично, наиболее преобразующее влияние AGI не будет в первую очередь исходить от физической ловкости. Его революционный потенциал заключается в освоении абстрактного интеллекта: области математического и научного мышления. Передовая физика, биофизика и другие сложные теоретические области представляют собой истинный рубеж, где AGI откроет беспрецедентные открытия.

В то время как робототехника получает огромную выгоду от «ощущения» трехмерного пространства, истинная сила AGI проистекает из ее интуитивного понимания лежащих в основе математических структур. Эта способность к абстрактному мышлению, а не просто к предсказанию физических взаимодействий, определяет путь к истинно общему интеллекту и его глубокому вкладу в общество.

Предсказание есть предсказание, независимо от метода

Архитектуры, такие как JEPA (Joint Embedding Predictive Architecture) Янна ЛеКуна, обучаются абстрактным представлениям из сенсорных данных, предсказывая в сжатых латентных пространствах, а не в необработанных пикселях. ЛеКун и другие часто утверждают, что этот метод по своей сути превосходит другие для построения моделей мира, подразумевая более глубокое понимание. Однако эта точка зрения чрезмерно приоритизирует как предсказание над его точностью.

Предсказание есть предсказание. Независимо от того, прогнозирует ли AI следующий токен, будущий пиксель или абстрактное состояние, истинная мера заключается в правильности его вывода. Как подчеркивает David Shapiro, точное предсказание является проверкой абстрактного представления научным методом. Конкретная модальность или техника сжатия становится второстепенной, если система надежно предвосхищает реальность.

Критики также утверждают, что только архитектуры, не основанные на LLM, могут управлять сложным, многоэтапным планированием в физических средах. Это упускает из виду существующие достижения. Video-Language-Action (VLA) models уже демонстрируют надежные возможности в симуляции последствий действий и выполнении сложных планов, напрямую оспаривая представление о том, что такое планирование является исключительной прерогативой конкретных архитектурных решений. Для более глубокого понимания теоретических основ рассмотрите Language Models, World Models, and Human Model-Building.

Дебаты о превосходстве архитектур часто сводятся к семантическим придиркам. Критическим фактором остается способность модели генерировать связные, действенные предсказания о своей среде, независимо от того, обрабатывает ли она необработанные сенсорные потоки или высокоабстрактные представления.

Нравится статья? Получайте такие каждое утро на почту.

одно письмо в день · отписка в два клика · без сторонних трекеров

За пределами LLM: Грядущий мозг «Omni-Model»

«Large Language Model» быстро становится устаревшим неправильным названием. Индустрия AI теперь решительно поворачивается к по-настоящему мультимодальным Omni-models, примером которых является недавний GPT-4o от OpenAI, где «O» явно означает «Omni». Эти архитектуры обучаются на обширных, интегрированных наборах данных, включающих не только текст, но также аудио, изображения и видео, преодолевая ограничения чисто лингвистического понимания и предсказания.

Прогнозируется глубокое слияние двух ранее отдельных направлений развития AI. Одно направление преуспевает в абстрактном мышлении, осваивая язык, сложную математику и сложную генерацию кода. Другое развивает сенсорно-моторную интуицию, жизненно важную для надежной робототехники, физического взаимодействия и навигации в трехмерном пространстве с проприоцептивным осознанием. Эта интеграция выходит за рамки простого ввода данных; она представляет собой унифицированную вычислительную способность.

Этот грядущий синтез предполагает единую, унифицированную когнитивную архитектуру, настоящий «мозг робота». Такая система будет по своей сути рассуждать и действовать во всех мыслимых областях, от передовых научных открытий до манипулирования физическими объектами в реальном времени. Этот целостный подход принципиально делает устаревшими фрагментированные дебаты о «модели мира», особенно аргументы вроде «мир — это не слова». Конечная цель смещается к всеобъемлющему AI-мозгу, способному понимать реальность и взаимодействовать с ней во всей ее многогранной сложности, делая предсказания по-настоящему независимыми от предметной области.

Часто задаваемые вопросы

Что такое «модель мира» AI?

Модель мира AI — это внутреннее, абстрактное представление о том, как устроен мир. Она позволяет AI понимать причинно-следственные связи, симулировать будущие события и планировать действия на основе связного понимания своей среды, а не просто распознавать статистические закономерности в данных.

Почему некоторые эксперты говорят, что языковым моделям не хватает моделей мира?

Основной аргумент заключается в том, что, поскольку LLM в основном обучаются на тексте, им не хватает привязки к физической реальности. Критики, такие как Yann LeCun, утверждают, что мир состоит из сенсорных данных, а не слов, поэтому истинное понимание требует обучения на основе визуального или физического взаимодействия, а не только языка.

В чем разница между воплощенным и абстрактным AI?

Воплощенный интеллект включает в себя понимание физического мира и навигацию в нем посредством сенсорных данных, петель обратной связи и проприоцепции, что крайне важно для робототехники. Абстрактный интеллект включает в себя рассуждение о таких понятиях, как математика, физика и философия, что рассматривается как ключевая функция для продвинутого AGI.

Что такое 'Omni-model'?

'Omni-model' — это термин для следующего поколения ИИ, который выходит за рамки обозначения 'Large Language Model'. Он описывает унифицированную модель, обученную на нескольких модальностях — тексте, изображениях, аудио, видео, коде — для развития более целостного и интегрированного понимания мира.

Found this useful? Share it.

For builders

Want Stork to write one of these about your product?

Send us a URL. We use the product, form a view, and publish what we actually think — in 8 languages, labeled Sponsored, with no copy approval on your side. That last part is what makes it worth quoting.

See how it works$500 · AI tools & software only

Дебаты о «модели мира» ИИ — это ложь