Безмолвный ИИ Meta заменит LLM.

Глава AI в Meta Ян ЛеКун представил новую архитектуру, которая не генерирует текст токен за токеном. Эта новая модель, JEPA, учится истинному пониманию мира, что может стать потенциальным парадигмальным сдвигом от LLM, таких как ChatGPT.

Stork.AI
Hero image for: Безмолвный ИИ Meta заменит LLM.
💡

TL;DR / Key Takeaways

Глава AI в Meta Ян ЛеКун представил новую архитектуру, которая не генерирует текст токен за токеном. Эта новая модель, JEPA, учится истинному пониманию мира, что может стать потенциальным парадигмальным сдвигом от LLM, таких как ChatGPT.

Сенсация от главы ИИ Meta

Ян ЛеКун потратил десятилетия на то, чтобы изменить способ, которым машины учатся видеть и мыслить. Лауреат Премии Тьюринга, который помог создать свёрточные нейронные сети и сейчас занимает должность Главного научного сотрудника в Meta, снова нацелен прямо на область, которую он помог создать. Его цель на этот раз: большие языковые модели, которые доминируют в сегодняшнем AI-гипе.

Лаборатория FAIR компании Meta тихо опубликовала новую статью, описывающую систему «визуальный-языковой» (VL) на основе Совместной Эмбеддинговой Предсказательной Архитектуры (JEPA) Лекуна. Модель, получившая название VL-JEPA или VLJEPA, расширяет ранее проведенные исследования V-JEPA 2023 года, добавляя язык поверх предсказательной визуальной основы. Вместо предсказания пикселей или токенов, модель учится предвосхищать будущее или отсутствующее содержимое напрямую в совместном эмбеддинговом пространстве.

Лекун уже много лет утверждает, что истинный интеллект возникает из обучения модели мира, а не из автозаполнения текста. Эта новая система на основе JEPA воплощает эту точку зрения: она работает как негенеративная модель, которая предсказывает «векторы значений» и производит слова только по запросу. Архитектура рассматривает язык как необязательный интерфейс, находящийся поверх более сложного, молчаливого внутреннего состояния.

Это делает статью менее похожей на очередной многоформатный бенчмарк и больше на манифест против преобладающего стека LLM. Автогенеративные модели, такие как GPT-4, Claude и Llama 3, генерируют выходные данные токен за токеном, слева направо, с каждым шагом, представленным в виде текста. Модели в стиле JEPA сохраняют свое рассуждение внутренним, обновляя скрытое состояние со временем и вырабатывая язык только как финальный этап сериализации.

Лекун публично назвал большие языковые модели «размытыми JPEG-файлами интернета» и предсказал, что нынешние архитектуры будут выглядеть примитивно в течение нескольких лет. Эта работа пытается формализовать его альтернативу: предсказательные, самообучаемые системы, которые учатся на непрерывных потоках видео, аудио и других сенсорных данных. Ставки выходят за пределы чат-ботов, охватывая робототехнику, AR-очки и реальные агенты, которые должны планировать, а не просто говорить.

Всё это происходит на фоне сообщений о том, что ЛеКун планирует покинуть Meta, чтобы запустить стартап, созданный вокруг ИИ следующего поколения в стиле JEPA. Слухи указывают на компанию, ориентированную на крупномасштабные мировые модели, обученные на видео и эмбодированных данных, а не только на текстах, собранных из интернета. Если это произойдет, собственный руководитель ИИ Meta может оказаться во главе борьбы против парадигмы LLM, которую он никогда полностью не принял.

Этот ИИ не нуждается в разговоре, чтобы мыслить.

Иллюстрация: Этот ИИ не нуждается в разговоре, чтобы мыслить.
Иллюстрация: Этот ИИ не нуждается в разговоре, чтобы мыслить.

Генеративный ИИ добивается ответа с помощью речи. Модели, такие как GPT-4 или Llama 3, работают как авторегрессионные движки: они предсказывают следующий токен, затем следующий, движутся слева направо, пока предложение не завершится. Каждый ответ существует только как растущая цепочка токенов, поэтому «мышление» и «речь» сливаются в одном медленном процессе, требующем значительных вычислительных ресурсов.

Негенеративные модели JEPA разделяют это. Совместная архитектура предсказательной эмбонки сначала формирует внутреннее представление о происходящем — на основе изображений, видео и текста — а затем опирается на это молчаливое понимание. Язык становится дополнительным слоем перевода, а не средством самого мышления.

Генеративные системы ведут себя так, словно кто-то вслух излагает свои размышления: "Позвольте мне объяснить, что я думаю, пока я все еще пытаюсь разобраться в этом." Каждое слово зависит от предыдущего, поэтому модель буквально не может знать окончательную формулировку или иногда даже окончательный ответ, пока последовательность не завершится. Этот поэтапный процесс обработки токенов использует ресурсы GPU и вводит задержку в каждом запросе.

JEPA меняет правила игры: «Я уже знаю, и объясню только если вы спросите». Вместо того чтобы предсказывать следующее слово, он напрямую предсказывает вектор смысла в высокоразмерном семантическом пространстве. Основное вычисление производит одно плотное представление, которое кодирует сущности, действия и отношения, не производя текст.

Поскольку JEPA работает в семантическом пространстве, а не в пространстве токенов, он избегает самой дорогой части вывода в стиле LLM. Авто-регрессионные модели должны: - Выполнять прямой проход для каждого токена - Поддерживать и обновлять длинное окно контекста - Повторно выбирать из большой распределенной выборки словарного запаса

JEPA выполняет один прямой проход, чтобы получить стабильное встраивание, и останавливается. Преобразование этого встраивания в подпись, ответ или команду становится легким этапом декодирования вместо основного события. Прототипы VL-JEPA от Meta уже демонстрируют использование примерно вдвое меньшего числа параметров по сравнению с сопоставимыми генеративными стековыми моделями "визуальный-язык", при этом соответствуя им или превосходя их в тестах.

Безмолвное внутреннее состояние также позволяет осуществлять непрерывное понимание без постоянного трепа. Система VL‑JEPA может наблюдать за видео потоком, уточнять свой вектор смысла на протяжении сотен кадров и подавать языковую реакцию только по запросу или когда внешняя система нуждается в символическом описании. Мысли происходят непрерывно; разговор становится побочным эффектом.

За пределами токенов: Рассуждения в 'пространстве значений'

Языковые модели, такие как GPT, существуют и исчезают в зависимости от токенов. Они разбивают мир на дискретные части слов, а затем обрабатывают их слева направо, предсказывая следующий фрагмент текста. Визуальные дополнения для крупных языковых моделей обычно просто добавляют классификатор, который преобразует каждый кадр в подпись, а затем возвращает эти метки текстовому движку.

JEPA переворачивает эту модель. Модель Meta VLJ усваивает сырое видео и создает плотное внутреннее представление — вектор внедрения — который отслеживает происходящее с течением времени. Вместо того чтобы комментировать каждый кадр, она поддерживает тихий, непрерывный вектор значений, который превращается в слова только по вашему запросу.

Это встраивание ведет себя как «пространство смыслов», а не как поток токенов. Каждая точка в этом пространстве кодирует объекты, действия и контекст на протяжении нескольких кадров: рука, контейнер, движение, намерение. Когда система в конце концов выдает «поднимая контейнер», она суммирует траекторию через это пространство, а не собирает наугад описание слово за словом.

Исследователи Meta утверждают, что это обеспечивает значительную эффективность. Поскольку VLJ предсказывает в сжатом латентном пространстве, а не генерирует пиксели или токены, сообщается, что он использует примерно вдвое меньше параметров, чем сопоставимые трансформеры для обработки языка и изображений, при этом достигая или превышая их результаты по стандартным тестам. Меньше параметров означает меньшее давление на память, более быструю обработку и лучшее масштабирование на крайних устройствах, таких как гарнитуры или роботы.

Сравните это с типичной архитектурой зрения большой языковой модели (LLM). Стандартный визуальный кодировщик анализирует каждый кадр, выделяет метку — «бутылка», «рука», «стол» — и почти мгновенно забывает все между шагами. Здесь нет устойчивого семантического состояния, только поток подписи, который языковая модель пытается связать в историю задним числом.

Мировая модель JEPA работает наоборот: сначала устойчивая осведомленность, затем язык. Статья VLJ: Vision-Language-Jeopardy (временный вход arXiv) описывает систему, которая поддерживает внутренний фильм значений на фоне, а затем выводит его в виде текста только тогда, когда человеку необходимо предложение.

Почему Лекун считает, что большие языковые модели достигли стенки?

Ян ЛеКун на протяжении многих лет подчеркивает одну и ту же мысль: интеллект заключается в создании внутренней модели мира, а не в том, чтобы звучать умно на английском. С его точки зрения, язык служит удобным «I/O протоколом» для людей, как HDMI для мониторов. Полезно, да, но это не то, где живет настоящее понимание.

Эта философия ставит его в явное противоречие с гонкой вооружений в области LLM. Системы в стиле GPT обучаются почти исключительно на тексте, собранном из интернета, а затем генерируют новый текст токен за токеном. ЛеКун утверждает, что такая установка путает красноречие с пониманием и загоняет исследования в тупиковую архитектуру.

Он называет основную проблему «безосновательным» обучением. Текст сам по себе никогда не затрагивает трение, гравитацию, окклюзию или причинность; он только отражает, как люди говорят об этих вещах. Обучая только на словах, говорит он, вы получаете модель культуры, а не модель реальности.

Критика ЛеКуна проявляется в его любимом сравнении: подросток учится водить машину за примерно 20 часов практики, однако после более чем десяти лет, миллиардов долларов и миллионов пройденных миль у нас по-прежнему нет надежных беспилотных автомобилей уровня 5. Для него этот разрыв не является всего лишь инженерной отставанием; это доказательство того, что текущие данные и архитектуры в корне не соответствуют тому, как люди приобретают компетенции.

Люди учатся на основе непрерывных, запутанных сенсорных потоков — зрении, звуке, проприоцепции — и лишь позже прикрепляют слова. Большие языковые модели (LLM) инвертируют этот процесс, начиная с подписей, руководств и постов на форумах. ЛеКун утверждает, что эта инверсия заставляет модели имитировать физику и общепринятую логику на основе статистических закономерностей в тексте, что даёт сбой в крайнем случае, в робототехнике и в управлении в реальном времени.

JEPA — это его спасательный круг из этой стены. Системы предсказательной архитектуры совместного встраивания обучаются, предсказывая отсутствующие или будущие части сцены в латентном "смысле", особенно на основе видео. Вместо вывода пикселей или токенов они предсказывают, как внутренние представления должны эволюционировать, если мир подчиняется определённым физическим и причинным законам.

Мировые модели, созданные таким образом, могут, в принципе, усваивать динамику, такую как «если кружка наклоняется, жидкость проливается», не читая при этом слово «пролиться». Подайте моделям JEPA видео в большом объеме — съемки вождения, манипуляции в домашних условиях, работу роботов на складе — и они напрямую усваивают закономерности движения, контакта и последствий.

Лекун оценивает VL-JEPA и его преемников как путь вокруг плато LLM. Текст становится опционной интерфейсной частью, прикрепленной к основополагающей модели мира, а не фундаментом интеллекта.

Архитектура истинного понимания

Иллюстрация: Архитектура истинного понимания
Иллюстрация: Архитектура истинного понимания

Забудьте о болтливых ботах; новая модель Meta начинается с необработанного видео. Визуальный кодировщик принимает поток кадров и сжимает их в плотные векторы, своего рода внутренний фильм о том, что происходит. Без подписей, без меток, только компактные представления движения, объектов и контекста.

Эти векторы поступают в сеть предсказания, которая функционирует как "мозг" модели. Её задача: учитывая некоторые части видео, представить недостающие фрагменты внутри этого скрытого пространства. Вместо того чтобы заполнять отсутствующие пиксели, она пытается заполнить недостающий смысл — каким должно быть внутреннее представление невидимого клипа, если система действительно понимает сцену.

С другой стороны сидит целевая кодировка. Она обрабатывает фактический удерживаемый видеосегмент в свое собственное скрытое представление. Обучение становится простой, но жестокой игрой: вектор, представляющий предсказатель, должен максимально точно соответствовать реальному вектору целевой кодировки на протяжении миллионов эпизодов маскирования и предсказания.

Такая настройка заставляет V-JEPA изучать абстрактную структуру, а не поверхностные паттерны. Чтобы добиться успеха, модели необходимо усвоить такие понятия, как "постоянство объектов", "закрытие" и "причина и следствие", так как именно они позволяют сделать вывод о скрытом будущем кадре на основе предыдущего. Нельзя просто запоминать текстуры, когда половина действия отсутствует.

Упрощённая схема видео помогает прояснить это. Представьте три коробки в ряд: «Входное Видео» → «Мозг» → «Облако Понимания». Первая коробка - визуальный кодировщик, вторая - предсказатель, а облако - это развивающаяся карта значений, где близкие точки соответствуют схожим событиям, таким как «рука тянется» или «объект схвачен».

Тренировка похожа на многократное стирание частей этого облака и просьбу к «мозговой коробке» восстановить их. Иногда она видит только предыдущие кадры и должна угадать, что будет дальше; в другие разы она видит края замаскированной области и должна сделать вывод о том, что происходит в середине. Каждый успех укрепляет связь между контекстом и следствием.

Со временем это давление формирует модель мира, которая отслеживает непрерывные события вместо изолированных мгновений. Язык может позднее обращаться к этим латентным векторам, но понимание находится под поверхностью, в геометрии этого пространства значений.

Настоящая награда: ИИ для физического мира

Роботы не думают предложениями. Складской манипулятор, решающий, как захватить коробку, или домашний робот, пытающийся открыть холодильник, нуждаются в непрерывной, нелингвистической модели мира: где находятся объекты, как они движутся, что произойдет, если он толкнет, потянет или подождет половину секунды.

Большие языковые модели, даже многомодальные, накладывают язык на восприятие. Они видят кадр, генерируют подпись, затем другую подпись для следующего кадра. Эта пословная наррация тратит вычислительные ресурсы и, что более важно, разбивает время на несвязанные кадры, которые становятся бесполезными, когда захватчик должен приземлиться на движущуюся контейнер.

V-JEPA переворачивает это с ног на голову. Видео поступает в визуальный кодировщик, который передает данные предсказателю, задача которого заключается в прогнозировании будущих латентных состояний, а не будущих слов. Система поддерживает молчаливый, высокоразмерный "вектор значения", который плавно эволюционирует по мере развития сцены и активирует язык только тогда, когда это требуется для последующей задачи.

Дешевые модели восприятия рассматривают каждый кадр как отдельную задачу. Они маркируют одно изображение как "рука", следующее — как "бутылка", затем — как "поднимающаяся канистра", и снова возвращаются к "руке", производя скачкообразные, противоречивые результаты без памяти. V-JEPA же отслеживает стабильное темпоральное представление "рука приближается, схватывает и поднимает канистру", и выдает один уверенный ярлык, как только паттерн действия фиксируется.

Эта временная стабильность возникает благодаря предсказательной цели JEPA. Модель обучается предсказывать векторное представление замаскированных или будущих частей видео, что заставляет её кодировать не только то, что видно сейчас, но и то, что, вероятно, произойдет в следующую очередь. Причинно-следственные связи во времени становятся частью геометрии её латентного пространства.

Для робототехники эта разница имеет экзистенциальное значение. Робот, который только распознает «бутылка, бутылка, бутылка», не может решить, когда закрыть свой захват; робот, который внутренне моделирует «эта траектория заканчивается успешным захватом», может синхронизировать свое движение, восстанавливаться после соскальзываний и планировать многоступенчатое поведение. Планирование, управление и навигация все зависят от такого рода предсказательной модели.

Meta позиционирует системы на основе JEPA как основную платформу для воплощенных агентов, носимых устройств и AR-устройств, и начала публиковать технические детали через Meta AI Research. Если Лекун прав, то эти тихие, предсказательные модели мира — а не болтливые LLM — станут двигателем следующего поколения физического ИИ.

Проверка V-JEPA

Бенчмарки — это место, где V-JEPA от Meta перестает звучать как лекция по философии и начинает выглядеть как задача для современных моделей языкового зрения. В видео модель демонстрирует передовые результаты в классификации видео без обучения на примерах, обгоняя более крупные и сложные базовые модели, которые полагаются на полнофункциональные декодеры текста. Это происходит при условии работы исключительно в том «пространстве значений», о котором всё время говорит Лекун, а не за счёт угадывания следующего слова.

Данные Meta показывают, что V-JEPA соответствует или превосходит популярные модели, работающие с визуальными и языковыми данными, в распознавании действий и временном понимании, даже когда они получают доступ к размеченным примерам. На нулевых сплитах — где модели никогда не видят размеченные обучающие клипы из целевого набора данных — V-JEPA все равно более точно определяет действия и сцены, что свидетельствует о том, что его внутренние представления действительно обобщаются на разные домены.

Эффективность — это еще одна важная тема. V-JEPA использует примерно вдвое меньше обучаемых параметров по сравнению с сопоставимыми системами "визуальный язык", поскольку он пропускает тяжелый автогрессивный текстовый декодер во время обучения. Отсутствие гигантского языкового блока, обрабатывающего токены, означает меньшее потребление памяти, меньше FLOPs и более быстрое обновление, в то время как компактный латентный предсказатель выполняет настоящую интеллектуальную работу.

«Нулевой подход» здесь означает, что модель получает только пространство меток на естественном языке — например, «наливание воды», «открытие двери», «нарезка овощей» — и должна классифицировать новые видео, не видя ни одного размеченного примера из этого набора данных. Сильное выполнение без обучения подразумевает, что пространство встраивания модели уже кодирует такие концепции, как движение, намерение и взаимодействие объектов таким образом, который позволяет переносить эти знания. Это стресс-тест обобщённого понимания, а не просто запоминания.

Критики на Reddit уже отметили, что предсказания V-JEPA иногда бывают неточными, особенно в нечетких рамках или странных крайних случаях. Эта жалоба случайно подчеркивает суть: это ранняя исследовательская система, а не отлаженный продукт, и тот факт, что она может явно давать сбои при сложных временных предсказаниях, показывает, что Meta наконец-то пытается решить правильную, сложную проблему, а не просто увеличивать количество токенов.

Развилка на пути будущего ИИ

Иллюстрация: Развилка в пути будущего ИИ
Иллюстрация: Развилка в пути будущего ИИ

Тихий, но очень реальный поворот в стратегии ИИ открывается, и JEPA находится прямо на этом распутье. С одной стороны, такие компании, как OpenAI и Google, делают акцент на центральных системах LLM, генеративных системах, которые рассматривают всё — код, изображения, видео, даже планы действий — как последовательности токенов для предсказания. С другой стороны, Ян Лекун и лаборатория FAIR компании Meta продвигают Архитектуры совместного встраивания для предсказаний, которым не нужно говорить, чтобы мыслить.

Первый путь выглядит знакомо: продолжать масштабировать модели в стиле GPT-4 в многомодальные гиганты. GPT-4o от OpenAI, Gemini 1.5 от Google и Claude 3 от Anthropic следуют одному и тому же рецепту: массивные трансформерные основы, триллионы токенов из веба и проприетарных данных, а также автогрессирующий цикл, который предсказывает следующий символ, будь то слово, токен пикселя или фрагмент аудио.

JEPA представляет собой резкий поворот от этого. Вместо генерации пикселей или слов V-JEPA и VL-JEPA учатся предсказывать латентные представления будущего или отсутствующего контента — то, что модель считает, что произойдет дальше в видео, или к какому понятию принадлежит область. Язык становится тонким слоем поверх модели мира, а не основным субстратом интеллекта.

Этот разрыв приводит к двум целям оптимизации. Лаборатории, ориентирующиеся на LLM, оптимизируют для чат-интерфейсов, помощников по кодированию, поиска и инструментов продуктивности, где естественный язык остается основным вводом и выводом. Исследования, ориентирующиеся на JEPA, оптимизируют для роботов, AR-очков и автономных агентов, которым необходимо отслеживать объекты, намерения и причинно-следственные связи с течением времени, не описывая каждый микшаг.

На пути к большим языковым моделям прогресс достигается за счет масштабирования и согласования. Более крупные контекстные окна (до 2 миллионов токенов), более разнообразное использование инструментов и генерирование с поддержкой поиска погружают модели глубже в такие рабочие процессы, как разработка программного обеспечения, юридическое оформление и поддержка клиентов. Критерием является то, насколько последовательными, безопасными и полезными выглядят созданные текст и код для человека.

На пути JEPA прогресс достигается благодаря более совершенным предсказательным мировым моделям. Эталоны переходят к нулевому распознаванию действий, временной локализации и последующему управлению: может ли система предугадать движение руки к контейнеру или спланировать последовательность захватов и толчков для роботизированной руки, используя компактное внутреннее состояние вместо многословных подсказок?

Обе траектории, вероятно, будут сосуществовать, но они тянут центр тяжести отрасли в противоположные стороны. Либо язык остается универсальным API для интеллекта, либо он становится просто одним из дополнительных интерфейсов поверх молчаливых, высокоструктурированных моделей, которые в основном понимают и действуют в физическом мире.

Гамбит ЛеКуна: Новое начинание для нового ИИ

Слухи о следующем шаге Яна Лекуна внезапно выглядят не как сплетни, а скорее как стратегия. Несколько источников сообщают, что главный научный сотрудник по ИИ компании Meta запускает новый стартап, при этом Meta, вероятно, будет выступать в качестве основного партнера и инвестора, а не работодателя, предоставляя ему отдельный инструмент для создания того типа ИИ, который он описывал в своих выступлениях и статьях на протяжении десяти лет.

Лекун на протяжении многих лет жалуется, что исследования в области передового ИИ движутся по десятилетним временным рамкам, в то время как Большие Технологии достигают результатов ежеквартально. Отдельный проект позволяет ему заниматься мировыми моделями в стиле JEPA и обучением на длительных горизонтах, не требуя оправданий для каждого эксперимента в контексте вовлеченности в Reels или таргетинга рекламы.

Его заявленная цель не «Искусственный общий интеллект» в смысле OpenAI или Anthropic, а Продвинутая Машинная Интеллект (PMI). В определении ЛеКуна, PMI означает системы, которые могут: - Создавать предсказательные модели мира из сырых сенсорных данных - Размышлять и планировать на длительные сроки - Сохранять постоянную, основанную на реальности память о реальном мире

AMI, в этом видении, живет в роботах, AR-очках, транспортных средствах и домашних устройствах прежде, чем она появляется в чат-ботах. Ей необходимо отслеживать объекты, намерения и физику со временем, а не просто автозаполнять предложения. Именно в этом режиме модели типа JEPA и V-JEPA, которые предсказывают в латентном «пространстве значений», а не в пространстве токенов, заявляют о структурном преимущество.

Последние работы Meta по V-JEPA и VL-JEPA уже демонстрируют, что негенеративные модели превосходят или сопоставимы с более крупными генеративными конкурентами в нуля-шотной видео классификации и временном понимании, имея при этом всего около половины параметров. Для основателя эти цифры превращаются в простую гипотезу: ориентированная на мировую модель AMI масштабируется лучше, чем все большие LLM, которые создают галлюцинации и испытывают трудности с причинно-следственными связями.

Таким образом, стартап Лекуна выглядит как чистая, высокорискованная ставка на то, что JEPA превзойдёт современные стековые трансформеры LLM. Если OpenAI и Google будут настаивать на массовых авторегрессивных моделях, его команда будет продвигать тихие, предсказательные системы, которые говорят только когда их спрашивают, но думают постоянно.

Тем, кто следит за этим разделением, стоит прочитать Отчет AI Index 2025 – Stanford HAI, который уже указывает на сдвиг от чисто языковых критериев к многомодальным, воплощенным и агентским оценкам. Если эти метрики станут важнейшим показателем, то игровой ход ЛеКуна перестанет быть контрарным и начнет выглядеть как главное событие.

Это действительно эпоха «после LLM»?

После появления крупных языковых моделей (LLM) ситуация кажется апокалиптической, но реальность скорее напоминает сосуществование, чем вымирание. Крупные языковые модели уже работают внутри поисковых систем, офисных программ, редакторов кода и систем клиентского обслуживания, а их экономика улучшается с каждым новым графическим процессором, выпущенным компанией Nvidia. Компании вложили десятки миллиарда в инфраструктуру LLM, и только этот импульс гарантирует, что они будут доминировать на коммерческих интерфейсах ИИ в течение многих лет.

Системы в стиле JEPA нацелены на другой уровень стека. LLM превосходно справляются с компрессией интернета в виде автозаполнения с улучшенной функциональностью, но им трудно решать задачи, требующие основательного восприятия, долгосрочного прогнозирования или точного контроля тел в пространстве. Робот, который должен решить, куда поставить ногу на неровной поверхности, не может ждать 200-токенного эссе о своих вариантах.

После LLM, в лексиконе ЛеКуна, описывается научная граница, а не полка с продуктами. Граница смещается от "предсказать следующий токен" к "предсказать следующее состояние мира" в области изображений, видео, аудио и сенсорных потоков. Язык становится каналом для запросов и отчетов, а не субстратом мысли.

Модели JEPA, такие как V-JEPA и ее языковые аналоги, пытаются изучать компактные "векторы смысла", которые развиваются со временем. Вместо того чтобы генерировать слова на каждом временном шаге, они поддерживают скрытое внутреннее состояние, которое обновляется по мере поступления новых кадров, а затем раскрывают это состояние по запросу: "Что происходит?" или "Что мне делать дальше?" Такой подход соответствует контролирующим системам в робототехнике, AR-очках, автомобилях и заводских системах.

В коммерческом плане можно представить стек, где: - Ядро, аналогичное JEPA, отслеживает окружающую среду и предсказывает будущие состояния - Модуль планирования выбирает действия в этом скрытом пространстве - Большая языковая модель объясняет эти действия людям на естественном языке

Это мир после LLM: не без LLM, а с декентрализованным LLM.

Если Лекун прав, исторический поворот не связан с увеличением моделей, а с другими мыслительными примитивами. Замена генерации токен за токеном на непрерывное предсказание в обученном семантическом пространстве может открыть новые возможности — динамичные роботы, устойчивые агенты, ассистенты в реальном времени, которые системы в стиле GPT, увеличенные еще в 10 раз, все равно не смогут предоставить.

Часто задаваемые вопросы

Что такое архитектура JEPA AI?

JEPA, или Совместная Архитектура Прогнозирования Встраиваний, — это тип ИИ модели, разработанный Яном Лекуном из Meta. Вместо того чтобы предсказывать следующее слово в предложении, она обучается внутренней модели мира, предсказывая отсутствующую или будущую информацию в сжатом, абстрактном 'пространстве значений'.

Как JEPA отличается от LLM, такого как ChatGPT?

LLM — это генеративные модели, которые создают текст по токенам. JEPA в своей основе не является генеративным; он сначала формирует внутреннее понимание, а язык генерирует только как дополнительный выходной результат. Это делает его потенциально более эффективным и лучше подходящим для задач, требующих привязки к реальному миру, таких как робототехника.

Заменят ли модели JEPA модели LLM?

Не обязательно заменять, но они нацелены на разные проблемы. Пока LLM показывают лучшие результаты в задачах, связанных с языком, JEPA стремится решить проблемы взаимодействия с физическим миром и планирования. ЛеКун считает, что такой подход к «модели мира» — это путь к более продвинутому ИИ, что потенциально может сделать текущие LLM устаревшими для многих будущих приложений.

Почему Ян Лекун критически относится к сегодняшним большим языковым моделям?

Лекан утверждает, что интеллект заключается в понимании мира, а не просто в манипуляции языком. Он считает, что обучение моделей только на текстах является фундаментальным ограничением, так как они лишены глубокого причинного понимания реальности, которое приходит из сенсорных данных, таких как видео, на которых и основан JEPA.

Frequently Asked Questions

Почему Лекун считает, что большие языковые модели достигли стенки?
Ян ЛеКун на протяжении многих лет подчеркивает одну и ту же мысль: интеллект заключается в создании внутренней модели мира, а не в том, чтобы звучать умно на английском. С его точки зрения, язык служит удобным «I/O протоколом» для людей, как HDMI для мониторов. Полезно, да, но это не то, где живет настоящее понимание.
Это действительно эпоха «после LLM»?
После появления крупных языковых моделей ситуация кажется апокалиптической, но реальность скорее напоминает сосуществование, чем вымирание. Крупные языковые модели уже работают внутри поисковых систем, офисных программ, редакторов кода и систем клиентского обслуживания, а их экономика улучшается с каждым новым графическим процессором, выпущенным компанией Nvidia. Компании вложили десятки миллиарда в инфраструктуру LLM, и только этот импульс гарантирует, что они будут доминировать на коммерческих интерфейсах ИИ в течение многих лет.
Что такое архитектура JEPA AI?
JEPA, или Совместная Архитектура Прогнозирования Встраиваний, — это тип ИИ модели, разработанный Яном Лекуном из Meta. Вместо того чтобы предсказывать следующее слово в предложении, она обучается внутренней модели мира, предсказывая отсутствующую или будущую информацию в сжатом, абстрактном 'пространстве значений'.
Как JEPA отличается от LLM, такого как ChatGPT?
LLM — это генеративные модели, которые создают текст по токенам. JEPA в своей основе не является генеративным; он сначала формирует внутреннее понимание, а язык генерирует только как дополнительный выходной результат. Это делает его потенциально более эффективным и лучше подходящим для задач, требующих привязки к реальному миру, таких как робототехника.
Заменят ли модели JEPA модели LLM?
Не обязательно заменять, но они нацелены на разные проблемы. Пока LLM показывают лучшие результаты в задачах, связанных с языком, JEPA стремится решить проблемы взаимодействия с физическим миром и планирования. ЛеКун считает, что такой подход к «модели мира» — это путь к более продвинутому ИИ, что потенциально может сделать текущие LLM устаревшими для многих будущих приложений.
Почему Ян Лекун критически относится к сегодняшним большим языковым моделям?
Лекан утверждает, что интеллект заключается в понимании мира, а не просто в манипуляции языком. Он считает, что обучение моделей только на текстах является фундаментальным ограничением, так как они лишены глубокого причинного понимания реальности, которое приходит из сенсорных данных, таких как видео, на которых и основан JEPA.
🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts