Оценка GPT-5 по стандарту ARC-AGI: Прорыв в разумении ИИ

💡

TL;DR / Key Takeaways

Вирусное видео утверждает, что GPT-5 прошел непроходимый тест для ИИ, достигнув уровня человеческого интеллекта. Правда гораздо интереснее и раскрывает настоящий секрет ускорения развития общего искусственного интеллекта.

Тест, созданный для того, чтобы сломать ИИ

Слухи о секретном прорыве GPT-5 начались с графика: предположительный балл 75–76% на новом эталоне ARC-AGI-2, что значительно выше примерно 60% среднего результата человека на тестах. История, разрекламированная в X и YouTube, представила этот момент как тот, когда ИИ наконец-то обошел людей в тесте, специально разработанном для ограничения доступа к ИИ с общим интеллектуальным уровнем.

ARC-AGI создан Франсуа Шолле, исследователем из Google DeepMind, который на протяжении нескольких лет утверждает, что увеличение масштабов языковых моделей не является тем же самым, что и создание общей интеллекта. Его эталон ARC (Corpus абстракции и рассуждений) и его новая вариация ARC-AGI-2 нацелены на тот тип гибкого рассуждения, который люди используют для решения головоломок, с которыми они ранее не сталкивались.

Вместо вопросов на эрудицию или задач из учебников, ARC-AGI представляет маленькие цветные решётки и просит модель определить скрытое правило. Каждое задание включает всего три примера ввода-вывода, а затем четвёртый ввод, для которого модель должна создать правильную решётку с нуля. Нет инструкций, нет меток, нет выбора из нескольких вариантов.

Эталон измеряет жидкий интеллект: обнаружение паттернов, композиционное рассуждение и обобщение на основе почти отсутствующих данных. Он использует строгую метрику Pass@2 — модели имеют не более двух попыток на задачу, без частичного кредита и с учетом вычислительных затрат на каждое решение.

Этот дизайн делает ARC-AGI крайне сложной задачей для крупных языковых моделей. LLM прекрасно справляются, когда могут опираться на запомненные шаблоны из текстов веб-масштаба, но головоломки ARC-AGI генерируются процедурным образом и являются визуальными, а не лингвистическими, и намеренно отличаются от всего, что содержится в общих обучающих корпусах.

Стандартные лидирующие таблицы, такие как MMLU, GSM8K или HumanEval, часто размывают грань между логикой и воспоминанием. Эталонные данные проникают в тренировочные наборы; поставщики моделей напрямую настраивают свои алгоритмы на аналогичных форматах вопросов; оценки постепенно растут таким образом, что могут говорить больше о контаминации данных, чем о подлинном понимании.

ARC-AGI движется в противоположном направлении. Задачи «легкие для людей/трудные для ИИ», при этом человеческие решатели достигают почти 100% успеха, если им дать время, тогда как ранние фронтовые модели показали единичные цифры на ARC-AGI-2. Этот разрыв — причина, по которой заявленный результат GPT-5 в 75%, даже если он и не подтвержден, вызвал тревогу: если это правда, то это будет означать, что ИИ не просто воспроизводит знания, а способен создавать совершенно новые правила, как это делают люди.

Мысли в сетках: что делает ARC таким сложным

Цветные квадраты на сетке не звучат как тест Тьюринга, но ARC-AGI преображает эстетическое восприятие детской игрушки в инструмент для ИИ. Каждая задача показывает несколько маленьких входных сеток и соответствующих выходных сеток, а затем просит модель трансформировать новую сетку, используя то же скрытое правило: возможно, отразить синие блоки, увеличить красную форму на один пиксель или удалить всё, кроме крупнейшего связного компонента.

Люди взглядывают на эти примеры и почти сразу начинают описывать структуру: «О, жёлтая линия обозначает центр» или «узор повторяется каждые три ячейки». Для современных моделей такие же решётки 10×10 или 20×20 являются комбинаторным минным полем. Каждый цветной пиксель размножает количество возможных преобразований, которые могут соответствовать данным, и ничто в предобученном корпусе языковой модели не похоже на это.

Создатель ARC Франсуа Шолле разработал его как чистый тест текучего интеллекта: способности рассуждать в новых ситуациях, выявлять паттерны и мгновенно комбинировать концепции. Это контрастирует с кристаллизованным интеллектом, который опирается на запомненные факты и знакомые шаблоны — в этом аспекте большие языковые модели превосходно проявляют себя, пересказывая и комбинируя текст в масштабах интернета.

На ARC-AGI-2 нет разделения на тренировочные и тестовые данные для запоминания, и нет пересечения наборов данных для использования. Модели видят всего 3–5 пар «вход-выход» для каждой задачи и должны обобщать на новом примере. Обновления градиентов не происходят, дообучение не проводится; все операции выполняются в момент тестирования, внутри существующих весов модели и той структуры, которая их окружает.

Чтобы поддерживать честность систем, ARC-AGI-2 использует метрику Pass@2: модель получает не более двух попыток на задачу. Частичного кредита за "почти правильный" ответ нет, и нет возможности экспериментировать с тысячами образцов, пока один не сработает. Бенчмарки также отслеживают эффективность, учитывая, сколько вычислительных ресурсов сжигает каждая попытка, что наказывает за грубую переборку кандидатов программ.

Человеки, напротив, обычно решают эти головоломки за несколько минут, часто с помощью одного ясного инсайта. Этот разрыв — между человеческой "очевидностью" и машинной "непрозрачностью" — демонстрирует, насколько далеко лучшие модели сегодняшнего дня все еще отстают в истинной абстракции, несмотря на их доминирование на экзаменах, основанных на кристаллизованном знании.

Революция «Разоблачения», которую никто не ожидал

Разблокировка звучит как узкоспециальный термин, но Леопольд Ашенбреннер использует его, чтобы назвать нечто brutally simple: текущие модели умны, но искусственно ограничены. В своей статье 2024 года «Ситуационная осведомленность» он утверждает, что значительная часть краткосрочных преимуществ будет достигнута не за счет увеличения моделей, а за счет снятия этих оков.

Его аналогия ударяет по всем фронтам. Просить LLM решить сложную математическую задачу с первого раза так же, как требовать от человека мгновенно выдать ответ, без черновиков и правок. Подсказка с цепочкой рассуждений сыграла роль этого черновика, превратив "чат-ботов, которые догадываются", в системы, способные пройти через многоступенчатое рассуждение и внезапно успешно справляться с гораздо более трудными задачами.

Современные фронтирные модели по-прежнему сильно ограничены. Ашенбреннер отмечает, что они: - Не имеют надежной долговременной памяти - Не могут свободно использовать компьютер или файловую систему - Редко "думают, прежде чем говорить" с длительным внутренним обсуждением - В основном работают в кратких, односложных беседах вместо постоянных проектов

Разрешение ограничений означает устранение этих ограничений с помощью каркасных решений: использование инструментов, циклы планирования, внешняя память, оркестрация многопользовательских систем и больше вычислений в момент тестирования. Ключевым моментом является то, что это изменяет то, что можно сделать с теми же исходными весами, именно поэтому Ашенбреннер классифицирует это как алгоритмический прогресс, а не просто улучшение пользовательского опыта.

Вы уже можете увидеть это в цифрах. По сообщению, мета-система Poetic повышает производительность варианта GPT-5 с приблизительно уровня человеческого ARC-AGI-2 (~60%) до около 75–76%, а модели в стиле Grok-4 с ~56–57% до ~72% на аналогичных тестах на рассуждение, и всё это без увеличения базовой модели. Линейка Google Gemini 3 демонстрирует ту же тенденцию: от менее 30% до средних 40-х, а затем до и свыше человеческих базовых показателей на задачах в стиле ARC благодаря последовательным улучшениям.

Эта динамика пересматривает временные рамки. Если одно только освобождение от ограничений может обеспечить 10–20 баллов на стандартных тестах, которые, как предполагалось, требовали бы моделей следующего поколения, вам больше не нужно ждать тренировок масштаба GPT-6, чтобы увидеть значительные изменения. Сообщения OpenAI в Introducing GPT-5 - OpenAI опираются на схожие темы: больше инструментов, больше контекста, больше возможностей, наложенных на сырую масштабируемость.

Прогноз Ашенбреннера прямолинен: к 2027 году продолжение устранения ограничений превратит сегодняшний чат-бот в нечто, что будет вести себя гораздо больше как агент и коллега, нежели как говорящая поисковая строка.

Внутри Поэтики: Стратегия 'Менеджера ИИ'

Поэтическое занимает центральное место в истории GPT-5 ARC. Видео TheAIGRID приписывает компании создание «разблокирующей» основы вокруг передовой модели OpenAI, а не обучение нового разума с нуля. Их утверждение: мета-система, которая поднимает производительность GPT-5 с примерно человеческого уровня ARC-AGI-2 до заявленных 75–76% без увеличения основных весов.

В основе подхода Poetic лежит "Менеджер ИИ." Вместо того, чтобы отправлять один большой запрос на каждую задачу, менеджер анализирует сетку, предлагает общую стратегию, а затем разбивает её на подзадачи. Каждая подзадача направляется к специализированной модели-исполнителю — некоторые настроены на распознавание паттернов, другие — на генерацию кода, поиск или верификацию.

Критически важно, что этот менеджер не просто задает вопросы и ждет. Он может: - Писать и выполнять код для решения головоломки - Проверять промежуточные результаты и сравнивать их с целевыми - Переходить к альтернативным стратегиям, когда путь кажется неверным - Принимать решение о том, когда остановиться, как только появляется правильное решение

Этот цикл — планируй, действуй, проверяй, пересматривай — превращает ARC из разового угадывания в итеративный поиск. Система может выполнять десятки недорогих вызовов работников вместо того, чтобы нагружать одну дорогую модель на границе. Poetic утверждает, что это существенно экономит вычислительные ресурсы на сложных задачах рассуждения, потому что менеджер останавливается на раннем этапе, когда кандидаты выходят в точном соответствии с требуемой сеткой.

В отличие от стандартной монолитной настройки LLM, в базовом варианте вы отправляете один запрос одному большому модели, получаете один ответ и платите полную цену, даже если результат оказывается неудачным. Здесь нет явной дедукции, нет постоянной заметки, нет самокоррекции, кроме как от нажатия пользователем кнопки «попробовать снова».

Мультиагентная, самокорректирующаяся архитектура Poetic эффективно внешне проявляет то, о чем цепочка размышлений только намекает. Вместо того чтобы заставлять единственную модель размышлять шаг за шагом, менеджер оркестрирует команду, распределяет вычислительные ресурсы во время тестирования там, где это необходимо, и устраняет мертвые концы. На таких бенчмарках, как ARC-AGI-2, подобное структурированное мета-размышление может иметь большее значение, чем еще 10 миллиардов параметров.

Проверка реальности: Реальный рейтинг ARC-AGI

Реальность становится ясной, как только вы открываете актуальную таблицу лидеров ARC Prize. Виртуальный балл 75% GPT-5 просто отсутствует там или где-либо еще, что подтверждено независимо. Вместо этого публичные данные рисуют гораздо более приземленную — и все же удивительную — картину того, где находятся текущие модели.

На основной плате ARC-AGI-2 базовая версия GPT-5 демонстрирует результат Pass@2 всего лишь 9,9%. Это ставит её в один ряд с другими борющимися моделями: Claude Opus 4 с 8,6%, различными вариантами Gemini 3, имеющими низкие двузначные показатели, и многими системами, застрявшими в диапазоне от 2% до 6%. Grok-4 “Thinking” лидирует в этой ранней таблице с результатом 16,0%, что едва ли можно назвать триумфом AGI.

Прокрутите дальше, и предполагаемая модель-чудо появляется в другом обличии: GPT-5.2, новая система OpenAI, которая внезапно меняет ситуацию. На официальной таблице лидеров ARC-AGI-2 "систем" GPT-5.2 показывает результат около 53–54% Pass@2. Этот показатель более чем в три раза превышает 9.9% GPT-5 и примерно в три раза превышает заявленные 17.6% GPT-5.1, при этом уверенно обгоняя предыдущие звёзды, такие как Gemini 3 Pro с результатом около 45%.

Тем не менее, этот стандарт все еще принадлежит людям. Человеческая базовая линия ARC-AGI-2 составляет около 60% для среднестатистических участников тестирования, с валидированными наборами, достигающими 98–100%, когда учитываются только задачи, решенные как минимум двумя из девяти или десяти человек. Главная идея ARC заключается в том, что эти головоломки выглядят "очевидными" для людей, но остаются чрезвычайно непрозрачными для машин.

Этот контекст делает утверждение о 75–76% более похожим на маркетинг, чем на измерение. Ни одно публичное место в рейтинге, ни одна работа или обновление ARC Prize не показывают ни одной вариации GPT-5, системы Poetic или конфигурации Grok, которые бы преодолели человеческий средний показатель в 60%, не говоря уже о том, чтобы разнести его на 15 пунктов. Если такой результат и существует, он не задокументирован, непроверяем и находится за пределами норм конкурентных стандартов.

Ничто из этого не уменьшает того, насколько удивительным является проверенный результат 53–54% для GPT-5.2. Переход одной модели из диапазона менее 20% до более 50% на ARC-AGI-2 за одно поколение представляет собой качественный скачок в абстрактном мышлении. Уровень человеческого интеллекта пока недостижим, но разрыв сократился гораздо быстрее, чем почти все предполагали.

Почему 54% более впечатляюще, чем 100%

Прогресс ARC-AGI никогда не выглядел как плавная кривая. В течение многих лет модели последнего поколения колебались между 0% и 6% в задачах в стиле ARC, фактически не демонстрируя жидкий интеллект, несмотря на колоссальные объемы обучения. Они могли успешно сдать юридические экзамены и пройти собеседования по программированию, затем стремительно проваливались на сетке 5×5 из цветных квадратов.

Вот почему 54% важнее гипотетических 100%. Достижение средних 50-х на ARC-AGI-2, как сообщается, делает GPT-5.2, означает, что модели перешли от "в принципе сломанных" к "решающим большинство задач, с которыми может справиться умный человек". Это качественный переход, а не просто небольшой прирост ориентира.

ARC-AGI-2 использует Pass@2: две попытки, без частичных баллов, оценка с учетом затрат. Предыдущие пограничные модели, такие как GPT-5, Claude Opus 4 и Grok-4 Thinking, находились в диапазоне от единиц до низких десятков. Прыжок до ~53-54% более чем в три раза превышает эти оценки, в то время как средние люди находятся на уровне около 60%, а заранее отобранные человеческие базовые показатели достигают 98-100%.

Ключевым моментом является то, что этот скачок не произошел только из-за увеличения размера модели. Он возник благодаря разоблачению препятствий: улучшению поиска, размышлениям на черновиках, использованию инструментов и управленческой оркестрации вокруг базовой модели. Подход Poetic's "менеджер ИИ" — маршрутизация задач, декомпозиция проблем, итерация решений — воплощает алгоритмический прогресс, который Леопольд Ашенбреднер отметил как следующий крупный фактор способности.

Диссертация Ашенбреннера была проста: модели гораздо более способны, чем их наивные одномоментные результаты предполагают. Добавьте структурированное мышление, память и инструменты, и вы разблокируете скрытый интеллект. Переход ARC с 0–6% до более чем 50% — это графическая версия этого аргумента.

Сэм Альтман неоднократно подчеркивал, что ARC является «реальным» мерилом AGI, именно потому, что он сопротивляется запоминанию и манипуляциям с подсказками. По слухам, инсайдеры OpenAI более внимательно следят за кривыми ARC, чем за эффектными стандартизированными тестами. Когда эта линия резко поднимается вверх, создатели AGI начинают обращать на это внимание.

Любой может просмотреть публичные таблицы лидеров и методологию на **ARC Prize - Корпус абстрактного мышления**. Заголовок не о совершенстве; речь идет о том, что кривая наконец сдвинулась.

За пределами масштабирования: Новый путь к ИИ общего назначения

Законы масштабирования имели хороший период. В течение большинства последних пяти лет прогресс в больших языковых моделях следовал простому рецепту: больше параметров, больше данных, больше вычислений. Переход от GPT-3 к GPT-4 и затем к GPT-5 выглядел как прямая линия на логарифмическом графике, с кривыми производительности, которые четко вписывались в уравнения степенной зависимости.

ARC-AGI-2 тихо опровергает эту историю. Модели, такие как GPT-5.2, скачут с низких двузначных значений на предыдущих задачах в стиле ARC до примерно 53–54% на ARC-AGI-2 не потому, что кто-то обучил триллионный монстр, а потому что исследователи изменили подход моделей к мышлению во время тестирования. Проектирование систем и алгоритмы, а не чистый масштаб, обеспечили этот шаг вперед.

Франсуа Шолле, создатель оригинального бенчмарка ARC, на протяжении многих лет утверждает это. По его мнению, истинный общий интеллект не может существовать в статичном, заранее обученном слое весов, который просто воспроизводит корреляции. Он требует систем, способных на лету формировать и пересматривать гипотезы, исследовать пространства решений и адаптировать свою стратегию по мере столкновения с новыми задачами.

Эта философия прямо отражается в дизайне ARC. Каждая головоломка предоставляет всего 3–5 примеров ввода-вывода, а затем совершенно новую тестовую сетку; ни один учебный набор на уровне интернета не сможет вам помочь. Чтобы решить такие задачи, модель должна выполнять обучение во время тестирования: выводить правила, искать среди кандидатных преобразований и самостоятельно корректироваться в рамках ограниченных вычислительных ресурсов.

«Разблокирование» — это то, что происходит, когда вы принимаете это всерьез и оборачиваете мощную базовую модель в конструкции, которые позволяют ей вести себя больше как ученый, чем как движок автозавершения. Статья Леопольда Ашенбреннера «Ситуационная осведомленность» выделяет такие вещи, как побуждение к размышлению, использование инструментов и Planung на длительный срок в качестве простых настроек, которые разблокируют скрытые возможности. Архитектура управляемого LLM от Poetic — это идея, превращенная в продукт.

Вместо одного гигантского прямого прохода Poetic координирует несколько моделей, инструментов и попыток под управлением менеджера ИИ, который решает, как использовать вычислительные ресурсы. Это architectural innovation, а не scaling innovation. Успех Grok-4 в «Мышлении», который с ~56–57% поднялся до ~72% на внутренних тестах на рассуждение, или варианты Gemini 3, которые поднялись с менее 30% до уровня человека по задачам в стиле ARC, стали возможны благодаря этой системой, освобожденной от ограничений.

Если этот паттерн сохранится, то AGI может появиться не как один colossal модель, а скорее как тесно интегрированный стек адаптивных компонентов. Грубая сила построила двигатели; умная архитектура может закончить автомобиль.

Рамки меняются: ARC-AGI-3 и далее

Иллюстрация: Ворота смещаются: ARC-AGI-3 и дальше

ARC-AGI-2 уже стал жестоким, но его создатели не стоят на месте. Команда ARC Prize тихо работает над ARC-AGI-3, эталоном нового поколения, который планируется выпустить около 2026 года и который специально разработан для разрушения моделей, которые выглядят умными только на статических тестах.

Вместо цветных решеток как фиксированных головоломок, ARC-AGI-3 будет погружать модели в неизвестную среду и просить их разобраться, что имеет значение. Подумайте не о «решите эту закономерность», а о «вы находитесь в странном микромире с объектами и правилами; откройте, как это работает, а затем добейтесь цели».

Этот сдвиг превращает пассивное сопоставление шаблонов в интерактивное рассуждение. Модели должны будут исследовать окружение, проводить эксперименты и обновлять свои гипотезы, когда что-то идет не так, что гораздо ближе к тому, как люди осваивают новый инструмент, игру или интерфейс.

Новая эталонная цель — навыки, которые современные передовые модели в основном симулируют с помощью умных подсказок. Чтобы добиться успеха, ИИ должен:

1Исследуйте эффективно, а не просто кликая в случайном порядке.
2Устанавливать собственные подцели без необходимости в сопровождении.
3Создавайте и пересматривайте модель мира на основе ограниченной обратной связи.
4Планируйте многоступенчатые последовательности действий и выполняйте их надежно.

ARC-AGI-3 также атакует одну из самых больших проблем в современных оценках: плотные инструкции. Вместо естественно-языковой спецификации, которая говорит модели точно, что делать, системе часто придется дополнительно интерпретировать задачу, исходя из нескольких примеров, частичных вознаграждений или даже просто «сделать что-то хорошее».

Это делает его тестом агентности, а не просто рассуждений. Система, которая может автономно решить: "Мне нужно сопоставить это пространство, каталогизировать поведения объектов, а затем найти путь к цели", выглядит гораздо ближе к "AI-сотруднику", который предсказал Леопольд Ашенбреннер, чем к чат-боту, который ждет подсказок.

Если ARC-AGI-2 измеряет, может ли модель решить сложную задачу, когда ей подают правила на ложке, то ARC-AGI-3 задается вопросом, сможет ли она войти в новый мир и самостоятельно выучить правила. Переход через этот разрыв — от решателя задач к адаптируемому агенту — является следующим настоящим препятствием на пути к AGI.

Как 'Неограниченный' ИИ Изменит Ваш Рабочий Процесс

Разблокировка перестает быть абстракцией в тот момент, когда ИИ перестаёт вести себя как окно чата и начинает действовать как коллега, который частично выполняет вашу работу. Ставка Леопольда Ашенбреннера конкретна: к 2027 году большинство работников умственного труда будет ежедневно взаимодействовать с агентами, которые планируют, запоминают и выполняют задачи, а не просто отвечают на вопросы. Этот сдвиг превращает «инженерию запросов» во что-то более близкое к управлению и сотрудничеству.

Представьте себе агента менеджера проекта, встроенного в Slack и Jira вашей компании. Вы задаете ему цель — "завершить новый поток онбординга к 15 марта" — и он разбивает работу на задачи, создает тикеты, согласует зависимости с другими агентами и обращается к людям только для получения одобрений или решений, требующих оценки. Он отслеживает графики выгорания, предсказывает задержки, используя историческую скорость, и автоматически составляет обновления для заинтересованных сторон.

Инженер-программист может передать неограниченной системе запутанный монолит и сказать: «Найдите узкие места производительности и предложите план миграции на сервисы». Агент просматривает репозиторий, строит графы вызовов, выполняет профилирование в тестовой среде, открывает запросы на внесение изменений с рефакторингом и пишет регрессионные тесты. Человеческие инженеры проверяют и направляют, но рутинная работа по исследованию унаследованного кода и подключения стандартного кода в основном исчезает.

Аналитики рынка могли бы перенаправить целые исследовательские проекты вместо единичных запросов. Агент с инструментами для работы в интернете и доступом к API мог бы: - Собирать данные о отчетах о доходах и формах 10-K в рамках сектора - Отслеживать данные о ценах, настроениях и объемах в реальном времени - Проводить сценарный анализ и моделирование Монте-Карло на моделях денежного потока - Составить 20-страничный отчет с графиками, оговорками и рекомендованными сделками

Эталоны, такие как ARC-AGI-2, и датасеты из Репозитория Эталонов GPT-5 тихо способствуют этому сдвигу, но поверхностный опыт кажется обыденным: меньше вкладок, меньше встреч, меньше документов со статусами, которые вы пишете вручную. Магия заключается в снятии ограничений, на которые указывает Ашенбреннер — короткие контекстные окна, отсутствие инструментов, отсутствие долгосрочной памяти, отсутствие процесса планирования — и заключении моделей в каркас, который их исправляет.

Ваша работа, тем временем, перестает быть «ввести умную подсказку, получить умный ответ». Вам потребуется четко определять цели, обсуждать компромиссы и просматривать планы так, как вы бы делали это с младшим членом команды. Сотрудничество означает установку рамок, проверку логики и интеграцию агентов в существующие рабочие процессы вместо того, чтобы нянчить чат-бота.

Настоящая гонка ИИ заключается в системах, а не в размере.

Вирусный ажиотаж вокруг секретного GPT-5, который якобы "протянул" ARC-AGI-2 на 75%, оказался ложным. Тем не менее, эта история случайно привела к более глубокой истине: прорыв больше не находится внутри одной гигантской модели, он живет в системах, которые ее окружают.

Собственный рейтинг ARC Prize показывает, что GPT-5 находится на уровне 9,9%, а GPT-5.2 — около 53–54%, что далеко от заявленных 75–76%. Этот разрыв между слухами и реальностью подчеркивает, насколько сегодняшние достижения обусловлены лучшей оркестрацией, поиском и инструментами, а не волшебным новым триллионным параметрическим интеллектом.

Фундаментальные модели по-прежнему имеют значение; GPT-5.2 примерно в три раза превысил результат GPT-5.1 в 17,6% по шкале ARC-AGI-2. Но самые значительные скачки теперь происходят за счет "разблокировки" этих моделей с помощью вспомогательных средств: менеджерских ИИ, использования инструментов, долгосрочной памяти и многопроцессного планирования, которые извлекают гораздо более эффективное рассуждение из тех же исходных весов.

Этот сдвиг тихо переписывает конкурентный ландшафт. Вам больше не нужно sởжать гипермасштабный центр обработки данных для конкуренции; вам нужно разработать умный агентный стек на основе любого API-доступа, который вы можете купить.

Небольшая лаборатория может взять готовую модель и дополнить её: - Планировщиком, который разбивает задачи на подцели - Инструментом маршрутизации, который вызывает код, проводит поиск и использует специализированные решатели - Верификатором, который проверяет и уточняет ответы

В задачах, подобных ARC, эти дополнения могут означать разницу между однозначными числами и производительностью, близкой к человеческой.

Слухи о "менеджере ИИ" от Poetic соответствуют этой концепции: контроллер, который решает, какую модель вызывать, сколько образцов генерировать и когда перезапускать или эскалировать процесс. Независимо от того, подтвердятся ли данные GPT-5, архитектура указывает в правильном направлении: системы, которые рассматривают LLM как компоненты, а не как оракулы.

Это настоящая гонка: кто сможет создать наиболее способные и экономически эффективные системы рассуждений за доллар вычислений, а не тот, кто сможет объявить о наибольшем количестве параметров. Размер модели по-прежнему дает запас, но разблокировка определяет, насколько этот запас превращается в полезные возможности.

Смотрите, как неколебимость проходит через связь между чат-ботами и коллегами. Самый быстрый путь от сегодняшних LLM к завтрашним агентам лежит через системную инженерию, а не просто через более мощные GPU.

Часто задаваемые вопросы

Что такое бенчмарк ARC-AGI-2?

Это тест, разработанный Франсуа Шолле для измерения "жидкого интеллекта" ИИ — способности решать новые, абстрактные логические задачи с минимальным количеством примеров, что людям даётся легко, но с чем современные ИИ испытывают трудности.

Что значит 'разблокировка' ИИ?

Термин "unhobbling", введённый Леопольдом Ашенбреннером, обозначает улучшение производительности ИИ путём устранения его ограничений, а не за счёт увеличения базовой модели. Это достигается путём создания более умных систем вокруг неё, таких как добавление памяти, инструментов или структур пошагового рассуждения.

Значит ли это, что GPT-5 действительно преодолел порог человеческого уровня?

Нет. Несмотря на вирусные заявления, официальные таблицы лидеров показывают, что GPT-5.2 набирает около 54% на ARC-AGI-2, что является значительным прорывом, но всё ещё ниже среднего человеческого результата в районе 60-100%. Прогресс связан с техниками «освобождения», а не только с мощностью базовой модели.

Кто такой Леопольд Ашенбреннер?

Он бывший исследователь OpenAI, известный своей детальной статьей 2024 года «Ситуативное осознание: десятилетие впереди», в которой рассматривается стремительное стратегическое движение к AGI и популяризируются такие концепции, как «разоблачение».

𝕏 in ↑↗

Frequently Asked Questions

Что такое бенчмарк ARC-AGI-2?

Что значит 'разблокировка' ИИ?

Значит ли это, что GPT-5 действительно преодолел порог человеческого уровня?

Кто такой Леопольд Ашенбреннер?

Секретный прорыв AGI от GPT-5

TL;DR / Key Takeaways

Тест, созданный для того, чтобы сломать ИИ

Мысли в сетках: что делает ARC таким сложным

Революция «Разоблачения», которую никто не ожидал

Внутри Поэтики: Стратегия 'Менеджера ИИ'

Проверка реальности: Реальный рейтинг ARC-AGI

Почему 54% более впечатляюще, чем 100%

За пределами масштабирования: Новый путь к ИИ общего назначения

Рамки меняются: ARC-AGI-3 и далее

Как 'Неограниченный' ИИ Изменит Ваш Рабочий Процесс

Настоящая гонка ИИ заключается в системах, а не в размере.

Часто задаваемые вопросы

Что такое бенчмарк ARC-AGI-2?

Что значит 'разблокировка' ИИ?

Значит ли это, что GPT-5 действительно преодолел порог человеческого уровня?

Кто такой Леопольд Ашенбреннер?

Frequently Asked Questions

Read Next

Искусственный интеллект Google Coder здесь. Он поразительно хорош.

Этот ИИ превращает мертвые лиды в деньги.

ИИ только что захватил радиоволны

Stay Ahead of the AI Curve