TL;DR / Key Takeaways
Здесь «Невозможные» демонстрации
Невозможные демонстрации появились на X в течение нескольких часов после запуска GPT-5.2 от OpenAI. Последний тест Флавио Адамо “прыгающие шары в гексагоне” теперь работает как гиперреалистическая 3D-симуляция: многогранная гексагональная арена, десятки сфер, сталкивающихся с правдоподобной инерцией, освещение, вспыхивающее при столкновении, и отсутствие ручной настройки после запроса. GPT-5.2 сгенерировал всю сцену WebGL — геометрию, шейдеры, физический цикл — за один проход.
Итан Моллик предложил другое направление: «Создайте визуально интересный шейдер, который может работать в twiggle.app. Пусть это будет бесконечный город неоготических башен, частично утопающих в бурном океане с большими волнами». GPT-5.2 ответил одним монолитным фрагментным шейдером, который отображает бесконечный город повторяющихся башен, с низким количеством полигонов, но целостный, находящийся в воде, разбушевавшейся от шторма, с правдоподобным движением волн и отражениями.
Эти клипы раскрывают не только эстетические преобразования. GPT-5.2 не просто вставляет стандартные фразы; он закодирован как рабочая модель физики, 3D-пространства и конвейеров рендеринга. Демонстрация Adamo требует корректного обнаружения столкновений, поведения с натяжкой соблюдения законов сохранения и обновления освещения кадр за кадром. Шейдер Mollick опирается на_signed distance fields_, _raymarching_ и процедурный шум, все это скоординировано без того, чтобы модель когда-либо «запускала» код во время генерации.
Внутри это указывает на более сильные пространственные способности и планирование кода на уровне системы по сравнению с GPT-5.1. Это можно увидеть в том, как GPT-5.2 структурирует состояние, отделяет циклы обновления и отрисовки, а также композитирует математику для движения камеры и повторения объектов. Это те абстракции, которые обычно исходят от человеческого графического программиста, а не от движка автозавершения.
Тем не менее, кураторские демо обманывают. Адамо и Моллик показывают лучшие моменты, а не неудачные попытки, синтаксические ошибки или незаметно сломанные крайние случаи. GPT-5.2 всё равно будет галлюцинировать API, неправильно обрабатывать производительность и время от времени выдавать шейдеры, которые компилируются, но отображают черные экраны.
Разрыв между «вирусным клипом» и «инструментом для производства» имеет значение, именно поэтому OpenAI и независимые лаборатории привязывают ажиотаж к таким показателям, как SWE-Bench Pro, GPQA Diamond и ARC-AGI 2. Эти цифры говорят о том, что способность GPT-5.2 к логическому рассуждению и надежности кода действительно улучшилась, а не только его способность создавать красивые гифки.
Тем не менее, эти визуальные демонстрации отмечают реальный сдвиг. Когда универсальная языковая модель может создавать сложные интерактивные симуляции по запросу, граница между «промптингом» и «программированием» начинает размываться — как и граница между воображением и чем-то, что выглядит тревожно похоже на реальность.
Уничтожая ориентиры
Ранее бенчмарки казались непримечательной частью маркетинга; GPT-5.2 превращает их в неожиданный поворот сюжета. Новый флагманский модель OpenAI не просто обходит соперников, она уничтожает таблицы результатов, которые действительно важны для сложных рассуждений, кодирования и науки.
Начнем с AIME 2025, известного своей жестокостью математического конкурса для старшеклассников, где даже лучшие участники часто ошибаются. GPT-5.2 демонстрирует идеальный результат 100%, решив все задачи, в то время как у Gemini 3 Pro — 95%, а у Claude Opus 4.5 — 92.8%. Эта разница кажется незначительной, пока не осознаешь, что каждое дополнительное очко часто отражает класс задач, с которыми модели ранее вообще не справлялись.
Кодовые бенчмарки рассказывают похожую историю. На SWE-Bench Pro, который оценивает реальные проблемы GitHub от начала до конца, GPT-5.2 Thinking показывает прирост примерно на 5 процентных пунктов по сравнению с GPT-5.1, что достаточно, чтобы вернуть звание лучшего в своем классе. Это означает, что больше проблем полностью решаются без человеческого вмешательства, от ада зависимостей в Python-бэкендах до тонких ошибок off-by-one в производственном C++.
На GPQA Diamond, ориенированном на проверку знаний без использования инструментов, заполненном вопросами по науке на уровне аспирантуры, GPT-5.2 набирает 92.4%, что на около 4 пункта выше, чем у GPT-5.1. Эти дополнительные баллы получены за вопросы, требующие многослойного рассуждения в области физики, биологии и математики, а не просто воспроизведения фактов из учебников.
Сложите эти достижения с другими успехами GPT-5.2 — ARC-AGI 2, который поднялся с 17% до более чем 52%, LiveCodeBench/“Последнее значение ВВП” на уровне 70,9% против 59,6% для Opus 4.5 — и начинает прослеживаться определённая закономерность: меньше слепых зон и более последовательная глубина. Модель не только знает больше; она также реже терпит катастрофические неудачи, когда её отклоняют от стабильного пути.
Эти количественные скачки имеют значение, поскольку они почти напрямую связаны с экономически полезной работой. Рассуждения на уровне AIME и GPQA лежат в основе таких задач, как выведение новых формул для деградации батарей, отладка крайних случаев в криптографических протоколах или стресс-тестирование финансовых моделей. Приобретения SWE-Bench Pro переводятся в:
- 1Высокие показатели успешной первой попытки исправления в устаревших кодовых базах
- 2Более надежные рефакторинги и миграции
- 3Меньше галлюцинированных API и скрытых логических ошибок.
Для команд это означает, что вы можете поручить GPT-5.2 решать проблемы, которые раньше оставляли для ведущих инженеров или экспертов в своей области, и в ожидании все чаще он сможет справиться с ними самостоятельно.
Метрика AGI, которая поразила всех
ARC-AGI тихо стал эталоном, которого на самом деле боятся исследователи ИИ. Разработанный Франсуа Шолетом и расширенный командой ARC Prize, он измеряет, может ли система обучаться на небольшом количестве примеров, а затем обобщать на новые, абстрактные задачи сопоставления шаблонов, с которыми она никогда не сталкивалась. Никакого веб-масштабного запоминания, никакого скрытого перекрытия обучения — только чистое системное рассуждение над цветными сетками, которые больше напоминают тесты на IQ, чем задачи по программированию.
В отличие от экзаменов с множественным выбором или математических задач в стиле учебников, ARC-AGI заставляет модель выводить такие правила, как симметрия, счёт, преобразования объектов и композиционная логика на основе 1–5 демонстраций. Каждое задание по сути является мини «инопланетной головоломкой», где модели нужно вывестиUnderlying концепцию и применить её. Исследователи давно рассматривают это как более точный прокси для обобщения, похожего на AGI, чем традиционные эталоны.
На этом фоне прыжок GPT-5.2 на ARC-AGI 2 выглядит поразительно. GPT-5.1 Thinking показал около 17% на новой тестовой системе ARC-AGI 2; сообщается, что GPT-5.2 достигает 52.9%, что почти в 3 раза лучше в области, которая historically движется на одноцифровых уровнях. Для справки, многие сильные модели находились в диапазоне подростковых и низких двузначных результатов, что привело к тому, что некоторые скептики начали утверждать, что текущие LLM фактически достигли плато в этом тесте.
ARC Prize не просто принял на слово OpenAI. В официальном посте команда сообщила, что проверила GPT-5.2 Pro High на уровне 54.2% по тесту ARC-AGI 2 с затратами $15.72 за задачу и 90.5% по оригинальному ARC-AGI при $11 за задачу. Этот же аккаунт сопоставил эти данные с годичной давности предварительным обзором o3 High: 88% приEstimated $4,500 за задачу ARC-AGI, что дает примерно 390-кратный прирост эффективности.
Эта экономика имеет такое же значение, как и результаты. Год назад для проведения серьезных экспериментов в масштабе ARC требовался бюджет лаборатории; сейчас стартап или университетская лаборатория могут отработать сотни задач за цену авиабилета на конференцию. Более подробная информация о затратах и запуске OpenAI представлена в его документации и в постоянно обновляемых Примечаниях к релизу ChatGPT - Центр поддержки OpenAI, но верификация ARC придаёт этому конкретному утверждению особую значимость.
Философски, результат 50% и выше на ARC-AGI 2 не равен AGI, однако он сдвигает окно Овертона. Если модель может выявлять абстрактные правила через тысячи чуждых головоломок, грань между «распознавателем шаблонов» и «обучающим концептам» начинает размываться. Практически, та же способность является основой для более надежного использования инструментов, автономных исследовательских агентов и систем, которые могут адаптироваться к незнакомым рабочим процессам без помощи.
Не просто умнее, а в 390 раз дешевле
Не так давно проведение серьезного эксперимента с ARC-AGI походило на сжигание денег. ARC Prize оценивает, что предварительная версия модели o3 High от OpenAI стоила около $4,500 за задачу, чтобы достичь 88% на оригинальном эталоне ARC. GPT-5.2 Pro XH High теперь достигает 90.5% примерно за $11 за задачу, что представляет собой рост эффективности в 390 раз за примерно год.
Такое падение не происходит от простого увеличения количества GPU. Оно сигнализирует о реальной архитектурной работе: лучших стратегиях поиска, более умном использовании инструментов, более эффективной маршрутизации между "мгновенным" и "размышляющим" режимами, а также более эффективном использовании токенов. OpenAI тихо заявляет, что может выполнить больше рассуждений с меньшим количеством операций с плавающей запятой на каждую решенную задачу.
Кривые затрат, подобные этой, изменяют правила игры. Год назад только гиперскейлеры или хорошо профинансированные лаборатории могли позволить себе крупномасштабные исследования в стиле ARC. При стоимости в 11 долларов за задачу стартап на стадии seed или лаборатория аспирантов могут проводить: - Тысячи задач ARC-AGI - Масштабные абляционные исследования - Итерировать эксперименты с продуктами, не сжигая весь свой вычислительный бюджет.
Демократизация доступа к передовым методам рассуждения важна так же, как и получение высоких оценок в бенчмарках. Когда GPT-5.2 сможет предоставлять результаты на уровне специалистов в SWE-Bench Pro, GPQA Diamond и ARC-AGI за несколько долларов вместо сотен, целые категории инструментов — автономные исследовательские агенты, непрерывная рефакторинг кода, высокочастотное моделирование — внезапно начинают экономически оправдывать себя.
Для предприятий это разница между эффектным пилотным проектом и статьей в операционном плане на следующий год. CIO не просто спрашивают: "Насколько это умно?"; они спрашивают: "Какова стоимость за решённый тикет, за ревью контракта, за исправление в дата-канале?" Снижение затрат в 390 раз на задачи сложного рассуждения трансформирует GPT-5.2 из исследования и разработки в нечто, что может обойти по цене и производительности зарубежный труд, устаревшее программное обеспечение и даже некоторые внутренние команды.
Производительность привлекает внимание. Цена за решенную проблему определяет, кто на самом деле разворачивает системы класса AGI в крупных масштабах.
От таблиц к стратегии стартапа
OpenAI продолжает повторять одну фразу о GPT-5.2: «экономически ценный труд». Это звучит как маркетинг, пока вы не посмотрите на таблицы. Суть изменений проста, но сурова: эта модель больше не ограничивается только написанием электронных писем и текстов для презентаций; она тихо захватывает тот вид «Excel-ада», который обычно оправдывает зарплаты в шесть цифр и привлечение внешних консультантов.
Начните с демонстрации таблицы капитализации. Мысли GPT-5.1 попытались смоделировать ликвидационные привилегии на стадии Seed, Series A и Series B, но просто провалились — пустые строки, отсутствующие формулы и окончательный расчет доли капитала, который бы неправильно оценил выход на миллионы. Мысли GPT-5.2 перестроили тот же лист, заполнили каждый уровень привилегий и создали правильное распределение, превратив "аккуратную игрушку" во что-то, что финансовый директор мог бы фактически проверить на адекватность, а не отвергнуть.
Таблицы капитала — это не только арифметика; они содержат информацию о преимущественном и непредпочтительном участии, старшинстве и различных сценариях ликвидации. Неправильная формула может предоставить инвестору лишние 5-10% от продажи в 500 миллионов долларов. OpenAI акцентирует внимание на этом: GPT-5.2 не только лучше форматировал модель по сравнению с 5.1; он исправил логику в тех местах, где предыдущий флагман потерпел неудачу, что обычно приводит к судебным искам, а не к обновлениям.
Пример планирования рабочей силы выглядит скромно на фоне прочего, но намекает на ту же тенденцию. Попросив построить модель числа сотрудников, найма, текучести кадров и бюджета для инженерного, маркетингового, юридического и торгового отделов, версия 5.1 создала приемлемую сетку. В то время как GPT-5.2 выдала многостраничную, цветовую структуру с четким разделением предположений, сводными данными по отделам и сводным взглядом, который выглядит так, словно был экспортирован из Workday или Anaplan, а не создан импровизированным чат-ботом.
Форматирование кажется косметическим, пока не осознаешь, что оно способствует внедрению. Менеджеры не хотят восстанавливать намерения модели из стены чисел. Электронные таблицы GPT-5.2 маркируют ключевые показатели, фиксируют заголовки, добавляют итоги там, где это ожидают финансовые команды, и сохраняют единообразие в процентах, валютах и числе сотрудников. Вот в чем разница между «черновиком ИИ» и «вставить это в пакет для совета директоров».
С точки зрения повествования, OpenAI выделяет сценарий отчетности по грантам для стартапа из Великобритании под названием BridgeMind. GPT-5.2 обрабатывает исходные материалы от британского фонда и генерирует структурированный отчет: цели, этапы, таблицы KPI и регистры рисков, соответствующие типичным форматам соблюдения грантов в Великобритании. В сравнении с 5.1 новая модель демонстрирует меньшую количество фактических ошибок относительно мандата фонда и более четкое разделение, которое отражает реальные шаблоны управления программами.
В целом, эти примеры объясняют, почему OpenAI теперь говорит о GPT-5.2 как о «доверенном специалисте». Финансы, HR и управление проектами зависят от крайних случаев и примечаний, а не только от беглой прозы. Когда модель может рассчитывать ликвидационные каскады, согласовывать бюджеты по численности персонала и готовить отчеты, соответствующие требованиям регуляторов, с меньшим количеством скрытых ошибок, чем ее предшественник, она перестает быть полезным помощником и начинает невыносимо напоминать младшего оператора, встроенного непосредственно в вашу систему.
Ваш код устарел?
Код, возможно, только что перешел грань от «помощи» к «генерации по умолчанию». В демо океанской волны от OpenAI один запрос на естественном языке создал полностью интерактивное одностраничное приложение: анимированная вода с правдоподобной динамикой жидкости, элементы управления для ветра и высоты волн, отзывчивый интерфейс и чистый компонентный код. Никакой поэтапной подготовки, никаких дополнительных запросов, просто один шаг от идеи до готового к производству фронтенда.
Под капотом GPT-5.2 не просто создал один монолитный файл. Он структурировал современный стек: модульный JavaScript, переиспользуемый CSS и четкое разделение логики симуляции и отрисовки. Модель подключила обработчики событий, оптимизировала обновления интерфейса и достаточно хорошо задокументировала функции, чтобы другой разработчик мог быстро подключиться и расширить приложение за считанные минуты.
Бенчмарки подтверждают впечатления. В SWE-Bench Pro "мыслящий" вариант GPT-5.2 демонстрирует рост примерно на 5 процентных пунктов по сравнению с GPT-5.1, завоевывая титул передового решения для комплексного исправления ошибок в реальных репозиториях. В LiveCodeBench, который оценивает реальные задачи программирования и знаний, GPT-5.2 получает 70,9% по сравнению с 59,6% у Claude Opus 4.5, что создает двузначный разрыв, который редко встречается на передовой.
Рынки предсказаний уже учитывают это. На таких платформах, как PolyMarket, трейдеры оценивают вероятность того, что OpenAI будет обладать лучшей моделью кодирования 1 января 2026 года, в 86%, вытеснив многолетнее лидерство Anthropic. Этот сдвиг произошел внезапно после утечки ранних сигналов GPT-5.2 в публичные бенчмарки и частные оценки.
Так ваш код устарел? Не совсем, но ваше индивидуальное положение может быть. GPT-5.2 теперь может: - Создавать непростые приложения из абзаца спецификации - Рефакторить устаревший код при сохранении поведения - Генерировать тесты, которые действительно выявляют крайние случаи
Разработчики, которые по-прежнему рассматривают ИИ как автозаполнение, будут отставать от тех, кто проектирует системы вокруг сопилота, который берет на себя 80% рутинной работы и соединительных задач. Люди-инженеры отвечают за понимание продукта, безопасность, бюджеты производительности и вопросы «должны ли мы это строить?», на которые ни один стандарт не может дать ответ.
Обновление системы GPT-5 от OpenAI: GPT-5.2 представляет это как дополнение, а не замену. Но когда однострочный запрос может вызвать работающее море, критерии того, что считается «работой младшего разработчика», резко изменились.
Квантовый скачок в видении
Квантовое зрение наконец настигло квантовое мышление. GPT-5.2 снижает уровень визуальных ошибок почти на половину в сравнении с GPT-5.1 в внутреннем визуальном пакете OpenAI, и это проявляется повсюду: в распознании объектов, разборе документов и многоступенчатом визуальном анализе. По данным OpenAI, на публичных бенчмарках наблюдаются двузначные относительные приросты, что делает модель больше похожей не на "подписи", а на визуальный анализ.
Идентификация материнской платы может быть самым чистым A/B тестом. Подавая фото материнской платы формата ATX среднего класса в GPT-5.1, вы получите размытые предположения: частичные подписи компонентов, отсутствующие разъемы и неверное количество линий PCIe. GPT-5.2, получив то же изображение, систематически исследует плату, делая следующие замещения:
- 1Точная модель чипсета и сокета
- 2PCIe x16 против x1 линий и слотов M.2
- 3Разъемы для вентиляторов, разъемы для RGB и разъемы для передней панели.
- 4Макет VRM и предполагаемый диапазон мощности
Он даже выделяет вероятные семейства моделей OEM с коэффициентами уверенности и оговорками, переходя от "лучшего предположения" к судебному разбору.
Пользовательские интерфейсы — это то место, где этот прорыв превращается в инфраструктуру. На бенчмарке Screen Spot Pro — по сути, «найдите и используйте правильный элемент управления на загруженном экране приложения» — GPT-5.1 набрал 64%. GPT-5.2 подскакивает до 86%, что является огромным приростом для любой системы, пытающейся автономно управлять настольным, веб- или мобильным приложением. Эта разница в точности — это разрыв между агентом, который случайно нажимает не туда, и тем, которому вы доверяете согласовывать счета в устаревшей ERP-системе.
Лучшее видение проникает в менее привлекательные, но более значимые области. Научные графики, микроскопические изображения, скриншоты CAD и многопанельные медицинские диаграммы теперь воспринимаются как структурированные данные, а не декоративные JPEG. Для повышения доступности GPT-5.2 преобразует плотные панели инструментов или загроможденные веб-сайты в точные, удобные для навигации описания, позволяя экранным считывателям и голосовым помощникам выполнять функции настоящих визуальных протезов, а не неумелых рассказчиков.
Укрощение Зверя: Контекст и Галоцинации
Надежность всегда была слабым местом GPT, и версия GPT-5.2 наконец-то существенно улучшает эту ситуацию. OpenAI сообщает о значительном снижении галлюцинаций, особенно в задачах с высоким уровнем ответственности, с меньшим количеством уверенно неправильных ответов, когда модель сталкивается с пределами своих знаний. Вместо того чтобы изобретать ссылки илиFabricate числа, версия 5.2 чаще осторожничает, запрашивает уточнения или обозначает недостающие данные.
Обработка контекста демонстрирует еще более драматический сдвиг. На тесте MRCV2 "игла в стоге сена" — где одно релевантное предложение скрыто внутри огромного запроса — GPT-5.2 сохраняет около 98% точности при окне контекста в 256k токенов. GPT-5.1 падает до примерно 42% на той же длине, фактически теряя след иглы в собственном стоге текста.
Этот лимит в 256k не изменился; сырой размер контекстного окна остался прежним. Изменилось то, насколько эффективно модель ищет, фильтрует и рассуждает в пределах этого окна, вместо того чтобы считать только последние несколько тысяч токенов значимыми. Длинные документы больше не воспринимаются как лотерея, где ключевое положение может не существовать, если оно появляется слишком рано.
Юридическая работа является самым очевидным выигрышем. Юрист теперь может загрузить сотни страниц контрактов, условий и цепочек писем в один запрос и попросить 5.2 выявить конфликты, недостающие пункты или нестандартные условия, а затем сопоставить их с модельным руководством. Улучшенная память модели означает, что случайная строка о возмещении ответственности на странице 147 действительно влияет на резюме.
Синтез исследований также меняет свой характер. Вместо того чтобы разбивать десятки статей на легко усваиваемые фрагменты, ученый может загрузить целые PDF-файлы, включая разделы методов, и запросить сравнительный анализ дизайна исследования, смещения выборки и противоречивых результатов. Уменьшение числа заблуждений снижает риск поддельных цитат, которые преследовали более ранние поколения.
Поддержка клиентов в больших масштабах становится менее хрупкой. История из 256 тысяч предыдущих заявок, руководства по продуктам и документы по политике могут храниться в контексте, в то время как GPT-5.2 формирует ответы, соответствующие предыдущим решениям и текущим правилам. Эта комбинация — высокая точность при работе с длинным контекстом и более низкие показатели ошибок — переводит эти системы из категории «помощник, требующий постоянного контроля» в нечто более близкое к надежному младшему аналитiku.
Цена энергетики следующего поколения
Цены на GPT-5.2 шокируют: стоимость входящих токенов увеличивается примерно на 40%, с $1.25 до $1.75 за миллион, в то время как стоимость исходящих токенов скачет с $10 до $14 за миллион. Для приложений, которые стримят длинные ответы или генерируют код в больших объемах, этот 40%-й рост сразу чувствуется в строках сметы.
Аргумент OpenAI: вы не покупаете токены, вы покупаете выполненную работу. На ARC-AGI стоимость за задачу сократилась с оценочных $4,500 на раннем o3 High до $11 с GPT-5.2 Pro XH High, что составляет 390-кратный прирост эффективности. Такая кривая делает 40% повышение стоимости токенов косметическим для тяжелых расчетных задач.
Для разработчиков математика делится на два лагеря. Если ваш продукт использует короткие, чат-стилевые вызовы — поддерживающие боты, легкий контент, базовые вопросы и ответы — резкий рост токенов почти напрямую соответствует увеличению себестоимости на 40%. Если ваш продукт основан на глубоком рассуждении, многошаговых инструментах или сложных таблицах и каптаблицах, меньшее количество повторов и более короткие цепочки могут устранить скачок цен.
Конкуренция показывает, что GPT-5.2 все еще предлагает сильное соотношение цена-качество. Конкуренты, такие как Gemini 3 Pro и Claude Opus 4.5, могут предлагать более дешевые тарифы на токены в некоторых категориях, но отстают по таким показателям, как SWE-Bench Pro, GPQA Diamond и ARC-AGI 2. Если один вызов GPT-5.2 заменяет два или три вызова к более слабой модели, эффективная стоимость за решенную задачу снижается в пользу OpenAI.
Калькуляция становится более точной в сферах, где ошибки стоят дорого. Неправильно смоделированные предпочтения ликвидации или неверно заданный план численности рабочей силы могут стоить миллионов реальных денег; на фоне такого риска 40%-ная надбавка за API теряется в неясности. Для команд, принимающих это решение, анализ случаев использования и компромиссов Симона Уиллисона в GPT-5.2 - Блог Симона Уиллисона представляет собой полезную проверку адекватности.
Основной вывод для бизнеса: если улучшения GPT-5.2 позволяют вам выпускать функции, которым вы просто не могли доверять в 5.1 — или у конкурентов — новая цена выглядит не как злоупотребление, а как премия за надежность.
Гонка еще не окончена, она только началась.
GPT-5.2 от OpenAI воспринимается не как очередное обновление, а скорее как контратаку. После года давления со стороны Google Gemini и Anthropic Claude, этот релиз выглядит как непосредственный ответ на соперников, которые подрывают ауру неизбежности OpenAI, особенно в области кодирования и длинного контекстного мышления.
Саймон Уиллиссон назвал позицию OpenAI устойчивым "кодом красным", утверждая, что GPT-5.2 демонстрирует, как компания стремится опережать конкурентов, а не просто пользуется своим прежним положением. Обновленный крайний срок по знаниям на 31 августа 2025 года и агрессивное ценообразование выглядят не как шлифовка, а скорее как попытка удержания: сохранить корпоративных пользователей внутри экосистемы OpenAI, прежде чем они перейдут к Gemini 3 или Claude Opus 4.5.
На бумаге GPT-5.2 вновь завоевывает много поводов для гордости. Он демонстрирует передовые показатели на SWE-Bench Pro, GPQA Diamond — 92.4%, и чистые 100% на AIME 2025, опережая Gemini 3 Pro с 95% и Claude Opus 4.5 с 92.8%. Подтверждение от ARC Prize — 54.2% на ARC-AGI 2 с стоимостью $15.72 за задачу и 90.5% на оригинальном ARC-AGI за $11 — усиливает сообщение: OpenAI лидирует в области обобщения и стоимости.
У соперников все еще есть реальные позиции. На краудсорсинговой платформе LMSys Arena предварительные данные Almarina показывают, что Claude Opus 4.5 занимает первое место по программированию, пользователи постоянно предпочитают его стиль и надежность в сложных задачах программного обеспечения. Интеграция инструментов Gemini 3 и тесная связка с экосистемой Google также дают ему преимущество для команд, уже работающих в Workspace и Vertex AI.
Рынковое настроение зеркалит волатильность. Прогнозные рынки на Khi и PolyMarket недавно сменили предпочтение с Anthropic на OpenAI, и теперь оценивают вероятность в 80–90%, что OpenAI будет владеть лучшей моделью кодирования к 1 января 2026 года. Этот сдвиг последовал за ранними бенчмарками и демонстрациями кодирования GPT-5.2, такими как 3D симуляция физики Флавио Адамо и одноразовый шейдер Нео-Готики Итанa Моллика.
Разговоры о "встрече с препятствием" на этапе предварительного обучения выглядят преждевременно. Переход GPT-5.2 с 17% до более чем 50% в тесте ARC-AGI 2 и 390-кратное увеличение эффективности по сравнению с прошлогодними оценками o3 High говорят о том, что в масштабировании, архитектуре и кураторстве данных все еще есть возможности. Вместо того чтобы окончить гонку, эта модель ускоряет ее, вынуждая Google, Anthropic, Meta и Mistral реагировать быстрее — иначе им придется смириться с тем, что реальность будет переопределена без них.
Часто задаваемые вопросы
Что такое GPT-5.2?
GPT-5.2 — это последний флагманский ИИ-модель OpenAI, выпущенная в декабре 2025 года. Она включает значительные улучшения в области логического мышления, программирования, визуального восприятия и эффективности, с особым акцентом на профессиональные и экономически ценные задачи.
Как GPT-5.2 сравнивается с конкурентами, такими как Claude Opus 4.5?
Согласно первоначальным тестам, GPT-5.2 превосходит таких конкурентов, как Claude Opus 4.5 и Gemini 3 Pro в ключевых областях, включая получение идеального балла на математическом конкурсе AIME 2025 и достижение передового результата на тесте обобщения ARC-AGI 2.
Какое самое большое улучшение в GPT-5.2?
Самым поразительным улучшением является её производительность на бенчмарке ARC-AGI 2, которая увеличилась с 17% (GPT-5.1) до более чем 52%. Это свидетельствует о значительном скачке в способности модели к обучению и обобщению, что является ключевым компонентом искусственного общего интеллекта.
Является ли использование GPT-5.2 более дорогим?
Да, цена API для GPT-5.2 выше, чем у его предшественника. Например, цена за входные токены увеличилась с 1,25 доллара до 1,75 доллара за миллион, что отражает улучшенные возможности модели.