Skip to content

Проверка реальности ИИ: Бенчмарк, который сломал LLM

В течение нескольких месяцев рейтинги ИИ казались ложью, модели соревновались на бенчмарках, которые не отражают реальность. Новый, вирусный бенчмарк под названием DeepSWE только что раскрыл правду, выявив шокирующий разрыв в производительности.

Stork.AI
Hero image for: Проверка реальности ИИ: Бенчмарк, который сломал LLM
💡

Кратко / Главное

В течение нескольких месяцев рейтинги ИИ казались ложью, модели соревновались на бенчмарках, которые не отражают реальность. Новый, вирусный бенчмарк под названием DeepSWE только что раскрыл правду, выявив шокирующий разрыв в производительности.

Почему рейтинги ИИ вам лгут

Рейтинги ИИ часто создают обманчивое представление о производительности моделей. Разработчики постоянно сообщают о значительном расхождении между результатами бенчмарков и их реальными «проверками на практике» (vibe checks), где модели не оправдывают ожиданий в практических приложениях. Этот разрыв подчеркивает фундаментальный недостаток в том, как индустрия в настоящее время оценивает большие языковые модели.

Критическая проблема, от которой страдают многие существующие бенчмарки, — это загрязнение данных. Ведущие платформы, такие как SWE-bench Pro, часто берут задачи из публичных коммитов и issues на GitHub. Поскольку LLM уже поглотили эти публичные наборы данных во время предварительного обучения, модели «решают» задачи, вспоминая заученные решения, а не демонстрируя подлинные способности к решению проблем. Это искажает результаты бенчмарков, создавая иллюзию компетентности.

Представляем DeepSWE, новаторский бенчмарк от datacurve.ai, разработанный как настоящее противоядие. DeepSWE тщательно разработан, чтобы быть свободным от загрязнения данных, и включает в себя полностью оригинальные задачи по разработке программного обеспечения. Его создатели вручную разработали каждую задачу, гарантируя, что ни одна модель не могла столкнуться с решениями во время предварительного обучения, заставляя ИИ-агентов по-настоящему рассуждать и решать проблемы. Этот инновационный подход обеспечивает гораздо более точную оценку их истинных возможностей, лучше соответствуя опыту разработчиков.

Четыре столпа реального тестирования

DeepSWE переопределяет сложность реального мира для бенчмарков кодирования ИИ. Его промпты заметно лаконичны и естественны, часто имитируя простую команду разработчика, такую как «fix this» (исправь это), что резко контрастирует с многословными, предписывающими запросами, встречающимися в старых тестах. Несмотря на их краткость, эти задачи требуют решений, включающих в 5,5 раз больше кода и вдвое больше выходных токенов по сравнению с SWE-bench Pro, фундаментально оценивая способность модели автономно исследовать кодовую базу и самостоятельно реализовывать решение.

Что крайне важно, DeepSWE отличается высоким разнообразием в своем наборе задач. Он проверяет модели в 91 различных репозиториях, охватывая широкий спектр из пяти языков программирования: - Python - Go - Rust - TypeScript (TS) - JavaScript (JS) Этот широкий охват не позволяет моделям чрезмерно фокусироваться на нескольких популярных кодовых базах, обеспечивая более широкую и репрезентативную оценку общих навыков кодирования за пределами специализированных областей.

Возможно, самым важным вкладом DeepSWE является его надежная верификация. Существующие бенчмарки, такие как SWE-bench Pro, страдают от значительных проблем с точностью, демонстрируя шокирующий уровень ложноотрицательных результатов в 24% и ложноположительных результатов в 8% — это означает, что многие правильные решения ошибочно считаются неверными, а некоторые неверные — принимаются. DeepSWE значительно снижает этот показатель до всего лишь 1,1% ложноотрицательных результатов, гарантируя, что результаты бенчмарков действительно заслуживают доверия и точно отражают производительность модели, наконец, соответствуя «проверкам на практике» разработчиков.

Жесткая перестановка в рейтинге лучших моделей ИИ

Первый рейтинг DeepSWE произвел фурор, фундаментально изменив иерархию кодирования ИИ и подтвердив интуицию разработчиков. GPT 5.5 достиг доминирующего показателя успеха в 70,4%, оставив Claude Opus 4.7 значительно позади с 54,3%. Этот существенный разрыв в производительности в 16 пунктов однозначно разрушает преобладающее мнение о том, что эти две флагманские модели являются равными конкурентами в сложных задачах по разработке программного обеспечения.

В течение нескольких месяцев инженеры постоянно хвалили превосходные способности GPT 5.5 к кодированию в реальных сценариях, что часто отвергалось как анекдотические «проверки настроения». Теперь DeepSWE предоставляет важнейшие объективные данные. Мэтью Берман, известный комментатор в области ИИ, подчеркнул, как разработчики повсеместно признают GPT 5.5 «огромным улучшением» по сравнению с предыдущими итерациями и даже по сравнению с Opus 4.7, что напрямую согласуется с этими новыми результатами бенчмарка.

Что особенно важно, DeepSWE создает гораздо более широкий и реалистичный разброс баллов по всем моделям, четко разграничивая их истинные возможности. Это резко контрастирует со старыми бенчмарками, где модели высшего уровня часто показывали искусственно сгруппированные баллы. Новые данные показывают значительное снижение производительности по мере понижения в рейтинге, при этом такие модели, как Sonnet 4.6 и Gemini 3.5 Flash, значительно отстают, последняя набрала всего 28%. Для всестороннего обзора полной таблицы лидеров DeepSWE и ее методологии, изучите DeepSWE Blog.

Помимо оценки: скрытые затраты на кодирование

Помимо чистой производительности, доминирование GPT-5.5 распространяется на критически важные показатели эффективности. Каждая попытка DeepSWE обходится GPT-5.5 всего в $5.80, что значительно отличается от внушительных $16 за попытку у Claude Opus 4.7. Это почти трехкратное снижение стоимости подчеркивает ключевое экономическое преимущество, напрямую влияющее на бюджеты разработчиков и операционный масштаб.

Ведущая модель OpenAI также выполняет задачи со значительно меньшими ресурсами. Она требует менее половины токенов, потребляя всего 47 000 по сравнению со значительными 97 000 у Opus 4.7. Кроме того, GPT-5.5 решает проблемы почти вдвое быстрее, в среднем 20 минут на решение против 37 минут у ее конкурента от Anthropic. Эти достижения в потреблении токенов и времени напрямую приводят к более быстрым циклам итераций и снижению затрат на инфраструктуру.

DeepSWE знаменует собой поворотный момент в оценке ИИ. Акцент окончательно смещается от моделей, разработанных для манипулирования простыми метриками, к вознаграждению за подлинное, эффективное решение проблем. Этот новый бенчмарк обязывает разработчиков создавать модели, которые приносят ощутимую, реальную ценность, выходя за рамки поверхностных прав на хвастовство в таблице лидеров, чтобы отдавать приоритет истинной полезности и экономической эффективности в практических приложениях. Будущее ИИ потребует не только возможностей, но и ответственного и экономичного выполнения.

Часто задаваемые вопросы

Что такое бенчмарк DeepSWE?

DeepSWE — это новый, долгосрочный бенчмарк для программной инженерии, созданный datacurve.ai. Он разработан для тестирования моделей ИИ на оригинальных, сложных задачах кодирования, которые лучше отражают реальные проблемы разработчиков.

Чем DeepSWE лучше, чем SWE-bench Pro?

DeepSWE превосходит SWE-bench Pro тем, что он свободен от загрязнений (нет предварительно обученных ответов), использует более реалистичные короткие подсказки для сложных решений, охватывает более разнообразные репозитории и имеет значительно более надежную систему верификации с гораздо меньшим количеством ошибок.

Какая модель ИИ показывает лучшие результаты на DeepSWE?

GPT-5.5 является явным лидером в бенчмарке DeepSWE, набрав более чем на 15 баллов выше, чем его ближайший конкурент, Claude Opus 4.7. Он также оказывается значительно более экономичным и эффективным.

Что означает «свободный от загрязнений» для бенчмарка ИИ?

Бенчмарк, свободный от загрязнений, использует задачи и решения, которые написаны с нуля и не были замечены моделями во время их обучения. Это проверяет истинную способность к решению проблем, а не запоминание существующей информации из общедоступных источников, таких как GitHub.

One weekly email of tools worth shipping. No drip funnel.

one email per week · unsubscribe in two clicks · no third-party tracking

Часто задаваемые вопросы

Что такое бенчмарк DeepSWE?
DeepSWE — это новый, долгосрочный бенчмарк для программной инженерии, созданный datacurve.ai. Он разработан для тестирования моделей ИИ на оригинальных, сложных задачах кодирования, которые лучше отражают реальные проблемы разработчиков.
Чем DeepSWE лучше, чем SWE-bench Pro?
DeepSWE превосходит SWE-bench Pro тем, что он свободен от загрязнений , использует более реалистичные короткие подсказки для сложных решений, охватывает более разнообразные репозитории и имеет значительно более надежную систему верификации с гораздо меньшим количеством ошибок.
Какая модель ИИ показывает лучшие результаты на DeepSWE?
GPT-5.5 является явным лидером в бенчмарке DeepSWE, набрав более чем на 15 баллов выше, чем его ближайший конкурент, Claude Opus 4.7. Он также оказывается значительно более экономичным и эффективным.
Что означает «свободный от загрязнений» для бенчмарка ИИ?
Бенчмарк, свободный от загрязнений, использует задачи и решения, которые написаны с нуля и не были замечены моделями во время их обучения. Это проверяет истинную способность к решению проблем, а не запоминание существующей информации из общедоступных источников, таких как GitHub.
🚀Узнать больше

Будьте в курсе трендов ИИ

Откройте лучшие инструменты ИИ, агенты и MCP-серверы от Stork.AI.

P.S. Сделали что-то полезное? Опубликуйте на Stork — $49

Все статьи