Skip to content

Табель успеваемости ИИ по программированию — ложь

Ведущие модели ИИ отлично справляются с тестами по программированию, но разработчики знают, что что-то не так. Новый бенчмарк под названием DeepSWE раскрывает правду, переворачивая таблицу лидеров с ног на голову.

Stork.AI
Hero image for: Табель успеваемости ИИ по программированию — ложь

Кратко / Главное

Ведущие модели ИИ отлично справляются с тестами по программированию, но разработчики знают, что что-то не так. Новый бенчмарк под названием DeepSWE раскрывает правду, переворачивая таблицу лидеров с ног на голову.

Бенчмарк ИИ, которому мы все доверяли, сломан

SWEbench когда-то был бесспорным стандартом для оценки навыков программирования ИИ, бенчмарком, которому разработчики и исследователи доверяли для измерения возможностей больших языковых моделей в области разработки программного обеспечения. Его структурированные задачи, в основном сосредоточенные на исправлении ошибок, обещали объективный табель успеваемости для зарождающихся агентов ИИ. Но это доверие испарилось; теперь индустрия повсеместно считает SWEbench сломанным.

Фундаментальные недостатки преследуют этот бенчмарк, делая его оценки бессмысленными. Безудержное загрязнение данных означает, что модели часто видели решения во время обучения, искусственно завышая производительность. Вдобавок к этому, по крайней мере 59,4% проверенных задач в SWE-bench Verified содержали ошибочные тестовые примеры, неверно отклоняющие правильные решения. Более того, узкая область применения SWEbench, где более 80% из 87% задач по исправлению ошибок были взяты всего из пяти репозиториев Python, а половина проблем датировалась до 2020 года, не отражала реальных задач программирования.

Эта череда проблем привела к абсурдным результатам. Модели, такие как Claude Opus 4.7, необъяснимо превзошли GPT-5.5 на несколько пунктов, что прямо противоречило широко распространенному опыту разработчиков и «проверке на практике» реального использования. Сама OpenAI признала проблему, отказавшись от SWE-bench Verified для оценки передовых моделей, заявив, что «улучшения больше не отражают значимых улучшений в реальных способностях моделей к разработке программного обеспечения». Этот дискредитированный бенчмарк, когда-то бывший столпом оценки ИИ, теперь служит предостережением.

DeepSWE: Проверка реальности для ИИ-программистов

Datacurve представила DeepSWE, надежный альтернативный бенчмарк, тщательно разработанный для эры agentic AI. Этот новый стандарт напрямую борется с широко распространенным загрязнением данных и «игрой», которые обесценивали старые оценки, такие как SWEbench. Дизайн DeepSWE не позволяет моделям просто вспоминать ранее виденные решения, заставляя их демонстрировать подлинные способности к решению проблем.

Методология DeepSWE резко контрастирует с его предшественниками. Он включает 113 оригинальных, долгосрочных задач, полностью написанных с нуля в 91 разнообразном репозитории с открытым исходным кодом. Этот комплексный набор охватывает пять критически важных языков программирования: - TypeScript - Go - Python - JavaScript - Rust Эти задачи требуют в среднем в 5,5 раз больше изменений кода, чем SWE-bench Pro, тщательно проверяя способность ИИ решать сложные, многогранные инженерные задачи, а не простые исправления ошибок.

Что особенно важно, структура DeepSWE — представление коротких, высокоуровневых подсказок для изначально сложных задач — отражает то, как старший разработчик делегирует работу помощнику ИИ. Такой подход делает его гораздо более реалистичным и практичным тестом реальной полезности ИИ и его способности к долгосрочной разработке программного обеспечения. Ранние оценки на DeepSWE, например, показывают GPT-5.5 на уровне 70% по сравнению с Claude Opus 4.7 на уровне 54%, предлагая более точное отражение реального опыта разработчиков, чем завышенные оценки SWEbench.

GPT-5.5 против Claude Opus: Раскрыт реальный счет

В то время как устаревшие бенчмарки, такие как SWE-bench, рисовали картину напряженной гонки, где Claude Opus 4.7 часто показывал небольшое преимущество над GPT-5.5, DeepSWE раскрывает совершенно иную реальность. По строгому новому стандарту Datacurve, GPT-5.5 достиг впечатляющего показателя успешности в 70%. Claude Opus 4.7, напротив, набрал всего 54%.

Эта огромная разница в 16 пунктов в DeepSWE — не просто статистическая аномалия; она означает фундаментальное различие в возможностях. Задачи DeepSWE создаются с нуля, чтобы оценивать подлинное решение проблем и агентные навыки в новых, невиданных сценариях, а не просто исправления ошибок из старых репозиториев. В отличие от старых бенчмарков, DeepSWE не позволяет моделям использовать загрязнение обучающих данных или простое запоминание, заставляя их глубоко рассуждать и применять обобщенный интеллект.

Доминирующая производительность GPT-5.5 подчеркивает его превосходные рассуждения и способность справляться со сложными, долгосрочными задачами программной инженерии, что является критическим фактором для делегирования в реальном мире. Это напрямую соответствует настроениям разработчиков, которые сообщают о заметной разнице в практической полезности модели. Хотя более новые итерации, такие как Claude Opus 4.8 и Gemini 3.1 Pro, показали улучшения, они продолжают отставать от GPT-5.5 в этом более сложном, отражающем реальный мир бенчмарке, что подчеркивает текущий рубеж.

За пределами таблиц лидеров: Новые правила оценки ИИ

Лидеры отрасли должны отказаться от упрощенных оценок, основанных на запоминании. Будущее оценки ИИ требует устойчивых к загрязнению, многоэтапных бенчмарков, таких как DeepSWE и развивающийся SWE-bench Pro. 113 задач DeepSWE охватывают 91 разнообразный репозиторий с открытым исходным кодом и пять языков программирования (TypeScript, Go, Python, JavaScript, Rust), требуя в среднем в 5,5 раза больше изменений кода, чем его предшественники, что отражает сложность реального мира.

Разработчики и руководители технологических компаний должны относиться к завышенным результатам бенчмарков с глубоким скептицизмом. Сама OpenAI отказалась от SWE-bench Verified, признав, что ее улучшения отражали воздействие обучения, а не улучшенные реальные способности. Вместо этого следует отдавать приоритет производительности в задачах, требующих подлинного рассуждения, планирования и решения новых проблем, что DeepSWE специально разработан для выявления помимо простого запоминания.

Истинная ценность помощника по кодированию на основе ИИ заключается не в исправлении тривиальной ошибки 2019 года, что является обычным сценарием SWE-bench. Главная задача состоит в проектировании и реализации совершенно новых функций, исходя из высокоуровневой цели, автономно. DeepSWE начинает измерять этот критически важный навык, отражая сложные, оригинальные и долгосрочные задачи программной инженерии, которые определяют возможности передового ИИ в эпоху агентности.

Часто задаваемые вопросы

Что не так с бенчмарком SWEbench?

SWEbench, в частности SWE-bench Verified, критикуется за загрязнение данных (модели могли видеть ответы во время обучения), ошибочные тестовые случаи и узкую направленность на исправления старых ошибок Python, что делает его плохим показателем современных навыков решения проблем ИИ.

Что такое DeepSWE и чем он отличается?

DeepSWE — это новый бенчмарк для кодирования ИИ, включающий оригинальные, сложные задачи программной инженерии, написанные с нуля на пяти языках. Он разработан для проверки истинных навыков решения проблем и агентных способностей, а не просто запоминания, что лучше отражает реальные проблемы разработчиков.

Какая модель ИИ в настоящее время лучше всего подходит для кодирования согласно DeepSWE?

Согласно последним результатам DeepSWE, GPT-5.5 от OpenAI значительно лидирует с показателем решения 70%, намного опережая конкурентов, таких как Claude Opus 4.7, который набрал 54%.

Почему SWEbench и DeepSWE дают такие разные рейтинги для моделей ИИ?

Бенчмарки проверяют разные навыки. SWEbench стал тестом способности модели вспоминать решения известных проблем, которые она, вероятно, видела во время обучения. DeepSWE проверяет способность рассуждать и решать совершенно новые, сложные проблемы с минимальными инструкциями.

One weekly email of tools worth shipping. No drip funnel.

one email per week · unsubscribe in two clicks · no third-party tracking

🚀Узнать больше

Будьте в курсе трендов ИИ

Откройте лучшие инструменты ИИ, агенты и MCP-серверы от Stork.AI.

P.S. Сделали что-то полезное? Опубликуйте на Stork

Все статьи