Табель успеваемости ИИ по программированию — ложь
Ведущие модели ИИ отлично справляются с тестами по программированию, но разработчики знают, что что-то не так. Новый бенчмарк под названием DeepSWE раскрывает правду, переворачивая таблицу лидеров с ног на голову.