Проверка реальности ИИ: Бенчмарк, который сломал LLM
В течение нескольких месяцев рейтинги ИИ казались ложью, модели соревновались на бенчмарках, которые не отражают реальность. Новый, вирусный бенчмарк под названием DeepSWE только что раскрыл правду, выявив шокирующий разрыв в производительности.