overview
Что такое SWE-Bench Pro?
SWE-Bench Pro — это бенчмарк для оценки AI, разработанный исследовательской инициативой, который позволяет исследователям AI/LLM и разработчикам агентов строго оценивать возможности AI-агентов в решении реальных задач программной инженерии. Он предоставляет комплексную основу для тестирования и сравнения различных алгоритмов стандартизированным образом, фокусируясь на сложных, долгосрочных проблемах, полученных из разнообразных кодовых баз. Бенчмарк содержит 1865 задач из 41 профессионального репозитория, охватывающих 123 уникальных языка программирования и различные области применения. Задачи часто требуют изменений в нескольких файлах и репозиториях, в среднем 107,4 измененных строк кода и 4,1 измененных файла на каждое решение. Он направлен на предоставление более реалистичной и устойчивой к загрязнению оценки по сравнению с предыдущими бенчмарками.