overview
¿Qué es SWE-Bench Pro?
SWE-Bench Pro es un benchmark de evaluación de IA desarrollado por una iniciativa de investigación que permite a los investigadores de IA/LLM y a los desarrolladores de agentes evaluar rigurosamente las capacidades de los agentes de IA para resolver tareas de ingeniería de software del mundo real. Proporciona un marco integral para probar y comparar diferentes algoritmos de manera estandarizada, centrándose en problemas complejos y de largo alcance obtenidos de diversas bases de código. El benchmark contiene 1,865 tareas en 41 repositorios profesionales, abarcando 123 lenguajes de programación únicos y varios dominios de aplicación. Las tareas a menudo requieren ediciones en múltiples archivos y repositorios, con un promedio de 107.4 líneas de código cambiadas y 4.1 archivos modificados por solución. Su objetivo es proporcionar una evaluación más realista y resistente a la contaminación en comparación con benchmarks anteriores.