overview
O que é SWE-Bench Pro?
SWE-Bench Pro é um benchmark de avaliação de IA desenvolvido por uma iniciativa de pesquisa que permite a pesquisadores de IA/LLM e desenvolvedores de agentes avaliar rigorosamente as capacidades de agentes de IA na resolução de tarefas de engenharia de software do mundo real. Ele fornece uma estrutura abrangente para testar e comparar diferentes algoritmos de maneira padronizada, focando em problemas complexos de longo prazo originados de diversas bases de código. O benchmark contém 1.865 tarefas em 41 repositórios profissionais, abrangendo 123 linguagens de programação únicas e vários domínios de aplicação. As tarefas frequentemente exigem edições em múltiplos arquivos e repositórios, com uma média de 107,4 linhas de código alteradas e 4,1 arquivos modificados por solução. Ele visa fornecer uma avaliação mais realista e resistente à contaminação em comparação com benchmarks anteriores.