overview
Qu'est-ce que SWE-Bench Pro ?
SWE-Bench Pro est un benchmark d'évaluation de l'IA développé par une initiative de recherche qui permet aux chercheurs en IA/LLM et aux développeurs d'agents d'évaluer rigoureusement les capacités des agents IA à résoudre des tâches d'ingénierie logicielle réelles. Il fournit un cadre complet pour tester et comparer différents algorithmes de manière standardisée, en se concentrant sur des problèmes complexes à long terme provenant de diverses bases de code. Le benchmark contient 1 865 tâches réparties sur 41 dépôts professionnels, couvrant 123 langages de programmation uniques et divers domaines d'application. Les tâches nécessitent souvent des modifications sur plusieurs fichiers et dépôts, avec une moyenne de 107,4 lignes de code modifiées et 4,1 fichiers modifiés par solution. Il vise à fournir une évaluation plus réaliste et résistante à la contamination par rapport aux benchmarks précédents.