overview
Qu'est-ce que SWEbench ?
SWEbench est un outil de benchmark développé par une initiative de recherche qui permet aux développeurs et chercheurs de Large Language Model (LLM) d'évaluer les capacités d'ingénierie logicielle des grands modèles de langage. Il se concentre principalement sur l'évaluation de la capacité des agents de codage AI à résoudre des problèmes logiciels réels issus de GitHub. Cette plateforme simule des défis de codage complexes en fournissant une base de code et une description de problème, chargeant le LLM de générer un correctif qui résout le problème. SWEbench sert de plateforme d'évaluation rigoureuse pour l'AI dans le développement logiciel, en évaluant les agents de codage AI sur leur capacité à comprendre, naviguer et corriger des bugs réels ou à implémenter des fonctionnalités au sein de grandes bases de code existantes. Il vise à pousser les modèles AI à améliorer les standards de codage, la productivité et la résolution de bugs en fixant des benchmarks élevés.