overview
Was ist SWE-Bench Pro?
SWE-Bench Pro ist ein AI evaluation benchmark, der von einer Forschungsinitiative entwickelt wurde, die AI/LLM-Forschern und Agent-Entwicklern ermöglicht, die Fähigkeiten von AI agents bei der Lösung realer Software-Engineering-Aufgaben rigoros zu bewerten. Es bietet ein umfassendes Framework zum Testen und Vergleichen verschiedener Algorithmen auf standardisierte Weise, wobei der Schwerpunkt auf komplexen, langfristigen Problemen liegt, die aus verschiedenen Codebasen stammen. Der benchmark enthält 1.865 Aufgaben aus 41 professionellen Repositories, die 123 einzigartige Programmiersprachen und verschiedene Anwendungsbereiche umfassen. Aufgaben erfordern oft Bearbeitungen über mehrere Dateien und Repositories hinweg, mit durchschnittlich 107,4 geänderten Codezeilen und 4,1 modifizierten Dateien pro Lösung. Ziel ist es, eine realistischere und contamination-resistant Bewertung im Vergleich zu früheren benchmarks zu bieten.