overview
SWE-Bench Proとは?
SWE-Bench Proは、AI/LLM研究者やエージェント開発者が、実世界のソフトウェアエンジニアリングタスクを解決するAIエージェントの能力を厳密に評価できるようにする研究イニシアチブによって開発されたAI評価ベンチマークです。これは、多様なコードベースから調達された複雑で長期的な問題に焦点を当て、異なるアルゴリズムを標準化された方法でテストおよび比較するための包括的なフレームワークを提供します。このベンチマークには、41のプロフェッショナルリポジトリにわたる1,865のタスクが含まれており、123のユニークなプログラミング言語と様々なアプリケーションドメインにまたがっています。タスクはしばしば複数のファイルやリポジトリにわたる編集を必要とし、ソリューションあたり平均107.4行のコード変更と4.1ファイルの修正が行われます。これは、以前のベンチマークと比較して、より現実的で汚染耐性のある評価を提供することを目指しています。