overview
SWEbenchとは?
SWEbenchは、大規模言語モデル(LLM)の開発者や研究者が大規模言語モデルのソフトウェアエンジニアリング能力を評価できるようにする、研究イニシアチブによって開発されたベンチマークツールです。主に、AIコーディングエージェントがGitHubからの実際のソフトウェア問題を解決する能力を評価することに焦点を当てています。このプラットフォームは、コードベースと問題の説明を提供することで複雑なコーディング課題をシミュレートし、LLMに問題を解決するパッチの生成をタスクとして与えます。SWEbenchは、ソフトウェア開発におけるAIの厳格な評価プラットフォームとして機能し、大規模な既存のコードベース内で実際のバグを理解し、ナビゲートし、修正する、または機能を実装するAIコーディングエージェントの能力をベンチマークします。高いベンチマークを設定することで、AIモデルのコーディング標準、生産性、およびバグ解決の改善を促進することを目指しています。