overview
SWEbench란 무엇인가요?
SWEbench는 연구 이니셔티브에 의해 개발된 벤치마크 도구로, Large Language Model (LLM) 개발자와 연구자가 대규모 언어 모델의 소프트웨어 엔지니어링 역량을 평가할 수 있도록 합니다. 주로 AI 코딩 에이전트가 GitHub에서 발생하는 실제 소프트웨어 문제를 해결하는 능력을 평가하는 데 중점을 둡니다. 이 플랫폼은 코드베이스와 이슈 설명을 제공하여 복잡한 코딩 과제를 시뮬레이션하고, LLM에게 문제를 해결하는 패치를 생성하도록 지시합니다. SWEbench는 소프트웨어 개발 분야의 AI를 위한 엄격한 평가 플랫폼 역할을 하며, AI 코딩 에이전트가 크고 기존의 코드베이스 내에서 실제 버그를 이해하고, 탐색하고, 수정하거나 기능을 구현하는 능력을 벤치마킹합니다. 높은 벤치마크를 설정함으로써 AI 모델이 코딩 표준, 생산성 및 버그 해결 능력을 향상시키도록 유도하는 것을 목표로 합니다.