overview
SWE-Bench Pro란 무엇인가요?
SWE-Bench Pro는 AI/LLM 연구자와 에이전트 개발자가 실제 소프트웨어 엔지니어링 작업을 해결하는 AI 에이전트의 역량을 엄격하게 평가할 수 있도록 지원하는 연구 이니셔티브에 의해 개발된 AI 평가 벤치마크입니다. 이는 다양한 코드베이스에서 파생된 복잡하고 장기적인 문제에 초점을 맞춰, 표준화된 방식으로 다양한 알고리즘을 테스트하고 비교하기 위한 포괄적인 프레임워크를 제공합니다. 이 벤치마크는 41개의 전문 리포지토리에 걸쳐 1,865개의 작업을 포함하며, 123개의 고유한 프로그래밍 언어와 다양한 애플리케이션 도메인을 다룹니다. 작업은 종종 여러 파일과 리포지토리에서 편집을 요구하며, 각 솔루션당 평균 107.4줄의 코드 변경과 4.1개의 파일 수정이 필요합니다. 이는 이전 벤치마크에 비해 더 현실적이고 오염에 강한 평가를 제공하는 것을 목표로 합니다.