Skip to content

DeepSWE 리뷰

DeepSWE는 새롭고 이전에 접하지 못한 시나리오에서 에이전트 AI의 진정한 문제 해결 능력을 평가하도록 설계된 강력한 AI 코딩 벤치마크입니다.

shipped 2026년 6월 1일aifreemium
DeepSWE - AI tool
191개의 오픈 소스 저장소에서 처음부터 작성된 113개의 오염 없는 작업으로 AI 코딩 에이전트를 평가합니다.
22026년 5월경 Datacurve에 의해 출시되었으며, OpenAI의 GPT-5.5를 70% 성공률로 선두 주자로 확립했습니다.
3보고된 오탐율 0.3% 및 미탐율 1.1%를 가진 수동 작성된 행동 기반 검증기를 특징으로 합니다.
4작업은 프롬프트에서 평균 2,158자이며, 7개 파일에 걸쳐 평균 668줄의 코드를 필요로 합니다.

Stork Quadrant

Dead Man Walking· 0/100

An LLM can do most of what this tool's UI promises. No moat, no agent presence.

This is a benchmark tool, which means its core product is a curated set of problems and a scoring harness. LLMs can generate novel coding problems, and the open-source community already produces competing benchmarks freely. There is no proprietary data, no network effect, no regulatory gate. This will be commoditized fast.

Claude Sonnet 4.6, scored 2026-06-01

Defensibility · 0/100

  • Physical-world coupling
  • Regulatory moat
  • Network liquidity
  • Proprietary refreshing data
  • High-trust catastrophic workflows
  • Multi-party coordination
  • Brand / community / taste

An LLM alone could replace

  • Generate coding problems or test cases for evaluating AI agents
  • Assess whether an AI solution is correct by reviewing code output
  • Produce benchmark-style prompts to probe edge cases in software engineering tasks
  • Summarize or compare AI model performance on coding tasks

Agent-Readiness · 0/100

  • Verified MCP
  • Listed on agent surfaces
  • Usage-based pricing
  • Headless agent auth
  • Public OpenAPI
  • Active changelog
  • llms.txt

How to defend

The only real move is to own a continuously refreshing problem set sourced from real production codebases under license — problems that can't be scraped or replicated — and sell access to that corpus to model labs who need eval data they can trust hasn't leaked into training sets.

  • Ship an MCP server and list it on Stork — biggest single point gain (+25).
  • Get listed in the Anthropic MCP registry, Cursor, or Claude Desktop (+20).
  • Add a usage-based or per-call tier; per-seat-only pricing dies when agents replace seats (+15).
  • Expose API-key auth with a self-serve sandbox tier; remove sales-call gates (+15).
  • Publish an OpenAPI spec at /openapi.json or /.well-known/openapi (+10).

DeepSWE at a Glance

Pricing
freemium
Key Features
Evaluates AI coding agents on 113 original, handcrafted tasks. · Achieves a false positive rate of 0.3% and false negative rate of 1.1% in verification. · OpenAI's GPT-5.5 led the initial leaderboard with a 70% success rate.
Alternatives
SWE-bench, Snorkel Agentic Coding benchmark, ProjDevBench
</>Embed "Featured on Stork" Badge
Badge previewBadge preview light
<a href="https://www.stork.ai/en/deepswe" target="_blank" rel="noopener noreferrer"><img src="https://www.stork.ai/api/badge/deepswe?style=dark" alt="DeepSWE - Featured on Stork.ai" height="36" /></a>
[![DeepSWE - Featured on Stork.ai](https://www.stork.ai/api/badge/deepswe?style=dark)](https://www.stork.ai/en/deepswe)

overview

DeepSWE란 무엇인가요?

DeepSWE는 Datacurve에서 개발한 AI 코딩 벤치마크 도구로, 연구원, 모델 제공업체 및 엔지니어링 팀이 새롭고 이전에 접하지 못한 시나리오에서 에이전트 AI의 진정한 문제 해결 능력을 평가할 수 있도록 합니다. 이는 현실적이고 장기적인 소프트웨어 엔지니어링 작업에서 AI 성능을 평가하기 위한 오염 없는 환경을 제공합니다.

quick facts

요약 정보

속성
개발자Datacurve
비즈니스 모델Freemium
가격Freemium: 무료 티어 사용 가능
플랫폼
API 사용 가능예 (GitHub의 평가 하네스를 통해)

features

DeepSWE의 주요 기능

DeepSWE는 이전 벤치마크에서 관찰된 한계를 해결하며, AI 코딩 에이전트에 대한 엄격하고 신뢰할 수 있는 평가를 제공하도록 설계된 여러 기술적 기능을 통합합니다.

  • 1새롭고 이전에 접하지 못한 시나리오에서 에이전트 AI의 진정한 문제 해결 능력을 평가합니다.
  • 2113개의 처음부터 작성된 작업으로 AI 코딩 에이전트를 위한 오염 없는 벤치마크를 제공합니다.
  • 391개의 오픈 소스 저장소에 걸쳐 현실적이고 장기적인 소프트웨어 엔지니어링 작업에서 AI 코딩 에이전트를 평가합니다.
  • 4짧은 코딩 퍼즐보다 실제 소프트웨어 엔지니어링 작업에 가까운 작업에서 AI 코딩 에이전트를 비교합니다.
  • 5저장소 탐색, 다중 파일 변경, 행동 정확성 및 검증에서 에이전트의 능력을 측정합니다.
  • 6새로운 AI 코딩 에이전트의 점수를 매기고 벤치마크 리더보드 재현을 지원합니다.
  • 7AI 코딩 모델의 행동 경향 및 성능에 대한 통찰력을 제공합니다.
  • 8보고된 오탐율 0.3% 및 미탐율 1.1%를 가진 수동 작성된 행동 기반 검증기를 사용합니다.

use cases

누가 DeepSWE를 사용해야 하나요?

DeepSWE는 특화된 평가 기능으로 인해 AI 및 소프트웨어 엔지니어링 분야의 다양한 이해관계자들에게 활용됩니다.

  • 1**연구원:** 독창적이고 장기적인 소프트웨어 엔지니어링 작업에서 최첨단 코딩 에이전트를 평가하고 모델의 강점과 약점을 식별하기 위해.
  • 2**모델 제공업체:** 새로운 AI 코딩 에이전트를 벤치마킹하고 오염 없는 환경에서 리더보드 결과를 재현하기 위해.
  • 3**엔지니어링 팀 및 리더:** 실제 시나리오에서 저장소 탐색, 다중 파일 변경, 행동 정확성 및 검증에서 에이전트의 능력을 평가하기 위해.
  • 4**개발자:** AI 코딩 모델의 행동 경향 및 성능을 이해하고 AI 개발을 추진하기 위해.
  • 5**사업주 및 기업 구매자:** 조달 결정을 내리기 위해 실제 소프트웨어 엔지니어링 작업에 가까운 작업에서 AI 코딩 에이전트를 비교하기 위해.

pricing

DeepSWE 가격 및 플랜

DeepSWE는 프리미엄 모델로 운영되며, 벤치마크 기능에 대한 액세스를 위한 무료 티어를 제공합니다. 무료 제공 외의 유료 티어 또는 고급 기능에 대한 구체적인 세부 정보는 공개적으로 명시되어 있지 않지만, 프리미엄 모델은 기본 액세스가 무료로 제공되며, 유료 플랜을 통해 잠재적인 프리미엄 기능 또는 더 높은 사용 한도를 이용할 수 있음을 시사합니다.

  • 1프리미엄: 무료 티어 사용 가능

competitors

DeepSWE 대 경쟁사

DeepSWE는 기존 AI 코딩 평가 도구에 비해 뚜렷한 이점을 제공하는 2세대 벤치마크로 자리매김하고 있습니다.

1

SWE-bench evaluates AI agents on their ability to resolve real-world software engineering issues sourced from GitHub, focusing on data contamination resistance and realistic problem-solving.

Similar to DeepSWE, SWE-bench focuses on evaluating agentic AI's problem-solving in coding. Its emphasis on real-world GitHub issues provides a large, diverse dataset, while DeepSWE emphasizes 'novel, unseen scenarios.' SWE-bench is a public benchmark, often used by researchers and companies to report model performance.

2
Snorkel Agentic Coding benchmark

This benchmark assesses AI agents on multi-step coding tasks in fully sandboxed environments, evaluating long-horizon planning, error recovery, and diverse software engineering capabilities.

Like DeepSWE, Snorkel's benchmark targets agentic AI and problem-solving in coding. It distinguishes itself by focusing on multi-step tasks and robust error recovery within sandboxed environments, aligning with DeepSWE's 'genuine problem-solving capabilities' on complex scenarios.

3

ProjDevBench evaluates AI coding agents on their ability to perform end-to-end project development, from system architecture design to iterative solution refinement.

While DeepSWE focuses on novel, unseen scenarios for problem-solving, ProjDevBench extends the scope to full project development, requiring agents to plan, implement, and integrate components at a higher level of abstraction. Both aim to assess deep coding capabilities beyond simple function generation.

자주 묻는 질문

+DeepSWE란 무엇인가요?

DeepSWE는 Datacurve에서 개발한 AI 코딩 벤치마크 도구로, 연구원, 모델 제공업체 및 엔지니어링 팀이 새롭고 이전에 접하지 못한 시나리오에서 에이전트 AI의 진정한 문제 해결 능력을 평가할 수 있도록 합니다. 이는 현실적이고 장기적인 소프트웨어 엔지니어링 작업에서 AI 성능을 평가하기 위한 오염 없는 환경을 제공합니다.

+DeepSWE는 무료인가요?

DeepSWE는 프리미엄 모델로 운영되며, 사용자가 벤치마크 기능에 액세스할 수 있는 무료 티어를 제공합니다. 특정 유료 티어 또는 고급 기능에 대한 세부 정보는 공개적으로 공개되지 않지만, 프리미엄 구조는 기본 액세스를 무료로 보장합니다.

+DeepSWE의 주요 기능은 무엇인가요?

DeepSWE의 주요 기능은 새롭고 이전에 접하지 못한 시나리오에서 에이전트 AI의 진정한 문제 해결 능력을 평가하고, 91개의 오픈 소스 저장소에 걸쳐 113개의 작업으로 오염 없는 벤치마크를 제공하며, 강력한 행동 기반 검증기를 사용하는 것입니다. 이는 저장소 탐색, 다중 파일 변경 및 행동 정확성에서 에이전트의 능력을 평가하여 AI 코딩 모델 성능에 대한 통찰력을 제공합니다.

+누가 DeepSWE를 사용해야 하나요?

DeepSWE는 주로 현실적이고 장기적인 소프트웨어 엔지니어링 작업에서 최첨단 AI 코딩 에이전트를 엄격하게 평가하고 비교해야 하는 연구원, 모델 제공업체 및 엔지니어링 팀을 위한 것입니다. 개발자, 사업주 및 기업 구매자도 AI 모델의 진정한 문제 해결 능력을 평가하고 개발 또는 조달 결정을 내리는 데 사용합니다.

+DeepSWE는 대안과 어떻게 비교되나요?

DeepSWE는 공개 GitHub 커밋에 의존하기보다는 새롭고 이전에 접하지 못한 시나리오를 위해 처음부터 작성된 113개의 오염 없는 작업에 중점을 둠으로써 SWE-bench Verified 및 SWE-rebench와 같은 대안과 차별화됩니다. EvalAI와 같은 일반 플랫폼 또는 Braintrust와 같은 CI/CD 통합 솔루션과 비교할 때, DeepSWE는 복잡하고 실제적인 소프트웨어 엔지니어링 작업에서 AI 코딩 에이전트를 평가하기 위한 전문 벤치마크이며, 강력한 행동 기반 검증을 강조합니다.

For builders

This page is doing a job for someone else’s tool.

AI agents read it. Buyers find it. Backlinks accrue. Your tool can have one too — live in 24 hours, indexed by Claude, ChatGPT, and Perplexity, queryable via MCP.