Skip to content

DeepSWE レビュー

DeepSWEは、未知の新しいシナリオにおけるエージェントAIの真の問題解決能力を評価するために設計された、堅牢なAIコーディングベンチマークです。

shipped 2026年6月1日aifreemium
DeepSWE - AI tool
191のオープンソースリポジトリにわたる、ゼロから作成された113の汚染のないタスクでAIコーディングエージェントを評価します。
2Datacurveによって2026年5月頃にリリースされ、OpenAIのGPT-5.5が70%の成功率でリーダーとしての地位を確立しました。
3報告されている誤検出率0.3%、偽陰性率1.1%の手書きの行動ベースの検証ツールを特徴としています。
4タスクはプロンプトで平均2,158文字、7つのファイルにわたる平均668行のコードを必要とします。

Stork Quadrant

Dead Man Walking· 0/100

An LLM can do most of what this tool's UI promises. No moat, no agent presence.

This is a benchmark tool, which means its core product is a curated set of problems and a scoring harness. LLMs can generate novel coding problems, and the open-source community already produces competing benchmarks freely. There is no proprietary data, no network effect, no regulatory gate. This will be commoditized fast.

Claude Sonnet 4.6, scored 2026-06-01

Defensibility · 0/100

  • Physical-world coupling
  • Regulatory moat
  • Network liquidity
  • Proprietary refreshing data
  • High-trust catastrophic workflows
  • Multi-party coordination
  • Brand / community / taste

An LLM alone could replace

  • Generate coding problems or test cases for evaluating AI agents
  • Assess whether an AI solution is correct by reviewing code output
  • Produce benchmark-style prompts to probe edge cases in software engineering tasks
  • Summarize or compare AI model performance on coding tasks

Agent-Readiness · 0/100

  • Verified MCP
  • Listed on agent surfaces
  • Usage-based pricing
  • Headless agent auth
  • Public OpenAPI
  • Active changelog
  • llms.txt

How to defend

The only real move is to own a continuously refreshing problem set sourced from real production codebases under license — problems that can't be scraped or replicated — and sell access to that corpus to model labs who need eval data they can trust hasn't leaked into training sets.

  • Ship an MCP server and list it on Stork — biggest single point gain (+25).
  • Get listed in the Anthropic MCP registry, Cursor, or Claude Desktop (+20).
  • Add a usage-based or per-call tier; per-seat-only pricing dies when agents replace seats (+15).
  • Expose API-key auth with a self-serve sandbox tier; remove sales-call gates (+15).
  • Publish an OpenAPI spec at /openapi.json or /.well-known/openapi (+10).

DeepSWE at a Glance

Pricing
freemium
Key Features
Evaluates AI coding agents on 113 original, handcrafted tasks. · Achieves a false positive rate of 0.3% and false negative rate of 1.1% in verification. · OpenAI's GPT-5.5 led the initial leaderboard with a 70% success rate.
Alternatives
SWE-bench, Snorkel Agentic Coding benchmark, ProjDevBench
</>Embed "Featured on Stork" Badge
Badge previewBadge preview light
<a href="https://www.stork.ai/en/deepswe" target="_blank" rel="noopener noreferrer"><img src="https://www.stork.ai/api/badge/deepswe?style=dark" alt="DeepSWE - Featured on Stork.ai" height="36" /></a>
[![DeepSWE - Featured on Stork.ai](https://www.stork.ai/api/badge/deepswe?style=dark)](https://www.stork.ai/en/deepswe)

overview

DeepSWEとは?

DeepSWEは、Datacurveによって開発されたAIコーディングベンチマークツールであり、研究者、モデルプロバイダー、およびエンジニアリングチームが、未知の新しいシナリオにおけるエージェントAIの真の問題解決能力を評価することを可能にします。現実的で長期的なソフトウェアエンジニアリングタスクにおけるAIのパフォーマンスを評価するための、汚染のない環境を提供します。

quick facts

基本情報

属性
開発元Datacurve
ビジネスモデルFreemium
価格Freemium: 無料プランあり
プラットフォームWeb
APIの利用はい (GitHub上の評価ハーネス経由)

features

DeepSWEの主な機能

DeepSWEは、以前のベンチマークで観察された制限に対処し、AIコーディングエージェントの厳格で信頼性の高い評価を提供するために設計されたいくつかの技術的機能を組み込んでいます。

  • 1未知の新しいシナリオにおけるエージェントAIの真の問題解決能力を評価します。
  • 2ゼロから作成された113のタスクにより、AIコーディングエージェント向けの汚染のないベンチマークを提供します。
  • 391のオープンソースリポジトリにわたる、現実的で長期的なソフトウェアエンジニアリングタスクでAIコーディングエージェントを評価します。
  • 4短いコーディングパズルよりも実際のソフトウェアエンジニアリング作業に近いタスクでAIコーディングエージェントを比較します。
  • 5リポジトリ探索、複数ファイルの変更、行動の正確性、および検証におけるエージェントの能力を測定します。
  • 6新しいAIコーディングエージェントを採点し、ベンチマークリーダーボードの再現をサポートします。
  • 7AIコーディングモデルの行動傾向とパフォーマンスに関する洞察を提供します。
  • 8報告されている誤検出率0.3%、偽陰性率1.1%の手書きの行動ベースの検証ツールを採用しています。

use cases

DeepSWEは誰が使うべきか?

DeepSWEは、その専門的な評価能力により、AIおよびソフトウェアエンジニアリング分野の様々な関係者によって利用されています。

  • 1**研究者:** オリジナルで長期的なソフトウェアエンジニアリングタスクにおいて最先端のコーディングエージェントを評価し、モデルの強みと弱みを特定するため。
  • 2**モデルプロバイダー:** 汚染のない環境で新しいAIコーディングエージェントのベンチマークを行い、リーダーボードの結果を再現するため。
  • 3**エンジニアリングチーム&リーダー:** 実世界のシナリオにおけるリポジトリ探索、複数ファイルの変更、行動の正確性、および検証におけるエージェントの能力を評価するため。
  • 4**開発者:** AIコーディングモデルの行動傾向とパフォーマンスを理解し、AI開発を推進するため。
  • 5**ビジネスオーナー&エンタープライズバイヤー:** 調達の意思決定に役立てるため、実際のソフトウェアエンジニアリング作業に近いタスクでAIコーディングエージェントを比較するため。

pricing

DeepSWEの価格とプラン

DeepSWEはフリーミアムモデルで運営されており、そのベンチマーク機能へのアクセスに無料プランを提供しています。有料プランや無料提供を超える高度な機能に関する具体的な詳細は公開されていませんが、フリーミアムモデルは、基本的なアクセスは無料で利用でき、有料プランを通じてプレミアム機能やより高い利用制限が利用可能であることを示唆しています。

  • 1Freemium: 無料プランあり

competitors

DeepSWEと競合製品の比較

DeepSWEは、既存のAIコーディング評価ツールに対して明確な利点を提供する、第二世代のベンチマークとして位置づけられています。

1

SWE-bench evaluates AI agents on their ability to resolve real-world software engineering issues sourced from GitHub, focusing on data contamination resistance and realistic problem-solving.

Similar to DeepSWE, SWE-bench focuses on evaluating agentic AI's problem-solving in coding. Its emphasis on real-world GitHub issues provides a large, diverse dataset, while DeepSWE emphasizes 'novel, unseen scenarios.' SWE-bench is a public benchmark, often used by researchers and companies to report model performance.

2
Snorkel Agentic Coding benchmark

This benchmark assesses AI agents on multi-step coding tasks in fully sandboxed environments, evaluating long-horizon planning, error recovery, and diverse software engineering capabilities.

Like DeepSWE, Snorkel's benchmark targets agentic AI and problem-solving in coding. It distinguishes itself by focusing on multi-step tasks and robust error recovery within sandboxed environments, aligning with DeepSWE's 'genuine problem-solving capabilities' on complex scenarios.

3

ProjDevBench evaluates AI coding agents on their ability to perform end-to-end project development, from system architecture design to iterative solution refinement.

While DeepSWE focuses on novel, unseen scenarios for problem-solving, ProjDevBench extends the scope to full project development, requiring agents to plan, implement, and integrate components at a higher level of abstraction. Both aim to assess deep coding capabilities beyond simple function generation.

よくある質問

+DeepSWEとは何ですか?

DeepSWEは、Datacurveによって開発されたAIコーディングベンチマークツールであり、研究者、モデルプロバイダー、およびエンジニアリングチームが、未知の新しいシナリオにおけるエージェントAIの真の問題解決能力を評価することを可能にします。現実的で長期的なソフトウェアエンジニアリングタスクにおけるAIのパフォーマンスを評価するための、汚染のない環境を提供します。

+DeepSWEは無料ですか?

DeepSWEはフリーミアムモデルで運営されており、ユーザーがそのベンチマーク機能にアクセスするための無料プランを提供しています。特定の有料プランや高度な機能に関する詳細は公開されていませんが、フリーミアム構造により、基本的なアクセスは無料で保証されています。

+DeepSWEの主な機能は何ですか?

DeepSWEの主な機能には、未知の新しいシナリオにおけるエージェントAIの真の問題解決能力の評価、91のオープンソースリポジトリにわたる113のタスクを備えた汚染のないベンチマークの提供、および堅牢な行動ベースの検証ツールの採用が含まれます。リポジトリ探索、複数ファイルの変更、行動の正確性におけるエージェントの能力を評価し、AIコーディングモデルのパフォーマンスに関する洞察を提供します。

+DeepSWEは誰が使うべきですか?

DeepSWEは主に、現実的で長期的なソフトウェアエンジニアリングタスクにおいて最先端のAIコーディングエージェントを厳密に評価・比較する必要がある研究者、モデルプロバイダー、およびエンジニアリングチームを対象としています。開発者、ビジネスオーナー、およびエンタープライズバイヤーも、AIモデルの真の問題解決能力を評価し、開発または調達の意思決定に役立てるためにこれを使用します。

+DeepSWEは代替製品と比較してどうですか?

DeepSWEは、公開されているGitHubコミットに依存するのではなく、未知のシナリオのためにゼロから作成された113の汚染のないタスクに焦点を当てることで、SWE-bench VerifiedやSWE-rebenchのような代替製品と差別化を図っています。EvalAIのような一般的なプラットフォームや、BraintrustのようなCI/CD統合ソリューションと比較して、DeepSWEは、複雑な実世界のソフトウェアエンジニアリングタスクにおけるAIコーディングエージェントを評価するための専門的なベンチマークであり、堅牢な行動ベースの検証を重視しています。

For builders

This page is doing a job for someone else’s tool.

AI agents read it. Buyers find it. Backlinks accrue. Your tool can have one too — live in 24 hours, indexed by Claude, ChatGPT, and Perplexity, queryable via MCP.