Skip to content

DeepSWE Bewertung

DeepSWE ist ein robuster AI-Coding-Benchmark, der entwickelt wurde, um die echten Problemlösungsfähigkeiten von agentischer AI in neuartigen, ungesehenen Szenarien zu bewerten.

shipped 1. Juni 2026aifreemium
DeepSWE - AI tool
1Bewertet AI-Coding-Agenten anhand von 113 kontaminationsfreien Aufgaben, die von Grund auf neu erstellt wurden, über 91 Open-Source-Repositories hinweg.
2Veröffentlicht um Mai 2026 von Datacurve, etabliert OpenAI's GPT-5.5 als führend mit einer Erfolgsquote von 70%.
3Verfügt über handgeschriebene, verhaltensbasierte Verifizierer mit gemeldeten Fehlalarmraten von 0,3% und Fehlnegativraten von 1,1%.
4Aufgaben umfassen durchschnittlich 2.158 Zeichen in Prompts und erfordern Lösungen von durchschnittlich 668 Codezeilen über 7 Dateien hinweg.

Stork Quadrant

Dead Man Walking· 0/100

An LLM can do most of what this tool's UI promises. No moat, no agent presence.

This is a benchmark tool, which means its core product is a curated set of problems and a scoring harness. LLMs can generate novel coding problems, and the open-source community already produces competing benchmarks freely. There is no proprietary data, no network effect, no regulatory gate. This will be commoditized fast.

Claude Sonnet 4.6, scored 2026-06-01

Defensibility · 0/100

  • Physical-world coupling
  • Regulatory moat
  • Network liquidity
  • Proprietary refreshing data
  • High-trust catastrophic workflows
  • Multi-party coordination
  • Brand / community / taste

An LLM alone could replace

  • Generate coding problems or test cases for evaluating AI agents
  • Assess whether an AI solution is correct by reviewing code output
  • Produce benchmark-style prompts to probe edge cases in software engineering tasks
  • Summarize or compare AI model performance on coding tasks

Agent-Readiness · 0/100

  • Verified MCP
  • Listed on agent surfaces
  • Usage-based pricing
  • Headless agent auth
  • Public OpenAPI
  • Active changelog
  • llms.txt

How to defend

The only real move is to own a continuously refreshing problem set sourced from real production codebases under license — problems that can't be scraped or replicated — and sell access to that corpus to model labs who need eval data they can trust hasn't leaked into training sets.

  • Ship an MCP server and list it on Stork — biggest single point gain (+25).
  • Get listed in the Anthropic MCP registry, Cursor, or Claude Desktop (+20).
  • Add a usage-based or per-call tier; per-seat-only pricing dies when agents replace seats (+15).
  • Expose API-key auth with a self-serve sandbox tier; remove sales-call gates (+15).
  • Publish an OpenAPI spec at /openapi.json or /.well-known/openapi (+10).

DeepSWE at a Glance

Pricing
freemium
Key Features
Evaluates AI coding agents on 113 original, handcrafted tasks. · Achieves a false positive rate of 0.3% and false negative rate of 1.1% in verification. · OpenAI's GPT-5.5 led the initial leaderboard with a 70% success rate.
Alternatives
SWE-bench, Snorkel Agentic Coding benchmark, ProjDevBench
</>Embed "Featured on Stork" Badge
Badge previewBadge preview light
<a href="https://www.stork.ai/en/deepswe" target="_blank" rel="noopener noreferrer"><img src="https://www.stork.ai/api/badge/deepswe?style=dark" alt="DeepSWE - Featured on Stork.ai" height="36" /></a>
[![DeepSWE - Featured on Stork.ai](https://www.stork.ai/api/badge/deepswe?style=dark)](https://www.stork.ai/en/deepswe)

overview

Was ist DeepSWE?

DeepSWE ist ein von Datacurve entwickeltes AI-Coding-Benchmark-Tool, das Forschern, Modell-Anbietern und Ingenieurteams ermöglicht, die echten Problemlösungsfähigkeiten von agentischer AI in neuartigen, ungesehenen Szenarien zu bewerten. Es bietet eine kontaminationsfreie Umgebung zur Beurteilung der AI-Leistung bei realistischen, langfristigen Software-Engineering-Aufgaben.

quick facts

Kurze Fakten

AttributWert
EntwicklerDatacurve
GeschäftsmodellFreemium
PreisgestaltungFreemium: Kostenlose Stufe verfügbar
PlattformenWeb
API verfügbarJa (über Evaluation Harness auf GitHub)

features

Hauptmerkmale von DeepSWE

DeepSWE integriert mehrere technische Merkmale, die eine rigorose und zuverlässige Bewertung von AI-Coding-Agenten ermöglichen und Einschränkungen früherer Benchmarks adressieren.

  • 1Bewertet die echten Problemlösungsfähigkeiten von agentischer AI in neuartigen, ungesehenen Szenarien.
  • 2Bietet einen kontaminationsfreien Benchmark für AI-Coding-Agenten mit 113 von Grund auf neu erstellten Aufgaben.
  • 3Beurteilt AI-Coding-Agenten bei realistischen, langfristigen Software-Engineering-Aufgaben über 91 Open-Source-Repositories hinweg.
  • 4Vergleicht AI-Coding-Agenten bei Aufgaben, die näher an echter Software-Engineering-Arbeit liegen als kurze Coding-Rätsel.
  • 5Misst die Fähigkeit von Agenten in Repository-Exploration, Multi-Datei-Änderungen, Verhaltenskorrektheit und Verifikation.
  • 6Bewertet neue AI-Coding-Agenten und unterstützt die Reproduktion der Benchmark-Bestenliste.
  • 7Bietet Einblicke in die Verhaltensweisen und die Leistung von AI-Coding-Modellen.
  • 8Setzt handgeschriebene, verhaltensbasierte Verifizierer mit gemeldeten Fehlalarmraten von 0,3% und Fehlnegativraten von 1,1% ein.

use cases

Wer sollte DeepSWE nutzen?

DeepSWE wird von verschiedenen Akteuren in den Bereichen AI und Software-Engineering aufgrund seiner spezialisierten Bewertungsfähigkeiten genutzt.

  • 1**Forscher:** Zur Bewertung von führenden Coding-Agenten bei originellen, langfristigen Software-Engineering-Aufgaben und zur Identifizierung von Modellstärken und -schwächen.
  • 2**Modell-Anbieter:** Zum Benchmarking neuer AI-Coding-Agenten und zur Reproduktion von Bestenlisten-Ergebnissen in einer kontaminationsfreien Umgebung.
  • 3**Ingenieurteams & Führungskräfte:** Zur Beurteilung der Fähigkeit von Agenten in Repository-Exploration, Multi-Datei-Änderungen, Verhaltenskorrektheit und Verifikation in realen Szenarien.
  • 4**Entwickler:** Zum Verständnis der Verhaltensweisen und der Leistung von AI-Coding-Modellen und zur Förderung der AI-Entwicklung.
  • 5**Geschäftsinhaber & Unternehmenskäufer:** Zum Vergleich von AI-Coding-Agenten bei Aufgaben, die näher an echter Software-Engineering-Arbeit liegen, um Beschaffungsentscheidungen zu treffen.

pricing

DeepSWE Preise & Pläne

DeepSWE basiert auf einem Freemium-Modell und bietet eine kostenlose Stufe für den Zugang zu seinen Benchmark-Funktionen. Spezifische Details zu kostenpflichtigen Stufen oder erweiterten Funktionen über das kostenlose Angebot hinaus sind nicht öffentlich detailliert, aber das Freemium-Modell deutet darauf hin, dass ein grundlegender Zugang kostenlos verfügbar ist, mit potenziellen Premium-Funktionen oder höheren Nutzungslimits, die über kostenpflichtige Pläne erhältlich sind.

  • 1Freemium: Kostenlose Stufe verfügbar

competitors

DeepSWE vs. Wettbewerber

DeepSWE ist als Benchmark der zweiten Generation positioniert und bietet deutliche Vorteile gegenüber bestehenden AI-Coding-Bewertungstools.

1

SWE-bench evaluates AI agents on their ability to resolve real-world software engineering issues sourced from GitHub, focusing on data contamination resistance and realistic problem-solving.

Similar to DeepSWE, SWE-bench focuses on evaluating agentic AI's problem-solving in coding. Its emphasis on real-world GitHub issues provides a large, diverse dataset, while DeepSWE emphasizes 'novel, unseen scenarios.' SWE-bench is a public benchmark, often used by researchers and companies to report model performance.

2
Snorkel Agentic Coding benchmark

This benchmark assesses AI agents on multi-step coding tasks in fully sandboxed environments, evaluating long-horizon planning, error recovery, and diverse software engineering capabilities.

Like DeepSWE, Snorkel's benchmark targets agentic AI and problem-solving in coding. It distinguishes itself by focusing on multi-step tasks and robust error recovery within sandboxed environments, aligning with DeepSWE's 'genuine problem-solving capabilities' on complex scenarios.

3

ProjDevBench evaluates AI coding agents on their ability to perform end-to-end project development, from system architecture design to iterative solution refinement.

While DeepSWE focuses on novel, unseen scenarios for problem-solving, ProjDevBench extends the scope to full project development, requiring agents to plan, implement, and integrate components at a higher level of abstraction. Both aim to assess deep coding capabilities beyond simple function generation.

Häufig gestellte Fragen

+Was ist DeepSWE?

DeepSWE ist ein von Datacurve entwickeltes AI-Coding-Benchmark-Tool, das Forschern, Modell-Anbietern und Ingenieurteams ermöglicht, die echten Problemlösungsfähigkeiten von agentischer AI in neuartigen, ungesehenen Szenarien zu bewerten. Es bietet eine kontaminationsfreie Umgebung zur Beurteilung der AI-Leistung bei realistischen, langfristigen Software-Engineering-Aufgaben.

+Ist DeepSWE kostenlos?

DeepSWE basiert auf einem Freemium-Modell und bietet eine kostenlose Stufe, damit Benutzer auf seine Benchmark-Funktionen zugreifen können. Details zu spezifischen kostenpflichtigen Stufen oder erweiterten Funktionen werden nicht öffentlich bekannt gegeben, aber die Freemium-Struktur gewährleistet einen kostenlosen Basiszugang.

+Was sind die Hauptmerkmale von DeepSWE?

Zu den Hauptmerkmalen von DeepSWE gehören die Bewertung der echten Problemlösungsfähigkeiten von agentischer AI in neuartigen, ungesehenen Szenarien, die Bereitstellung eines kontaminationsfreien Benchmarks mit 113 Aufgaben über 91 Open-Source-Repositories hinweg und der Einsatz robuster, verhaltensbasierter Verifizierer. Es beurteilt die Fähigkeit von Agenten in Repository-Exploration, Multi-Datei-Änderungen und Verhaltenskorrektheit und bietet Einblicke in die Leistung von AI-Coding-Modellen.

+Wer sollte DeepSWE nutzen?

DeepSWE ist primär für Forscher, Modell-Anbieter und Ingenieurteams gedacht, die führende AI-Coding-Agenten bei realistischen, langfristigen Software-Engineering-Aufgaben rigoros bewerten und vergleichen müssen. Entwickler, Geschäftsinhaber und Unternehmenskäufer nutzen es auch, um die wahren Problemlösungsfähigkeiten von AI-Modellen zu beurteilen und Entwicklungs- oder Beschaffungsentscheidungen zu treffen.

+Wie schneidet DeepSWE im Vergleich zu Alternativen ab?

DeepSWE unterscheidet sich von Alternativen wie SWE-bench Verified und SWE-rebench, indem es sich auf 113 kontaminationsfreie, von Grund auf neu erstellte Aufgaben für neuartige Szenarien konzentriert, anstatt sich auf öffentliche GitHub-Commits zu verlassen. Im Vergleich zu allgemeinen Plattformen wie EvalAI oder CI/CD-integrierten Lösungen wie Braintrust ist DeepSWE ein spezialisierter Benchmark zur Bewertung von AI-Coding-Agenten bei komplexen, realen Software-Engineering-Aufgaben, wobei die robuste, verhaltensbasierte Verifikation im Vordergrund steht.

For builders

This page is doing a job for someone else’s tool.

AI agents read it. Buyers find it. Backlinks accrue. Your tool can have one too — live in 24 hours, indexed by Claude, ChatGPT, and Perplexity, queryable via MCP.