Skip to content

Revue de DeepSWE

DeepSWE est un benchmark de codage IA robuste conçu pour évaluer les véritables capacités de résolution de problèmes de l'IA agentique sur des scénarios nouveaux et inédits.

shipped 1 juin 2026aifreemium
DeepSWE - AI tool
1Évalue les agents de codage IA sur 113 tâches sans contamination, écrites de toutes pièces, à travers 91 dépôts open-source.
2Publié vers mai 2026 par Datacurve, établissant le GPT-5.5 d'OpenAI comme leader avec un taux de réussite de 70 %.
3Comprend des vérificateurs écrits à la main, basés sur le comportement, avec des taux de faux positifs rapportés de 0,3 % et des taux de faux négatifs de 1,1 %.
4Les tâches ont une moyenne de 2 158 caractères dans les invites et nécessitent des solutions d'une moyenne de 668 lignes de code réparties sur 7 fichiers.

Stork Quadrant

Dead Man Walking· 0/100

An LLM can do most of what this tool's UI promises. No moat, no agent presence.

This is a benchmark tool, which means its core product is a curated set of problems and a scoring harness. LLMs can generate novel coding problems, and the open-source community already produces competing benchmarks freely. There is no proprietary data, no network effect, no regulatory gate. This will be commoditized fast.

Claude Sonnet 4.6, scored 2026-06-01

Defensibility · 0/100

  • Physical-world coupling
  • Regulatory moat
  • Network liquidity
  • Proprietary refreshing data
  • High-trust catastrophic workflows
  • Multi-party coordination
  • Brand / community / taste

An LLM alone could replace

  • Generate coding problems or test cases for evaluating AI agents
  • Assess whether an AI solution is correct by reviewing code output
  • Produce benchmark-style prompts to probe edge cases in software engineering tasks
  • Summarize or compare AI model performance on coding tasks

Agent-Readiness · 0/100

  • Verified MCP
  • Listed on agent surfaces
  • Usage-based pricing
  • Headless agent auth
  • Public OpenAPI
  • Active changelog
  • llms.txt

How to defend

The only real move is to own a continuously refreshing problem set sourced from real production codebases under license — problems that can't be scraped or replicated — and sell access to that corpus to model labs who need eval data they can trust hasn't leaked into training sets.

  • Ship an MCP server and list it on Stork — biggest single point gain (+25).
  • Get listed in the Anthropic MCP registry, Cursor, or Claude Desktop (+20).
  • Add a usage-based or per-call tier; per-seat-only pricing dies when agents replace seats (+15).
  • Expose API-key auth with a self-serve sandbox tier; remove sales-call gates (+15).
  • Publish an OpenAPI spec at /openapi.json or /.well-known/openapi (+10).

DeepSWE at a Glance

Pricing
freemium
Key Features
Evaluates AI coding agents on 113 original, handcrafted tasks. · Achieves a false positive rate of 0.3% and false negative rate of 1.1% in verification. · OpenAI's GPT-5.5 led the initial leaderboard with a 70% success rate.
Alternatives
SWE-bench, Snorkel Agentic Coding benchmark, ProjDevBench
</>Embed "Featured on Stork" Badge
Badge previewBadge preview light
<a href="https://www.stork.ai/en/deepswe" target="_blank" rel="noopener noreferrer"><img src="https://www.stork.ai/api/badge/deepswe?style=dark" alt="DeepSWE - Featured on Stork.ai" height="36" /></a>
[![DeepSWE - Featured on Stork.ai](https://www.stork.ai/api/badge/deepswe?style=dark)](https://www.stork.ai/en/deepswe)

overview

Qu'est-ce que DeepSWE ?

DeepSWE est un outil de benchmark de codage IA développé par Datacurve qui permet aux chercheurs, aux fournisseurs de modèles et aux équipes d'ingénierie d'évaluer les véritables capacités de résolution de problèmes de l'IA agentique sur des scénarios nouveaux et inédits. Il offre un environnement sans contamination pour évaluer les performances de l'IA sur des tâches d'ingénierie logicielle réalistes et à long terme.

quick facts

Faits rapides

AttributValeur
DéveloppeurDatacurve
Modèle économiqueFreemium
TarificationFreemium : Niveau gratuit disponible
PlateformesWeb
API DisponibleOui (via le harnais d'évaluation sur GitHub)

features

Fonctionnalités clés de DeepSWE

DeepSWE intègre plusieurs fonctionnalités techniques conçues pour offrir une évaluation rigoureuse et fiable des agents de codage IA, en abordant les limitations observées dans les benchmarks précédents.

  • 1Évalue les véritables capacités de résolution de problèmes de l'IA agentique sur des scénarios nouveaux et inédits.
  • 2Fournit un benchmark sans contamination pour les agents de codage IA, avec 113 tâches écrites de toutes pièces.
  • 3Évalue les agents de codage IA sur des tâches d'ingénierie logicielle réalistes et à long terme à travers 91 dépôts open-source.
  • 4Compare les agents de codage IA sur des tâches plus proches du travail d'ingénierie logicielle réel que des puzzles de codage courts.
  • 5Mesure la capacité des agents en exploration de dépôts, modifications multi-fichiers, correction comportementale et vérification.
  • 6Évalue les nouveaux agents de codage IA et prend en charge la reproduction du classement du benchmark.
  • 7Offre des aperçus sur les tendances comportementales et les performances des modèles de codage IA.
  • 8Utilise des vérificateurs écrits à la main, basés sur le comportement, avec des taux de faux positifs rapportés de 0,3 % et des taux de faux négatifs de 1,1 %.

use cases

Qui devrait utiliser DeepSWE ?

DeepSWE est utilisé par diverses parties prenantes dans les domaines de l'IA et de l'ingénierie logicielle pour ses capacités d'évaluation spécialisées.

  • 1**Chercheurs :** Pour évaluer les agents de codage de pointe sur des tâches d'ingénierie logicielle originales et à long terme et identifier les forces et les faiblesses des modèles.
  • 2**Fournisseurs de modèles :** Pour évaluer de nouveaux agents de codage IA et reproduire les résultats du classement dans un environnement sans contamination.
  • 3**Équipes et dirigeants d'ingénierie :** Pour évaluer la capacité des agents en exploration de dépôts, modifications multi-fichiers, correction comportementale et vérification dans des scénarios réels.
  • 4**Développeurs :** Pour comprendre les tendances comportementales et les performances des modèles de codage IA et stimuler le développement de l'IA.
  • 5**Propriétaires d'entreprise et acheteurs d'entreprise :** Pour comparer les agents de codage IA sur des tâches plus proches du travail d'ingénierie logicielle réel afin d'éclairer les décisions d'approvisionnement.

pricing

Tarification et plans DeepSWE

DeepSWE fonctionne sur un modèle freemium, offrant un niveau gratuit pour l'accès à ses capacités de benchmark. Les détails spécifiques concernant les niveaux payants ou les fonctionnalités avancées au-delà de l'offre gratuite ne sont pas détaillés publiquement, mais le modèle freemium suggère qu'un accès de base est disponible sans coût, avec des fonctionnalités premium potentielles ou des limites d'utilisation plus élevées disponibles via des plans payants.

  • 1Freemium : Niveau gratuit disponible

competitors

DeepSWE vs Concurrents

DeepSWE est positionné comme un benchmark de deuxième génération, offrant des avantages distincts par rapport aux outils d'évaluation de codage IA existants.

1

SWE-bench evaluates AI agents on their ability to resolve real-world software engineering issues sourced from GitHub, focusing on data contamination resistance and realistic problem-solving.

Similar to DeepSWE, SWE-bench focuses on evaluating agentic AI's problem-solving in coding. Its emphasis on real-world GitHub issues provides a large, diverse dataset, while DeepSWE emphasizes 'novel, unseen scenarios.' SWE-bench is a public benchmark, often used by researchers and companies to report model performance.

2
Snorkel Agentic Coding benchmark

This benchmark assesses AI agents on multi-step coding tasks in fully sandboxed environments, evaluating long-horizon planning, error recovery, and diverse software engineering capabilities.

Like DeepSWE, Snorkel's benchmark targets agentic AI and problem-solving in coding. It distinguishes itself by focusing on multi-step tasks and robust error recovery within sandboxed environments, aligning with DeepSWE's 'genuine problem-solving capabilities' on complex scenarios.

3

ProjDevBench evaluates AI coding agents on their ability to perform end-to-end project development, from system architecture design to iterative solution refinement.

While DeepSWE focuses on novel, unseen scenarios for problem-solving, ProjDevBench extends the scope to full project development, requiring agents to plan, implement, and integrate components at a higher level of abstraction. Both aim to assess deep coding capabilities beyond simple function generation.

Questions fréquentes

+Qu'est-ce que DeepSWE ?

DeepSWE est un outil de benchmark de codage IA développé par Datacurve qui permet aux chercheurs, aux fournisseurs de modèles et aux équipes d'ingénierie d'évaluer les véritables capacités de résolution de problèmes de l'IA agentique sur des scénarios nouveaux et inédits. Il offre un environnement sans contamination pour évaluer les performances de l'IA sur des tâches d'ingénierie logicielle réalistes et à long terme.

+DeepSWE est-il gratuit ?

DeepSWE fonctionne sur un modèle freemium, offrant un niveau gratuit aux utilisateurs pour accéder à ses capacités de benchmark. Les détails sur les niveaux payants spécifiques ou les fonctionnalités avancées ne sont pas divulgués publiquement, mais la structure freemium garantit un accès de base sans coût.

+Quelles sont les principales fonctionnalités de DeepSWE ?

Les principales fonctionnalités de DeepSWE incluent l'évaluation des véritables capacités de résolution de problèmes de l'IA agentique sur des scénarios nouveaux et inédits, la fourniture d'un benchmark sans contamination avec 113 tâches à travers 91 dépôts open-source, et l'utilisation de vérificateurs robustes basés sur le comportement. Il évalue la capacité des agents en exploration de dépôts, modifications multi-fichiers et correction comportementale, offrant des aperçus sur les performances des modèles de codage IA.

+Qui devrait utiliser DeepSWE ?

DeepSWE est principalement destiné aux chercheurs, aux fournisseurs de modèles et aux équipes d'ingénierie qui ont besoin d'évaluer et de comparer rigoureusement les agents de codage IA de pointe sur des tâches d'ingénierie logicielle réalistes et à long terme. Les développeurs, les propriétaires d'entreprise et les acheteurs d'entreprise l'utilisent également pour évaluer les véritables capacités de résolution de problèmes des modèles d'IA et éclairer les décisions de développement ou d'approvisionnement.

+Comment DeepSWE se compare-t-il aux alternatives ?

DeepSWE se différencie des alternatives comme SWE-bench Verified et SWE-rebench en se concentrant sur 113 tâches sans contamination écrites de toutes pièces pour des scénarios nouveaux, plutôt que de s'appuyer sur des commits GitHub publics. Comparé aux plateformes générales comme EvalAI ou aux solutions intégrées au CI/CD comme Braintrust, DeepSWE est un benchmark spécialisé pour l'évaluation des agents de codage IA sur des tâches d'ingénierie logicielle complexes et réelles, mettant l'accent sur une vérification robuste basée sur le comportement.

For builders

This page is doing a job for someone else’s tool.

AI agents read it. Buyers find it. Backlinks accrue. Your tool can have one too — live in 24 hours, indexed by Claude, ChatGPT, and Perplexity, queryable via MCP.