Skip to content
Ferramenta de IADead Man Walking

Análise do DeepSWE

DeepSWE é um benchmark robusto de codificação de IA projetado para avaliar as capacidades genuínas de resolução de problemas de IA agentica em cenários novos e nunca antes vistos.

shipped 1 de jun. de 2026aifreemium
DeepSWE - AI tool
1Avalia agentes de codificação de IA em 113 tarefas livres de contaminação, escritas do zero, abrangendo 91 repositórios de código aberto.
2Lançado por volta de maio de 2026 pela Datacurve, estabelecendo o GPT-5.5 da OpenAI como o líder com uma taxa de sucesso de 70%.
3Apresenta verificadores manuais baseados em comportamento com taxas de falsos positivos relatadas de 0,3% e taxas de falsos negativos de 1,1%.
4As tarefas têm uma média de 2.158 caracteres em prompts e exigem soluções com uma média de 668 linhas de código em 7 arquivos.

Stork Quadrant

Dead Man Walking· 0/100

An LLM can do most of what this tool's UI promises. No moat, no agent presence.

This is a benchmark tool, which means its core product is a curated set of problems and a scoring harness. LLMs can generate novel coding problems, and the open-source community already produces competing benchmarks freely. There is no proprietary data, no network effect, no regulatory gate. This will be commoditized fast.

Claude Sonnet 4.6, scored 2026-06-01

Defensibility · 0/100

  • Physical-world coupling
  • Regulatory moat
  • Network liquidity
  • Proprietary refreshing data
  • High-trust catastrophic workflows
  • Multi-party coordination
  • Brand / community / taste

An LLM alone could replace

  • Generate coding problems or test cases for evaluating AI agents
  • Assess whether an AI solution is correct by reviewing code output
  • Produce benchmark-style prompts to probe edge cases in software engineering tasks
  • Summarize or compare AI model performance on coding tasks

Agent-Readiness · 0/100

  • Verified MCP
  • Listed on agent surfaces
  • Usage-based pricing
  • Headless agent auth
  • Public OpenAPI
  • Active changelog
  • llms.txt

How to defend

The only real move is to own a continuously refreshing problem set sourced from real production codebases under license — problems that can't be scraped or replicated — and sell access to that corpus to model labs who need eval data they can trust hasn't leaked into training sets.

  • Ship an MCP server and list it on Stork — biggest single point gain (+25).
  • Get listed in the Anthropic MCP registry, Cursor, or Claude Desktop (+20).
  • Add a usage-based or per-call tier; per-seat-only pricing dies when agents replace seats (+15).
  • Expose API-key auth with a self-serve sandbox tier; remove sales-call gates (+15).
  • Publish an OpenAPI spec at /openapi.json or /.well-known/openapi (+10).

DeepSWE at a Glance

Pricing
freemium
Key Features
Evaluates AI coding agents on 113 original, handcrafted tasks. · Achieves a false positive rate of 0.3% and false negative rate of 1.1% in verification. · OpenAI's GPT-5.5 led the initial leaderboard with a 70% success rate.
Alternatives
SWE-bench, Snorkel Agentic Coding benchmark, ProjDevBench
</>Embed "Featured on Stork" Badge
Badge previewBadge preview light
<a href="https://www.stork.ai/en/deepswe" target="_blank" rel="noopener noreferrer"><img src="https://www.stork.ai/api/badge/deepswe?style=dark" alt="DeepSWE - Featured on Stork.ai" height="36" /></a>
[![DeepSWE - Featured on Stork.ai](https://www.stork.ai/api/badge/deepswe?style=dark)](https://www.stork.ai/en/deepswe)

overview

O que é DeepSWE?

DeepSWE é uma ferramenta de benchmark de codificação de IA desenvolvida pela Datacurve que permite a pesquisadores, provedores de modelos e equipes de engenharia avaliar as capacidades genuínas de resolução de problemas de IA agentica em cenários novos e nunca antes vistos. Ele fornece um ambiente livre de contaminação para avaliar o desempenho da IA em tarefas de engenharia de software realistas e de longo prazo.

quick facts

Fatos Rápidos

AtributoValor
DesenvolvedorDatacurve
Modelo de NegócioFreemium
PreçoFreemium: Camada gratuita disponível
PlataformasWeb
API DisponívelSim (via harness de avaliação no GitHub)

features

Principais Recursos do DeepSWE

DeepSWE incorpora várias características técnicas projetadas para fornecer uma avaliação rigorosa e confiável de agentes de codificação de IA, abordando limitações observadas em benchmarks anteriores.

  • 1Avalia as capacidades genuínas de resolução de problemas de IA agentica em cenários novos e nunca antes vistos.
  • 2Fornece um benchmark livre de contaminação para agentes de codificação de IA, com 113 tarefas escritas do zero.
  • 3Avalia agentes de codificação de IA em tarefas de engenharia de software realistas e de longo prazo em 91 repositórios de código aberto.
  • 4Compara agentes de codificação de IA em tarefas mais próximas do trabalho real de engenharia de software do que quebra-cabeças de codificação curtos.
  • 5Mede a capacidade dos agentes em exploração de repositórios, alterações em vários arquivos, correção comportamental e verificação.
  • 6Pontua novos agentes de codificação de IA e suporta a reprodução do placar do benchmark.
  • 7Oferece insights sobre as tendências comportamentais e o desempenho de modelos de codificação de IA.
  • 8Emprega verificadores manuais baseados em comportamento com taxas de falsos positivos relatadas de 0,3% e taxas de falsos negativos de 1,1%.

use cases

Quem Deve Usar o DeepSWE?

DeepSWE é utilizado por várias partes interessadas nos domínios da IA e engenharia de software por suas capacidades de avaliação especializadas.

  • 1**Pesquisadores:** Para avaliar agentes de codificação de ponta em tarefas de engenharia de software originais e de longo prazo e identificar pontos fortes e fracos do modelo.
  • 2**Provedores de Modelos:** Para fazer benchmark de novos agentes de codificação de IA e reproduzir resultados de placares em um ambiente livre de contaminação.
  • 3**Equipes e Líderes de Engenharia:** Para avaliar a capacidade dos agentes em exploração de repositórios, alterações em vários arquivos, correção comportamental e verificação em cenários do mundo real.
  • 4**Desenvolvedores:** Para entender as tendências comportamentais e o desempenho de modelos de codificação de IA e impulsionar o desenvolvimento de IA.
  • 5**Proprietários de Negócios e Compradores Corporativos:** Para comparar agentes de codificação de IA em tarefas mais próximas do trabalho real de engenharia de software para informar decisões de aquisição.

pricing

Preços e Planos do DeepSWE

DeepSWE opera em um modelo freemium, oferecendo uma camada gratuita para acesso às suas capacidades de benchmark. Detalhes específicos sobre camadas pagas ou recursos avançados além da oferta gratuita não são detalhados publicamente, mas o modelo freemium sugere que o acesso básico está disponível sem custo, com potenciais recursos premium ou limites de uso mais altos disponíveis através de planos pagos.

  • 1Freemium: Camada gratuita disponível

competitors

DeepSWE vs Concorrentes

DeepSWE é posicionado como um benchmark de segunda geração, oferecendo vantagens distintas sobre as ferramentas existentes de avaliação de codificação de IA.

1

SWE-bench evaluates AI agents on their ability to resolve real-world software engineering issues sourced from GitHub, focusing on data contamination resistance and realistic problem-solving.

Similar to DeepSWE, SWE-bench focuses on evaluating agentic AI's problem-solving in coding. Its emphasis on real-world GitHub issues provides a large, diverse dataset, while DeepSWE emphasizes 'novel, unseen scenarios.' SWE-bench is a public benchmark, often used by researchers and companies to report model performance.

2
Snorkel Agentic Coding benchmark

This benchmark assesses AI agents on multi-step coding tasks in fully sandboxed environments, evaluating long-horizon planning, error recovery, and diverse software engineering capabilities.

Like DeepSWE, Snorkel's benchmark targets agentic AI and problem-solving in coding. It distinguishes itself by focusing on multi-step tasks and robust error recovery within sandboxed environments, aligning with DeepSWE's 'genuine problem-solving capabilities' on complex scenarios.

3

ProjDevBench evaluates AI coding agents on their ability to perform end-to-end project development, from system architecture design to iterative solution refinement.

While DeepSWE focuses on novel, unseen scenarios for problem-solving, ProjDevBench extends the scope to full project development, requiring agents to plan, implement, and integrate components at a higher level of abstraction. Both aim to assess deep coding capabilities beyond simple function generation.

Perguntas frequentes

+O que é DeepSWE?

DeepSWE é uma ferramenta de benchmark de codificação de IA desenvolvida pela Datacurve que permite a pesquisadores, provedores de modelos e equipes de engenharia avaliar as capacidades genuínas de resolução de problemas de IA agentica em cenários novos e nunca antes vistos. Ele fornece um ambiente livre de contaminação para avaliar o desempenho da IA em tarefas de engenharia de software realistas e de longo prazo.

+O DeepSWE é gratuito?

DeepSWE opera em um modelo freemium, fornecendo uma camada gratuita para os usuários acessarem suas capacidades de benchmark. Detalhes sobre camadas pagas específicas ou recursos avançados não são divulgados publicamente, mas a estrutura freemium garante acesso básico sem custo.

+Quais são as principais características do DeepSWE?

As principais características do DeepSWE incluem a avaliação das capacidades genuínas de resolução de problemas de IA agentica em cenários novos e nunca antes vistos, fornecendo um benchmark livre de contaminação com 113 tarefas em 91 repositórios de código aberto, e empregando verificadores robustos baseados em comportamento. Ele avalia a capacidade dos agentes em exploração de repositórios, alterações em vários arquivos e correção comportamental, oferecendo insights sobre o desempenho do modelo de codificação de IA.

+Quem deve usar o DeepSWE?

DeepSWE é destinado principalmente a pesquisadores, provedores de modelos e equipes de engenharia que precisam avaliar e comparar rigorosamente agentes de codificação de IA de ponta em tarefas de engenharia de software realistas e de longo prazo. Desenvolvedores, proprietários de negócios e compradores corporativos também o utilizam para avaliar as verdadeiras capacidades de resolução de problemas de modelos de IA e informar decisões de desenvolvimento ou aquisição.

+Como o DeepSWE se compara às alternativas?

DeepSWE se diferencia de alternativas como SWE-bench Verified e SWE-rebench ao focar em 113 tarefas livres de contaminação, escritas do zero para cenários novos, em vez de depender de commits públicos do GitHub. Comparado a plataformas gerais como EvalAI ou soluções integradas com CI/CD como Braintrust, DeepSWE é um benchmark especializado para avaliar agentes de codificação de IA em tarefas complexas de engenharia de software do mundo real, enfatizando a verificação robusta e baseada em comportamento.

For builders

This page is doing a job for someone else’s tool.

AI agents read it. Buyers find it. Backlinks accrue. Your tool can have one too — live in 24 hours, indexed by Claude, ChatGPT, and Perplexity, queryable via MCP.