O DeepSWE é gratuito?

DeepSWE opera em um modelo freemium, fornecendo uma camada gratuita para os usuários acessarem suas capacidades de benchmark. Detalhes sobre camadas pagas específicas ou recursos avançados não são divulgados publicamente, mas a estrutura freemium garante acesso básico sem custo.

Quais são as principais características do DeepSWE?

As principais características do DeepSWE incluem a avaliação das capacidades genuínas de resolução de problemas de IA agentica em cenários novos e nunca antes vistos, fornecendo um benchmark livre de contaminação com 113 tarefas em 91 repositórios de código aberto, e empregando verificadores robustos baseados em comportamento. Ele avalia a capacidade dos agentes em exploração de repositórios, alterações em vários arquivos e correção comportamental, oferecendo insights sobre o desempenho do modelo de codificação de IA.

Como o DeepSWE se compara às alternativas?

DeepSWE se diferencia de alternativas como SWE-bench Verified e SWE-rebench ao focar em 113 tarefas livres de contaminação, escritas do zero para cenários novos, em vez de depender de commits públicos do GitHub. Comparado a plataformas gerais como EvalAI ou soluções integradas com CI/CD como Braintrust, DeepSWE é um benchmark especializado para avaliar agentes de codificação de IA em tarefas complexas de engenharia de software do mundo real, enfatizando a verificação robusta e baseada em comportamento.

Ferramenta de IA

Análise do DeepSWE

Name: DeepSWE
Availability: OnlineOnly
Author: Stork.AI

DeepSWE é um benchmark robusto de codificação de IA projetado para avaliar as capacidades genuínas de resolução de problemas de IA agentica em cenários novos e nunca antes vistos.

shipped 1 de jun. de 2026aifreemium

Por que importa

1Avalia agentes de codificação de IA em 113 tarefas livres de contaminação, escritas do zero, abrangendo 91 repositórios de código aberto.

2Lançado por volta de maio de 2026 pela Datacurve, estabelecendo o GPT-5.5 da OpenAI como o líder com uma taxa de sucesso de 70%.

3Apresenta verificadores manuais baseados em comportamento com taxas de falsos positivos relatadas de 0,3% e taxas de falsos negativos de 1,1%.

4As tarefas têm uma média de 2.158 caracteres em prompts e exigem soluções com uma média de 668 linhas de código em 7 arquivos.

Stork’s verdict on DeepSWE

DeepSWE avalia as capacidades genuínas de resolução de problemas para agentes de codificação, embora alguns usuários questionem seus rankings de modelos.

DeepSWE reviewed by Stork AI · stork.ai/pt/deepswe

overview

O que é DeepSWE?

DeepSWE é uma ferramenta de benchmark de codificação de IA desenvolvida pela Datacurve que permite a pesquisadores, provedores de modelos e equipes de engenharia avaliar as capacidades genuínas de resolução de problemas de IA agentica em cenários novos e nunca antes vistos. Ele fornece um ambiente livre de contaminação para avaliar o desempenho da IA em tarefas de engenharia de software realistas e de longo prazo.

features

Principais Recursos do DeepSWE

DeepSWE incorpora várias características técnicas projetadas para fornecer uma avaliação rigorosa e confiável de agentes de codificação de IA, abordando limitações observadas em benchmarks anteriores.

Avalia as capacidades genuínas de resolução de problemas de IA agentica em cenários novos e nunca antes vistos.
Fornece um benchmark livre de contaminação para agentes de codificação de IA, com 113 tarefas escritas do zero.
Avalia agentes de codificação de IA em tarefas de engenharia de software realistas e de longo prazo em 91 repositórios de código aberto.
Compara agentes de codificação de IA em tarefas mais próximas do trabalho real de engenharia de software do que quebra-cabeças de codificação curtos.
Mede a capacidade dos agentes em exploração de repositórios, alterações em vários arquivos, correção comportamental e verificação.
Pontua novos agentes de codificação de IA e suporta a reprodução do placar do benchmark.
Oferece insights sobre as tendências comportamentais e o desempenho de modelos de codificação de IA.
Emprega verificadores manuais baseados em comportamento com taxas de falsos positivos relatadas de 0,3% e taxas de falsos negativos de 1,1%.

use cases

Quem Deve Usar o DeepSWE?

DeepSWE é utilizado por várias partes interessadas nos domínios da IA e engenharia de software por suas capacidades de avaliação especializadas.

Pesquisadores: Para avaliar agentes de codificação de ponta em tarefas de engenharia de software originais e de longo prazo e identificar pontos fortes e fracos do modelo.
Provedores de Modelos: Para fazer benchmark de novos agentes de codificação de IA e reproduzir resultados de placares em um ambiente livre de contaminação.
Equipes e Líderes de Engenharia: Para avaliar a capacidade dos agentes em exploração de repositórios, alterações em vários arquivos, correção comportamental e verificação em cenários do mundo real.
Desenvolvedores: Para entender as tendências comportamentais e o desempenho de modelos de codificação de IA e impulsionar o desenvolvimento de IA.
Proprietários de Negócios e Compradores Corporativos: Para comparar agentes de codificação de IA em tarefas mais próximas do trabalho real de engenharia de software para informar decisões de aquisição.

pricing

Preços e Planos do DeepSWE

DeepSWE opera em um modelo freemium, oferecendo uma camada gratuita para acesso às suas capacidades de benchmark. Detalhes específicos sobre camadas pagas ou recursos avançados além da oferta gratuita não são detalhados publicamente, mas o modelo freemium sugere que o acesso básico está disponível sem custo, com potenciais recursos premium ou limites de uso mais altos disponíveis através de planos pagos.

Freemium: Camada gratuita disponível

Pros

+Provides a contamination-free benchmark design, preventing models from 'cheating' on seen data.
+Evaluates genuine problem-solving capabilities on novel, unseen, long-horizon software engineering tasks.
+Utilizes a diverse set of 113 tasks from 91 active open-source repositories across five programming languages.
+Offers robust evaluation of repository exploration, multi-file changes, behavioral correctness, and verification.
+Addresses perceived flaws and a 'benchmark trust crisis' in existing AI coding evaluations.
+Includes open-source components (tasks, evaluation framework, mini-swe-agent harness) available on GitHub.

Cons

−Specific pricing for advanced features or enterprise solutions is not publicly detailed as of late 2026.
−Some user discussions indicate skepticism regarding the accuracy of certain model rankings and reported cost calculations.
−An API is not available for programmatic integration, limiting direct automation.
−The benchmark's focus is solely on coding tasks, not broader AI agent evaluation or hardware performance metrics.
−Requires familiarity with GitHub and the mini-swe-agent harness for full utilization and reproduction of results.

Ferramentas similares

DeepSWE vs Concorrentes

DeepSWE é posicionado como um benchmark de segunda geração, oferecendo vantagens distintas sobre as ferramentas existentes de avaliação de codificação de IA.

Galileo AIOn Stork Compare

Galileo AI provides a unified platform for evaluating, monitoring, and protecting GenAI applications and agents across their entire lifecycle, from development to production.

Galileo AI offers a comprehensive platform for agent evaluation and observability, similar to DeepSWE's goal of evaluating agentic AI. While DeepSWE focuses specifically on coding benchmarks for novel scenarios, Galileo AI provides broader evaluation and monitoring capabilities for various agentic behaviors, including tool orchestration and multi-step actions.

DeepEval (by Confident AI)On Stork Compare

DeepEval is an open-source, pytest-native LLM evaluation framework offering over 50 research-backed metrics for comprehensive agent evaluation across various use cases.

DeepEval is an open-source framework, aligning with DeepSWE's freemium model, and provides a programmatic way to evaluate AI agents, including their reasoning and action layers. DeepSWE specifically targets coding benchmarks for novel scenarios, whereas DeepEval offers a broader set of metrics for different AI agent behaviors, integrating directly into CI/CD workflows.

ProjDevBenchOn Stork Compare

ProjDevBench is an end-to-end benchmark designed to evaluate AI coding agents on their ability to develop complete, runnable software projects from high-level requirements.

ProjDevBench is a direct benchmark for evaluating AI coding agents on end-to-end project development, which closely mirrors DeepSWE's focus on evaluating problem-solving capabilities on novel coding scenarios. Unlike DeepSWE, which is described as a 'robust AI coding benchmark,' ProjDevBench is presented as a specific benchmark dataset and methodology for project-level evaluation.

Artificial Analysis AgentPerfOn Stork Compare

Artificial Analysis AgentPerf provides the industry's first multi-vendor open benchmarks for profiling real-world AI agent coding tasks, focusing on hardware performance under agentic workloads.

AgentPerf is a benchmark specifically for AI agent coding tasks, similar to DeepSWE. However, AgentPerf primarily measures hardware performance and concurrent agent support under real-world coding trajectories, using private test sets to prevent optimization, which aligns with 'novel scenarios.' DeepSWE focuses more broadly on the agent's problem-solving capabilities rather than the underlying hardware performance.

Visitar DeepSWE↗

AI Reputation Report

Is DeepSWE yours?

ChatGPT, Perplexity, Gemini, Claude & Grok answer buyer questions about DeepSWE every day. See whether they name DeepSWE — or send buyers to a rival.

See what AI saysfree preview