Skip to content
Ferramenta de IADead Man Walking

Revisão do SWEbench

SWEbench é um benchmark para avaliar as capacidades de engenharia de software de grandes modelos de linguagem, focado principalmente em correções de bugs de problemas reais do GitHub.

shipped 1 de jun. de 2026aifreemium
SWEbench - AI tool for swebench. Professional illustration showing core functionality and features.
1SWE-bench Verified, lançado em 13 de agosto de 2024, compreende 500 problemas solucionáveis confirmados por engenheiros.
2Em 27 de junho de 2024, o SWE-bench fez a transição para um sistema de avaliação totalmente containerizado usando Docker para maior reprodutibilidade.
3Em 2 de abril de 2024, o SWE-agent alcançou resultados de ponta no conjunto completo de testes do SWE-bench.
4O SWE-Smith Multilingual expandiu para suportar JavaScript com 6.099 patches validados até 13 de janeiro de 2026.

Stork Quadrant

Dead Man Walking· 12/100

An LLM can do most of what this tool's UI promises. No moat, no agent presence.

SWEbench is a benchmark, not a product — its value is being the agreed-upon measuring stick the industry uses to compare models. That brand authority is real: when Anthropic, OpenAI, and Google all cite your numbers, you have cultural lock-in that's hard to dislodge. But benchmarks get gamed, forked, and superseded fast. The data moat is thin — the GitHub issues and PRs are public — so the real moat is being first and cited enough that switching costs are social, not technical.

Claude Sonnet 4.6, scored 2026-06-01

Defensibility · 22/100

  • Physical-world coupling
  • Regulatory moat
  • Network liquidity
  • Proprietary refreshing data
  • High-trust catastrophic workflows
  • Multi-party coordination
  • Brand / community / taste

An LLM alone could replace

  • Generate a set of coding tasks or bug-fix prompts for testing an LLM
  • Evaluate whether a code patch is correct by describing expected behavior
  • Summarize model performance across a set of software engineering tasks
  • Write test cases to validate bug fixes

Agent-Readiness · 0/100

  • Verified MCP
  • Listed on agent surfaces
  • Usage-based pricing
  • Headless agent auth
  • Public OpenAPI
  • Active changelog
  • llms.txt

How to defend

Continuously expand the benchmark with harder, more diverse, and more recent tasks that can't be memorized by training data. Build the coordination layer — become the neutral third-party evaluation infrastructure that labs pay to run certified evals on, adding a trust and process moat on top of the brand.

  • Ship an MCP server and list it on Stork — biggest single point gain (+25).
  • Get listed in the Anthropic MCP registry, Cursor, or Claude Desktop (+20).
  • Add a usage-based or per-call tier; per-seat-only pricing dies when agents replace seats (+15).
  • Expose API-key auth with a self-serve sandbox tier; remove sales-call gates (+15).
  • Publish an OpenAPI spec at /openapi.json or /.well-known/openapi (+10).

SWEbench at a Glance

Pricing
freemium
Key Features
SWE-bench Verified, released August 13, 2024, comprises 500 engineer-confirmed solvable problems. · On June 27, 2024, SWE-bench transitioned to a fully containerized evaluation harness using Docker for enhanced reproducibility. · As of April 2, 2024, SWE-agent achieved state-of-the-art results on the full SWE-bench test set.
Alternatives
HumanEvalFix, RepoFixEval, LiveCodeBench, SM-100 (by Bismuth)
</>Embed "Featured on Stork" Badge
Badge previewBadge preview light
<a href="https://www.stork.ai/en/swebench" target="_blank" rel="noopener noreferrer"><img src="https://www.stork.ai/api/badge/swebench?style=dark" alt="SWEbench - Featured on Stork.ai" height="36" /></a>
[![SWEbench - Featured on Stork.ai](https://www.stork.ai/api/badge/swebench?style=dark)](https://www.stork.ai/en/swebench)

overview

O que é o SWEbench?

SWEbench é uma ferramenta de benchmark desenvolvida por uma iniciativa de pesquisa que permite que desenvolvedores e pesquisadores de Large Language Model (LLM) avaliem as capacidades de engenharia de software de grandes modelos de linguagem. Ele se concentra principalmente em avaliar a capacidade de agentes de codificação de IA para resolver problemas de software do mundo real do GitHub. Esta plataforma simula desafios de codificação complexos, fornecendo uma base de código e uma descrição do problema, incumbindo o LLM de gerar um patch que resolva o problema. O SWEbench serve como uma plataforma de avaliação rigorosa para IA no desenvolvimento de software, avaliando agentes de codificação de IA em sua capacidade de entender, navegar e corrigir bugs reais ou implementar recursos em grandes bases de código existentes. Ele visa impulsionar os modelos de IA para melhorar os padrões de codificação, produtividade e resolução de bugs, estabelecendo benchmarks elevados.

quick facts

Fatos Rápidos

AtributoValor
DesenvolvedorIniciativa de Pesquisa
Modelo de NegócioFreemium
PreçoFreemium (benchmark principal gratuito para pesquisa)
Fonte de Dadosproblemas de software do mundo real do GitHub
API DisponívelNão
Treinamento em Dados do Usuáriosempre

features

Principais Recursos do SWEbench

O SWEbench oferece um conjunto abrangente de recursos projetados para a avaliação e desenvolvimento rigorosos de modelos de codificação de IA, com foco em desafios de engenharia de software do mundo real.

  • 1Avalia as capacidades de engenharia de software de grandes modelos de linguagem em problemas do mundo real.
  • 2Focado principalmente em correções de bugs de problemas do GitHub para relevância prática.
  • 3Suporta o treinamento de modelos de codificação de IA usando conjuntos de dados pré-processados.
  • 4Permite executar inferência em modelos de IA existentes para resolução de problemas de software.
  • 5Permite a criação de novas tarefas SWE-bench a partir de repositórios personalizados.
  • 6Facilita o benchmarking e a comparação do desempenho de diferentes sistemas de codificação de IA.
  • 7Oferece um sistema de avaliação totalmente containerizado usando Docker para avaliações reproduzíveis.
  • 8Inclui SWE-bench Verified, um subconjunto de 500 problemas solucionáveis confirmados por engenheiros.
  • 9Apresenta SWE-bench Multimodal, integrando problemas com elementos visuais como imagens e diagramas (a partir de 13 de janeiro de 2025).
  • 10Fornece avaliações baseadas em nuvem via Modal (a partir de 11 de janeiro de 2025).

use cases

Quem Deve Usar o SWEbench?

O SWEbench é projetado para públicos específicos engajados no desenvolvimento, avaliação e aplicação de inteligência artificial em engenharia de software.

  • 1**Desenvolvedores e Pesquisadores de Large Language Model (LLM):** Para avaliar LLMs em tarefas de engenharia de software do mundo real e comparar o desempenho.
  • 2**Desenvolvedores de Sistemas de IA:** Para benchmarking e comparação do desempenho de diferentes sistemas de codificação de IA e aprimoramento do Software Development Life Cycle (SDLC).
  • 3**Engenheiros de Software e Equipes de Engenharia:** Para identificar habilidades de codificação do mundo real de agentes de IA e potencialmente integrar IA para resolução de bugs.
  • 4**Profissionais de Machine Learning:** Para treinar modelos de codificação de IA usando conjuntos de dados pré-processados e executar inferência em modelos de IA existentes.
  • 5**Pesquisadores de NLP:** Para explorar a aplicação de processamento de linguagem natural em tarefas complexas de compreensão e geração de código.

pricing

Preços e Planos do SWEbench

O SWEbench opera em um modelo freemium, servindo principalmente como um benchmark de pesquisa. O benchmark principal, conjuntos de dados e o sistema de avaliação estão geralmente disponíveis gratuitamente, apoiando esforços de pesquisa e desenvolvimento acadêmicos. Ofertas comerciais ou de nível empresarial específicas com recursos avançados ou suporte dedicado não são detalhadas publicamente.

  • 1Nível Gratuito: Acesso ao benchmark principal, conjuntos de dados e ferramentas de avaliação para uso acadêmico e de pesquisa.
  • 2Níveis Premium: Não detalhados publicamente; potencial para serviços de avaliação empresarial ou avançados pode existir, mas não é especificado.

competitors

SWEbench vs Concorrentes

O SWEbench é posicionado como um benchmark líder para avaliar as capacidades de engenharia de software de ponta a ponta de LLMs, com foco particular em correções de bugs do mundo real. Ele se diferencia de outros benchmarks por sua ênfase em problemas autênticos do GitHub e resolução de problemas em nível de repositório.

1
HumanEvalFix

It evaluates large language models' ability to fix bugs in manually corrupted canonical solutions from the original HumanEval code generation benchmark.

Unlike SWEbench, which focuses on real-world, repository-level bug fixes from GitHub issues, HumanEvalFix assesses function-level bug-fixing capabilities in a more controlled, synthetically bugged environment. Both are research benchmarks and generally available for free.

2
RepoFixEval

This benchmark provides a repository-level Automatic Program Repair (APR) evaluation, including original buggy programs, associated issue reports, corresponding fixes, and unit tests from real-world Python projects.

RepoFixEval is highly similar to SWEbench in its focus on real-world, repository-level bug fixing. However, RepoFixEval introduces a structured three-step evaluation framework encompassing issue discovery, bug localization, and fix generation. Both are academic benchmarks and typically freemium.

3
LiveCodeBench

It offers a holistic and contamination-free evaluation of LLMs for code, continuously collecting new problems and focusing on broader code-related capabilities like self-repair, code execution, and test output prediction.

While SWEbench specifically targets bug fixes from real-world GitHub issues, LiveCodeBench provides a broader evaluation of coding capabilities, including self-repair, code generation, and test output prediction, using problems from competitive programming platforms. Both are research-oriented benchmarks and generally freemium.

4
SM-100 (by Bismuth)

This benchmark comprehensively evaluates AI agents' capabilities in software maintenance tasks, specifically bug detection and fixing, across multiple programming languages.

SM-100, like SWEbench, focuses on real-world bug detection and fixing in software. However, SM-100 emphasizes the broader 'software maintenance' aspect and covers multiple languages beyond Python, which is the primary focus of SWEbench. Both are research-driven benchmarks.

Perguntas frequentes

+O que é o SWEbench?

SWEbench é uma ferramenta de benchmark desenvolvida por uma iniciativa de pesquisa que permite que desenvolvedores e pesquisadores de Large Language Model (LLM) avaliem as capacidades de engenharia de software de grandes modelos de linguagem. Ele se concentra principalmente em avaliar a capacidade de agentes de codificação de IA para resolver problemas de software do mundo real do GitHub.

+O SWEbench é gratuito?

O SWEbench opera em um modelo freemium. O benchmark principal, conjuntos de dados e o sistema de avaliação estão geralmente disponíveis gratuitamente, apoiando principalmente esforços de pesquisa e desenvolvimento acadêmicos. Ofertas comerciais ou de nível empresarial específicas não são detalhadas publicamente.

+Quais são os principais recursos do SWEbench?

Os principais recursos do SWEbench incluem a avaliação de LLMs em correções de bugs do GitHub do mundo real, suporte ao treinamento de modelos de codificação de IA, habilitação de inferência em modelos existentes, permissão para criação de novas tarefas a partir de repositórios personalizados e facilitação de benchmarking abrangente. Ele também oferece um sistema de avaliação containerizado e inclui versões especializadas como SWE-bench Verified e SWE-bench Multimodal.

+Quem deve usar o SWEbench?

O SWEbench é destinado principalmente a desenvolvedores e pesquisadores de Large Language Model (LLM), desenvolvedores de sistemas de IA, engenheiros de software, profissionais de machine learning e pesquisadores de NLP que estão focados em avaliar e melhorar as capacidades da IA em tarefas de engenharia de software do mundo real, particularmente a resolução de bugs.

+Como o SWEbench se compara às alternativas?

O SWEbench se distingue por focar em correções de bugs do mundo real, em nível de repositório, a partir de problemas do GitHub, ao contrário do HumanEvalFix que usa problemas de nível de função com bugs sintéticos. Embora semelhante ao RepoFixEval em escopo, o SWEbench não usa explicitamente uma estrutura de avaliação de três etapas. Comparado ao LiveCodeBench, o SWEbench é mais especializado em correção de bugs, enquanto o LiveCodeBench oferece uma avaliação mais ampla das capacidades de codificação. Em relação ao SM-100, o SWEbench se concentra principalmente em Python, enquanto o SM-100 abrange várias linguagens de programação para tarefas de manutenção de software.

For builders

This page is doing a job for someone else’s tool.

AI agents read it. Buyers find it. Backlinks accrue. Your tool can have one too — live in 24 hours, indexed by Claude, ChatGPT, and Perplexity, queryable via MCP.