Skip to content

Revue de SWEbench

SWEbench est un benchmark pour évaluer les capacités d'ingénierie logicielle des grands modèles de langage, principalement axé sur la correction de bugs issus de problèmes GitHub réels.

shipped 1 juin 2026aifreemium
SWEbench - AI tool for swebench. Professional illustration showing core functionality and features.
1SWE-bench Verified, lancé le 13 août 2024, comprend 500 problèmes résolubles confirmés par des ingénieurs.
2Le 27 juin 2024, SWE-bench est passé à un environnement d'évaluation entièrement conteneurisé utilisant Docker pour une reproductibilité améliorée.
3Au 2 avril 2024, SWE-agent a obtenu des résultats de pointe sur l'ensemble complet de tests SWE-bench.
4SWE-Smith Multilingual s'est étendu pour prendre en charge JavaScript avec 6 099 correctifs validés d'ici le 13 janvier 2026.

Stork Quadrant

Dead Man Walking· 12/100

An LLM can do most of what this tool's UI promises. No moat, no agent presence.

SWEbench is a benchmark, not a product — its value is being the agreed-upon measuring stick the industry uses to compare models. That brand authority is real: when Anthropic, OpenAI, and Google all cite your numbers, you have cultural lock-in that's hard to dislodge. But benchmarks get gamed, forked, and superseded fast. The data moat is thin — the GitHub issues and PRs are public — so the real moat is being first and cited enough that switching costs are social, not technical.

Claude Sonnet 4.6, scored 2026-06-01

Defensibility · 22/100

  • Physical-world coupling
  • Regulatory moat
  • Network liquidity
  • Proprietary refreshing data
  • High-trust catastrophic workflows
  • Multi-party coordination
  • Brand / community / taste

An LLM alone could replace

  • Generate a set of coding tasks or bug-fix prompts for testing an LLM
  • Evaluate whether a code patch is correct by describing expected behavior
  • Summarize model performance across a set of software engineering tasks
  • Write test cases to validate bug fixes

Agent-Readiness · 0/100

  • Verified MCP
  • Listed on agent surfaces
  • Usage-based pricing
  • Headless agent auth
  • Public OpenAPI
  • Active changelog
  • llms.txt

How to defend

Continuously expand the benchmark with harder, more diverse, and more recent tasks that can't be memorized by training data. Build the coordination layer — become the neutral third-party evaluation infrastructure that labs pay to run certified evals on, adding a trust and process moat on top of the brand.

  • Ship an MCP server and list it on Stork — biggest single point gain (+25).
  • Get listed in the Anthropic MCP registry, Cursor, or Claude Desktop (+20).
  • Add a usage-based or per-call tier; per-seat-only pricing dies when agents replace seats (+15).
  • Expose API-key auth with a self-serve sandbox tier; remove sales-call gates (+15).
  • Publish an OpenAPI spec at /openapi.json or /.well-known/openapi (+10).

SWEbench at a Glance

Pricing
freemium
Key Features
Evaluates large language models on real-world software issues from GitHub. · Includes SWE-bench Verified, a subset of 500 engineer-confirmed solvable problems. · SWE-bench++ extends the benchmark with 1865 tasks across 41 professional repositories.
Alternatives
HumanEval, LiveCodeBench, ClassEval, APPS (Automated Programming Progress Standard)
</>Embed "Featured on Stork" Badge
Badge previewBadge preview light
<a href="https://www.stork.ai/en/swebench" target="_blank" rel="noopener noreferrer"><img src="https://www.stork.ai/api/badge/swebench?style=dark" alt="SWEbench - Featured on Stork.ai" height="36" /></a>
[![SWEbench - Featured on Stork.ai](https://www.stork.ai/api/badge/swebench?style=dark)](https://www.stork.ai/en/swebench)

overview

Qu'est-ce que SWEbench ?

SWEbench est un outil de benchmark développé par une initiative de recherche qui permet aux développeurs et chercheurs de Large Language Model (LLM) d'évaluer les capacités d'ingénierie logicielle des grands modèles de langage. Il se concentre principalement sur l'évaluation de la capacité des agents de codage AI à résoudre des problèmes logiciels réels issus de GitHub. Cette plateforme simule des défis de codage complexes en fournissant une base de code et une description de problème, chargeant le LLM de générer un correctif qui résout le problème. SWEbench sert de plateforme d'évaluation rigoureuse pour l'AI dans le développement logiciel, en évaluant les agents de codage AI sur leur capacité à comprendre, naviguer et corriger des bugs réels ou à implémenter des fonctionnalités au sein de grandes bases de code existantes. Il vise à pousser les modèles AI à améliorer les standards de codage, la productivité et la résolution de bugs en fixant des benchmarks élevés.

quick facts

Faits en bref

AttributValeur
DéveloppeurInitiative de Recherche
Modèle ÉconomiqueFreemium
TarificationFreemium (benchmark de base gratuit pour la recherche)
Source de Donnéesproblèmes logiciels réels de GitHub
API DisponibleNon
Formation sur les Données Utilisateurtoujours

features

Fonctionnalités Clés de SWEbench

SWEbench offre un ensemble complet de fonctionnalités conçues pour l'évaluation rigoureuse et le développement de modèles de codage AI, en se concentrant sur les défis d'ingénierie logicielle du monde réel.

  • 1Évalue les capacités d'ingénierie logicielle des grands modèles de langage sur des problèmes réels.
  • 2Principalement axé sur la correction de bugs issus de problèmes GitHub pour une pertinence pratique.
  • 3Prend en charge l'entraînement de modèles de codage AI à l'aide de jeux de données pré-traités.
  • 4Permet d'exécuter l'inférence sur des modèles AI existants pour la résolution de problèmes logiciels.
  • 5Permet de créer de nouvelles tâches SWE-bench à partir de dépôts personnalisés.
  • 6Facilite le benchmarking et la comparaison des performances de différents systèmes de codage AI.
  • 7Offre un environnement d'évaluation entièrement conteneurisé utilisant Docker pour des évaluations reproductibles.
  • 8Inclut SWE-bench Verified, un sous-ensemble de 500 problèmes résolubles confirmés par des ingénieurs.
  • 9Propose SWE-bench Multimodal, intégrant des problèmes avec des éléments visuels comme des images et des diagrammes (à partir du 13 janvier 2025).
  • 10Fournit des évaluations basées sur le cloud via Modal (à partir du 11 janvier 2025).

use cases

Qui devrait utiliser SWEbench ?

SWEbench est conçu pour des publics spécifiques engagés dans le développement, l'évaluation et l'application de l'intelligence artificielle en ingénierie logicielle.

  • 1**Développeurs et Chercheurs de Large Language Model (LLM) :** Pour évaluer les LLM sur des tâches d'ingénierie logicielle réelles et comparer les performances.
  • 2**Développeurs de Systèmes AI :** Pour évaluer et comparer les performances de différents systèmes de codage AI et améliorer le Software Development Life Cycle (SDLC).
  • 3**Ingénieurs Logiciels et Équipes d'Ingénierie :** Pour identifier les compétences de codage réelles des agents AI et potentiellement intégrer l'AI pour la résolution de bugs.
  • 4**Praticiens du Machine Learning :** Pour entraîner des modèles de codage AI à l'aide de jeux de données pré-traités et exécuter l'inférence sur des modèles AI existants.
  • 5**Chercheurs en NLP :** Pour explorer l'application du traitement du langage naturel dans les tâches complexes de compréhension et de génération de code.

pricing

Tarification et Plans SWEbench

SWEbench fonctionne sur un modèle freemium, servant principalement de benchmark de recherche. Le benchmark de base, les jeux de données et l'environnement d'évaluation sont généralement disponibles gratuitement, soutenant les efforts de recherche et développement académiques. Les offres commerciales ou de niveau entreprise spécifiques avec des fonctionnalités avancées ou un support dédié ne sont pas détaillées publiquement.

  • 1Niveau Gratuit : Accès au benchmark de base, aux jeux de données et aux outils d'évaluation pour la recherche et l'usage académique.
  • 2Niveaux Premium : Non détaillés publiquement ; un potentiel pour des services d'évaluation avancés ou d'entreprise peut exister mais n'est pas spécifié.

competitors

SWEbench vs Concurrents

SWEbench est positionné comme un benchmark de premier plan pour l'évaluation des capacités d'ingénierie logicielle de bout en bout des LLM, se concentrant particulièrement sur la correction de bugs réels. Il se distingue des autres benchmarks par son accent sur les problèmes GitHub authentiques et la résolution de problèmes au niveau du dépôt.

1

HumanEval is a benchmark dataset developed by OpenAI specifically for evaluating large language models on code generation tasks, focusing on understanding programming tasks and producing syntactically correct and functionally accurate code.

SWEbench focuses on real-world bug fixes in existing codebases, requiring models to handle long contexts and operate within execution environments. HumanEval, in contrast, primarily assesses the ability to generate standalone functions from docstrings and unit tests, making it a simpler, function-level code generation benchmark.

2
LiveCodeBench

LiveCodeBench evaluates LLMs on 400 problems from competitive programming platforms, focusing on code generation, self-repair, and test output prediction, with problems updated over time to reduce data contamination.

While SWEbench focuses on fixing real-world bugs in existing repositories, LiveCodeBench emphasizes competitive programming challenges and the ability to self-repair code, often using problems released after a model's training cutoff to ensure genuine generalization.

3

ClassEval is a manually constructed benchmark that measures how well LLMs can generate full classes of code, including tasks with library, field, or method dependencies, reflecting real-world software engineering scenarios.

SWEbench evaluates bug-fixing capabilities within large, existing codebases, whereas ClassEval specifically assesses the generation of complete, interdependent code classes, moving beyond isolated functions to more complex structural coding tasks.

4

APPS is a large-scale code generation benchmark comprising 10,000 problems collected from open-access competitive coding websites, ranging from one-line solutions to substantial algorithmic challenges.

SWEbench is centered on resolving real-world software issues and generating patches for bugs in existing repositories. APPS, conversely, evaluates an LLM's ability to generate satisfactory Python code from natural language specifications, primarily focusing on algorithmic problem-solving rather than bug fixing in a pre-existing codebase.

5
Real-World Software Engineering Tasks (Upwork Benchmark)

This benchmark evaluates LLMs on real-world software engineering tasks sourced directly from Upwork freelance jobs, including both coding ability and engineering management decisions, with actual dollar values attached.

Both SWEbench and this benchmark focus on real-world software engineering problems. However, the Upwork benchmark uniquely ties performance to economic value and includes higher-level engineering management decisions, whereas SWEbench is specifically focused on generating patches to fix GitHub issues.

Questions fréquentes

+Qu'est-ce que SWEbench ?

SWEbench est un outil de benchmark développé par une initiative de recherche qui permet aux développeurs et chercheurs de Large Language Model (LLM) d'évaluer les capacités d'ingénierie logicielle des grands modèles de langage. Il se concentre principalement sur l'évaluation de la capacité des agents de codage AI à résoudre des problèmes logiciels réels issus de GitHub.

+SWEbench est-il gratuit ?

SWEbench fonctionne sur un modèle freemium. Le benchmark de base, les jeux de données et l'environnement d'évaluation sont généralement disponibles gratuitement, soutenant principalement les efforts de recherche et développement académiques. Les offres commerciales ou de niveau entreprise spécifiques ne sont pas détaillées publiquement.

+Quelles sont les principales fonctionnalités de SWEbench ?

Les principales fonctionnalités de SWEbench incluent l'évaluation des LLM sur la correction de bugs GitHub réels, le support de l'entraînement de modèles de codage AI, l'activation de l'inférence sur des modèles existants, la création de nouvelles tâches à partir de dépôts personnalisés, et la facilitation d'un benchmarking complet. Il offre également un environnement d'évaluation conteneurisé et inclut des versions spécialisées comme SWE-bench Verified et SWE-bench Multimodal.

+Qui devrait utiliser SWEbench ?

SWEbench est principalement destiné aux développeurs et chercheurs de Large Language Model (LLM), aux développeurs de systèmes AI, aux ingénieurs logiciels, aux praticiens du machine learning et aux chercheurs en NLP qui se concentrent sur l'évaluation et l'amélioration des capacités de l'AI dans les tâches d'ingénierie logicielle réelles, en particulier la résolution de bugs.

+Comment SWEbench se compare-t-il aux alternatives ?

SWEbench se distingue en se concentrant sur la correction de bugs réels au niveau du dépôt à partir de problèmes GitHub, contrairement à HumanEvalFix qui utilise des problèmes de niveau fonctionnel avec des bugs synthétiques. Bien que similaire à RepoFixEval en portée, SWEbench n'utilise pas explicitement un cadre d'évaluation en trois étapes. Comparé à LiveCodeBench, SWEbench est plus spécialisé dans la correction de bugs, tandis que LiveCodeBench offre une évaluation plus large des capacités de codage. Face à SM-100, SWEbench se concentre principalement sur Python, tandis que SM-100 couvre plusieurs langages de programmation pour les tâches de maintenance logicielle.

For builders

This page is doing a job for someone else’s tool.

AI agents read it. Buyers find it. Backlinks accrue. Your tool can have one too — live in 24 hours, indexed by Claude, ChatGPT, and Perplexity, queryable via MCP.