Skip to content

SWEbench Bewertung

SWEbench ist ein Benchmark zur Bewertung der Software-Engineering-Fähigkeiten großer Sprachmodelle, der sich hauptsächlich auf Fehlerbehebungen aus realen GitHub-Problemen konzentriert.

shipped 1. Juni 2026aifreemium
SWEbench - AI tool for swebench. Professional illustration showing core functionality and features.
1SWE-bench Verified, veröffentlicht am 13. August 2024, umfasst 500 von Ingenieuren bestätigte lösbare Probleme.
2Am 27. Juni 2024 wechselte SWE-bench zu einem vollständig containerisierten Bewertungs-Framework, das Docker für verbesserte Reproduzierbarkeit nutzt.
3Mit Stand vom 2. April 2024 erzielte SWE-agent hochmoderne Ergebnisse auf dem vollständigen SWE-bench Testset.
4SWE-Smith Multilingual wurde erweitert, um JavaScript mit 6.099 validierten Patches bis zum 13. Januar 2026 zu unterstützen.

Stork Quadrant

Dead Man Walking· 12/100

An LLM can do most of what this tool's UI promises. No moat, no agent presence.

SWEbench is a benchmark, not a product — its value is being the agreed-upon measuring stick the industry uses to compare models. That brand authority is real: when Anthropic, OpenAI, and Google all cite your numbers, you have cultural lock-in that's hard to dislodge. But benchmarks get gamed, forked, and superseded fast. The data moat is thin — the GitHub issues and PRs are public — so the real moat is being first and cited enough that switching costs are social, not technical.

Claude Sonnet 4.6, scored 2026-06-01

Defensibility · 22/100

  • Physical-world coupling
  • Regulatory moat
  • Network liquidity
  • Proprietary refreshing data
  • High-trust catastrophic workflows
  • Multi-party coordination
  • Brand / community / taste

An LLM alone could replace

  • Generate a set of coding tasks or bug-fix prompts for testing an LLM
  • Evaluate whether a code patch is correct by describing expected behavior
  • Summarize model performance across a set of software engineering tasks
  • Write test cases to validate bug fixes

Agent-Readiness · 0/100

  • Verified MCP
  • Listed on agent surfaces
  • Usage-based pricing
  • Headless agent auth
  • Public OpenAPI
  • Active changelog
  • llms.txt

How to defend

Continuously expand the benchmark with harder, more diverse, and more recent tasks that can't be memorized by training data. Build the coordination layer — become the neutral third-party evaluation infrastructure that labs pay to run certified evals on, adding a trust and process moat on top of the brand.

  • Ship an MCP server and list it on Stork — biggest single point gain (+25).
  • Get listed in the Anthropic MCP registry, Cursor, or Claude Desktop (+20).
  • Add a usage-based or per-call tier; per-seat-only pricing dies when agents replace seats (+15).
  • Expose API-key auth with a self-serve sandbox tier; remove sales-call gates (+15).
  • Publish an OpenAPI spec at /openapi.json or /.well-known/openapi (+10).

SWEbench at a Glance

Pricing
freemium
Key Features
Evaluates large language models on real-world software issues from GitHub. · Includes SWE-bench Verified, a subset of 500 engineer-confirmed solvable problems. · SWE-bench++ extends the benchmark with 1865 tasks across 41 professional repositories.
Alternatives
HumanEval, LiveCodeBench, ClassEval, APPS (Automated Programming Progress Standard)
</>Embed "Featured on Stork" Badge
Badge previewBadge preview light
<a href="https://www.stork.ai/en/swebench" target="_blank" rel="noopener noreferrer"><img src="https://www.stork.ai/api/badge/swebench?style=dark" alt="SWEbench - Featured on Stork.ai" height="36" /></a>
[![SWEbench - Featured on Stork.ai](https://www.stork.ai/api/badge/swebench?style=dark)](https://www.stork.ai/en/swebench)

overview

Was ist SWEbench?

SWEbench ist ein Benchmark-Tool, das von einer Forschungsinitiative entwickelt wurde, um Entwicklern und Forschern von Large Language Models (LLM) die Bewertung der Software-Engineering-Fähigkeiten großer Sprachmodelle zu ermöglichen. Es konzentriert sich hauptsächlich auf die Beurteilung der Fähigkeit von AI-Coding-Agenten, reale Softwareprobleme von GitHub zu lösen. Diese Plattform simuliert komplexe Programmierherausforderungen, indem sie eine Codebasis und eine Problembeschreibung bereitstellt und das LLM beauftragt, einen Patch zu generieren, der das Problem löst. SWEbench dient als rigorose Bewertungsplattform für AI in der Softwareentwicklung, indem es AI-Coding-Agenten hinsichtlich ihrer Fähigkeit bewertet, tatsächliche Fehler zu verstehen, zu navigieren und zu beheben oder Funktionen innerhalb großer, bestehender Codebasen zu implementieren. Ziel ist es, AI-Modelle dazu anzutreiben, Codierungsstandards, Produktivität und Fehlerbehebung durch das Setzen hoher Benchmarks zu verbessern.

quick facts

Schnelle Fakten

AttributWert
EntwicklerForschungsinitiative
GeschäftsmodellFreemium
PreisgestaltungFreemium (Kern-Benchmark kostenlos für die Forschung)
Datenquellereale Softwareprobleme von GitHub
API VerfügbarNein
Training mit Benutzerdatenimmer

features

Hauptmerkmale von SWEbench

SWEbench bietet eine umfassende Reihe von Funktionen, die für die rigorose Bewertung und Entwicklung von AI-Coding-Modellen konzipiert sind, mit Fokus auf reale Software-Engineering-Herausforderungen.

  • 1Bewertet die Software-Engineering-Fähigkeiten großer Sprachmodelle bei realen Problemen.
  • 2Konzentriert sich hauptsächlich auf Fehlerbehebungen aus GitHub-Problemen für praktische Relevanz.
  • 3Unterstützt das Training von AI-Coding-Modellen mithilfe vorverarbeiteter Datensätze.
  • 4Ermöglicht die Ausführung von Inferenz auf bestehenden AI-Modellen zur Lösung von Softwareproblemen.
  • 5Ermöglicht die Erstellung neuer SWE-bench Aufgaben aus benutzerdefinierten Repositories.
  • 6Erleichtert das Benchmarking und den Vergleich der Leistung verschiedener AI-Coding-Systeme.
  • 7Bietet ein vollständig containerisiertes Bewertungs-Framework, das Docker für reproduzierbare Bewertungen nutzt.
  • 8Enthält SWE-bench Verified, eine Untermenge von 500 von Ingenieuren bestätigten lösbaren Problemen.
  • 9Bietet SWE-bench Multimodal, das Probleme mit visuellen Elementen wie Bildern und Diagrammen integriert (Stand: 13. Januar 2025).
  • 10Bietet cloudbasierte Bewertungen über Modal (Stand: 11. Januar 2025).

use cases

Wer sollte SWEbench nutzen?

SWEbench wurde für spezifische Zielgruppen entwickelt, die sich mit der Entwicklung, Bewertung und Anwendung von künstlicher Intelligenz im Software-Engineering befassen.

  • 1**Entwickler und Forscher von Large Language Models (LLM):** Zur Bewertung von LLMs bei realen Software-Engineering-Aufgaben und zum Leistungsvergleich.
  • 2**AI-Systementwickler:** Zum Benchmarking und Vergleich der Leistung verschiedener AI-Codierungssysteme und zur Verbesserung des Software Development Life Cycle (SDLC).
  • 3**Software-Ingenieure und Engineering-Teams:** Zur Identifizierung realer Programmierfähigkeiten von AI-Agenten und zur potenziellen Integration von AI zur Fehlerbehebung.
  • 4**Machine Learning Praktiker:** Zum Training von AI-Codierungsmodellen mithilfe vorverarbeiteter Datensätze und zur Ausführung von Inferenz auf bestehenden AI-Modellen.
  • 5**NLP-Forscher:** Zur Erforschung der Anwendung von Natural Language Processing bei komplexen Aufgaben des Code-Verständnisses und der Code-Generierung.

pricing

SWEbench Preise & Pläne

SWEbench basiert auf einem Freemium-Modell und dient hauptsächlich als Forschungs-Benchmark. Der Kern-Benchmark, Datensätze und das Bewertungs-Framework sind in der Regel kostenlos verfügbar und unterstützen akademische Forschungs- und Entwicklungsbemühungen. Spezifische kommerzielle oder Enterprise-Angebote mit erweiterten Funktionen oder dediziertem Support sind nicht öffentlich detailliert.

  • 1Kostenlose Stufe: Zugang zu Kern-Benchmark, Datensätzen und Bewertungstools für Forschungs- und akademische Zwecke.
  • 2Premium-Stufen: Nicht öffentlich detailliert; Potenzial für Enterprise- oder erweiterte Bewertungsdienste kann bestehen, ist aber nicht spezifiziert.

competitors

SWEbench vs. Wettbewerber

SWEbench ist als führender Benchmark zur Bewertung der End-to-End-Software-Engineering-Fähigkeiten von LLMs positioniert, wobei der Schwerpunkt insbesondere auf realen Fehlerbehebungen liegt. Es unterscheidet sich von anderen Benchmarks durch seinen Fokus auf authentische GitHub-Probleme und die Problemlösung auf Repository-Ebene.

1

HumanEval is a benchmark dataset developed by OpenAI specifically for evaluating large language models on code generation tasks, focusing on understanding programming tasks and producing syntactically correct and functionally accurate code.

SWEbench focuses on real-world bug fixes in existing codebases, requiring models to handle long contexts and operate within execution environments. HumanEval, in contrast, primarily assesses the ability to generate standalone functions from docstrings and unit tests, making it a simpler, function-level code generation benchmark.

2
LiveCodeBench

LiveCodeBench evaluates LLMs on 400 problems from competitive programming platforms, focusing on code generation, self-repair, and test output prediction, with problems updated over time to reduce data contamination.

While SWEbench focuses on fixing real-world bugs in existing repositories, LiveCodeBench emphasizes competitive programming challenges and the ability to self-repair code, often using problems released after a model's training cutoff to ensure genuine generalization.

3

ClassEval is a manually constructed benchmark that measures how well LLMs can generate full classes of code, including tasks with library, field, or method dependencies, reflecting real-world software engineering scenarios.

SWEbench evaluates bug-fixing capabilities within large, existing codebases, whereas ClassEval specifically assesses the generation of complete, interdependent code classes, moving beyond isolated functions to more complex structural coding tasks.

4

APPS is a large-scale code generation benchmark comprising 10,000 problems collected from open-access competitive coding websites, ranging from one-line solutions to substantial algorithmic challenges.

SWEbench is centered on resolving real-world software issues and generating patches for bugs in existing repositories. APPS, conversely, evaluates an LLM's ability to generate satisfactory Python code from natural language specifications, primarily focusing on algorithmic problem-solving rather than bug fixing in a pre-existing codebase.

5
Real-World Software Engineering Tasks (Upwork Benchmark)

This benchmark evaluates LLMs on real-world software engineering tasks sourced directly from Upwork freelance jobs, including both coding ability and engineering management decisions, with actual dollar values attached.

Both SWEbench and this benchmark focus on real-world software engineering problems. However, the Upwork benchmark uniquely ties performance to economic value and includes higher-level engineering management decisions, whereas SWEbench is specifically focused on generating patches to fix GitHub issues.

Häufig gestellte Fragen

+Was ist SWEbench?

SWEbench ist ein Benchmark-Tool, das von einer Forschungsinitiative entwickelt wurde, um Entwicklern und Forschern von Large Language Models (LLM) die Bewertung der Software-Engineering-Fähigkeiten großer Sprachmodelle zu ermöglichen. Es konzentriert sich hauptsächlich auf die Beurteilung der Fähigkeit von AI-Coding-Agenten, reale Softwareprobleme von GitHub zu lösen.

+Ist SWEbench kostenlos?

SWEbench basiert auf einem Freemium-Modell. Der Kern-Benchmark, Datensätze und das Bewertungs-Framework sind in der Regel kostenlos verfügbar und unterstützen hauptsächlich akademische Forschungs- und Entwicklungsbemühungen. Spezifische kommerzielle oder Enterprise-Angebote sind nicht öffentlich detailliert.

+Was sind die Hauptmerkmale von SWEbench?

Zu den Hauptmerkmalen von SWEbench gehören die Bewertung von LLMs bei realen GitHub-Fehlerbehebungen, die Unterstützung des Trainings von AI-Codierungsmodellen, die Ermöglichung der Inferenz auf bestehenden Modellen, die Erstellung neuer Aufgaben aus benutzerdefinierten Repositories und die Erleichterung umfassender Benchmarking-Aufgaben. Es bietet auch ein containerisiertes Bewertungs-Framework und umfasst spezialisierte Versionen wie SWE-bench Verified und SWE-bench Multimodal.

+Wer sollte SWEbench nutzen?

SWEbench ist primär für Entwickler und Forscher von Large Language Models (LLM), AI-Systementwickler, Software-Ingenieure, Machine Learning Praktiker und NLP-Forscher gedacht, die sich auf die Bewertung und Verbesserung der AI-Fähigkeiten bei realen Software-Engineering-Aufgaben, insbesondere der Fehlerbehebung, konzentrieren.

+Wie schneidet SWEbench im Vergleich zu Alternativen ab?

SWEbench zeichnet sich durch seinen Fokus auf reale, Repository-Ebene-Fehlerbehebungen aus GitHub-Problemen aus, im Gegensatz zu HumanEvalFix, das synthetisch fehlerhafte Probleme auf Funktionsebene verwendet. Obwohl im Umfang RepoFixEval ähnlich, verwendet SWEbench kein explizites dreistufiges Bewertungs-Framework. Im Vergleich zu LiveCodeBench ist SWEbench stärker auf Fehlerbehebung spezialisiert, während LiveCodeBench eine breitere Bewertung der Codierungsfähigkeiten bietet. Gegenüber SM-100 konzentriert sich SWEbench primär auf Python, während SM-100 mehrere Programmiersprachen für Softwarewartungsaufgaben abdeckt.

For builders

This page is doing a job for someone else’s tool.

AI agents read it. Buyers find it. Backlinks accrue. Your tool can have one too — live in 24 hours, indexed by Claude, ChatGPT, and Perplexity, queryable via MCP.