Skip to content

Das Programmier-Zeugnis der KI ist eine Lüge

Führende KI-Modelle bestehen Programmiertests mit Bravour, doch Entwickler wissen, dass etwas nicht stimmt. Ein neuer Benchmark namens DeepSWE enthüllt die Wahrheit und stellt die Rangliste auf den Kopf.

Stork.AI
Hero image for: Das Programmier-Zeugnis der KI ist eine Lüge

Zusammenfassung / Kernpunkte

Führende KI-Modelle bestehen Programmiertests mit Bravour, doch Entwickler wissen, dass etwas nicht stimmt. Ein neuer Benchmark namens DeepSWE enthüllt die Wahrheit und stellt die Rangliste auf den Kopf.

Der KI-Benchmark, dem wir alle vertrauten, ist kaputt

SWEbench galt einst als unangefochtener Standard zur Bewertung der Programmierfähigkeiten von KI, der Benchmark, dem Entwickler und Forscher vertrauten, um die Software-Engineering-Fähigkeiten großer Sprachmodelle zu messen. Seine strukturierten Aufgaben, die sich hauptsächlich auf Fehlerbehebungen konzentrierten, versprachen ein objektives Zeugnis für aufstrebende KI-Agenten. Doch dieses Vertrauen ist geschwunden; die Branche betrachtet SWEbench nun weithin als kaputt.

Grundlegende Mängel plagen den Benchmark und machen seine Ergebnisse bedeutungslos. Weitreichende Datenkontamination bedeutet, dass Modelle während des Trainings oft Lösungen sahen, was die Leistung künstlich aufblähte. Erschwerend kommt hinzu, dass mindestens 59,4 % der überprüften Probleme in SWE-bench Verified fehlerhafte Testfälle enthielten, die gültige Lösungen fälschlicherweise ablehnten. Darüber hinaus spiegelte der enge Umfang von SWEbench, bei dem über 80 % seiner 87 % Fehlerbehebungsaufgaben aus nur fünf Python-Repositories stammten und die Hälfte der Probleme vor 2020 lagen, die realen Programmierherausforderungen nicht wider.

Diese Reihe von Problemen gipfelte in absurden Ergebnislisten. Modelle wie Claude Opus 4.7 übertrafen GPT-5.5 unerklärlicherweise um mehrere Punkte, was der weit verbreiteten Entwicklererfahrung und dem „Vibe Check“ der tatsächlichen Nutzung direkt widersprach. OpenAI selbst räumte das Problem ein und zog SWE-bench Verified für die Frontier-Evaluierung zurück, mit der Begründung, dass „Verbesserungen keine aussagekräftigen Verbesserungen der realen Softwareentwicklungsfähigkeiten von Modellen mehr widerspiegeln.“ Dieser diskreditierte Benchmark, einst eine Säule der KI-Bewertung, dient nun als warnendes Beispiel.

DeepSWE: Ein Realitätscheck für KI-Programmierer

Datacurve stellte DeepSWE vor, einen robusten alternativen Benchmark, der sorgfältig für die Ära der agentischen KI entwickelt wurde. Dieser neue Standard bekämpft direkt die weit verbreitete Datenkontamination und das „Gaming“, die ältere Evaluierungen wie SWEbench entwerteten. Das Design von DeepSWE verhindert, dass Modelle lediglich bereits gesehene Lösungen abrufen, und zwingt sie dazu, echte Problemlösungsfähigkeiten zu demonstrieren.

Die Methodik von DeepSWE steht in starkem Kontrast zu seinen Vorgängern. Es umfasst 113 originelle, langfristige Aufgaben, die vollständig von Grund auf neu und über 91 verschiedene Open-Source-Repositories hinweg geschrieben wurden. Diese umfassende Suite deckt fünf kritische Programmiersprachen ab: - TypeScript - Go - Python - JavaScript - Rust Diese Aufgaben erfordern durchschnittlich 5,5-mal mehr Codeänderungen als SWE-bench Pro und testen rigoros die Fähigkeit einer KI, komplexe, vielschichtige Engineering-Herausforderungen anstelle einfacher Fehlerbehebungen zu bewältigen.

Entscheidend ist, dass die Struktur von DeepSWE – die Präsentation kurzer, hochrangiger Prompts für von Natur aus komplexe Aufgaben – widerspiegelt, wie ein leitender Entwickler Arbeit an einen KI-Assistenten delegiert. Dieser Ansatz macht es zu einem weitaus realistischeren und praktischeren Test der realen Nützlichkeit einer KI und ihrer langfristigen Software-Engineering-Fähigkeiten. Frühe Evaluierungen auf DeepSWE zeigen beispielsweise GPT-5.5 bei 70 % im Vergleich zu Claude Opus 4.7 bei 54 %, was eine genauere Widerspiegelung der tatsächlichen Entwicklererfahrung bietet als die überhöhten SWEbench-Ergebnisse.

GPT-5.5 vs. Claude Opus: Das wahre Ergebnis enthüllt

Während ältere Benchmarks wie SWE-bench ein Bild eines knappen Rennens zeichneten, wobei Claude Opus 4.7 oft einen leichten Vorsprung gegenüber GPT-5.5 zeigte, enthüllt DeepSWE eine stark abweichende Realität. Nach Datacurves strengem neuen Standard erreichte GPT-5.5 eine überzeugende Erfolgsquote von 70 %. Claude Opus 4.7 hingegen erreichte nur 54 %.

Diese massive 16-Punkte-Disparität bei DeepSWE ist nicht nur eine statistische Anomalie; sie signalisiert einen fundamentalen Unterschied in der Leistungsfähigkeit. DeepSWE-Aufgaben werden von Grund auf neu erstellt und sind darauf ausgelegt, echtes Problemlösen und agentische Fähigkeiten in neuartigen, ungesehenen Szenarien zu bewerten, nicht nur Fehlerbehebungen aus alten Repositories. Im Gegensatz zu älteren Benchmarks verhindert DeepSWE, dass Modelle Trainingsdaten-Kontamination oder einfaches Abrufen nutzen, wodurch sie gezwungen werden, tiefgründig zu argumentieren und verallgemeinerte Intelligenz anzuwenden.

Die dominante Leistung von GPT-5.5 unterstreicht seine überlegene Argumentationsfähigkeit und die Fähigkeit, komplexe, langfristige Software-Engineering-Herausforderungen zu bewältigen, ein entscheidender Faktor für die Delegation in der realen Welt. Dies stimmt direkt mit der Meinung von Entwicklern überein, die einen spürbaren Unterschied im praktischen Nutzen des Modells berichten. Während neuere Iterationen wie Claude Opus 4.8 und Gemini 3.1 Pro Verbesserungen gezeigt haben, liegen sie bei diesem anspruchsvolleren, die Realität widerspiegelnden Benchmark weiterhin hinter GPT-5.5 zurück, was die aktuelle Grenze hervorhebt.

Jenseits von Bestenlisten: Die neuen Regeln zur Bewertung von KI

Branchenführer müssen vereinfachte, auf Abruf basierende Bewertungen aufgeben. Die Zukunft der KI-Bewertung erfordert kontaminationsresistente, mehrstufige Benchmarks wie DeepSWE und das sich entwickelnde SWE-bench Pro. Die 113 Aufgaben von DeepSWE umfassen 91 verschiedene Open-Source-Repositories und fünf Programmiersprachen (TypeScript, Go, Python, JavaScript, Rust) und erfordern durchschnittlich 5,5-mal mehr Codeänderungen als seine Vorgänger, was die Komplexität der realen Welt widerspiegelt.

Entwickler und Tech-Führungskräfte sollten überhöhte Benchmark-Ergebnisse mit tiefer Skepsis begegnen. OpenAI selbst hat SWE-bench Verified eingestellt und zugegeben, dass seine Verbesserungen die Trainingsbelichtung widerspiegelten, nicht verbesserte reale Fähigkeiten. Stattdessen sollte die Leistung bei Aufgaben priorisiert werden, die echtes Denken, Planung und neuartige Problemlösung erfordern, was DeepSWE speziell darauf ausgelegt ist, über bloßes Abrufen hinaus aufzudecken.

Die wahre Leistungsfähigkeit eines KI-Codierungsassistenten besteht nicht darin, einen trivialen Fehler aus dem Jahr 2019 zu beheben, ein häufiges SWE-bench-Szenario. Die ultimative Herausforderung liegt darin, völlig neue Funktionen von einem übergeordneten Ziel aus autonom zu entwerfen und zu implementieren. DeepSWE beginnt, diese kritische Fähigkeit zu messen, die die komplexen, originellen und langfristigen Software-Engineering-Aufgaben widerspiegelt, die die Fähigkeiten von Frontier-KI im agentischen Zeitalter definieren.

Häufig gestellte Fragen

Was ist falsch am SWEbench-Benchmark?

SWEbench, insbesondere SWE-bench Verified, wird wegen Datenkontamination (Modelle könnten Antworten während des Trainings gesehen haben), fehlerhaften Testfällen und einer engen Fokussierung auf alte Python-Fehlerbehebungen kritisiert, was es zu einem schlechten Maßstab für moderne KI-Problemlösungsfähigkeiten macht.

Was ist DeepSWE und wie unterscheidet es sich?

DeepSWE ist ein neuerer KI-Codierungs-Benchmark mit originellen, komplexen Software-Engineering-Aufgaben, die von Grund auf neu in fünf Sprachen geschrieben wurden. Es wurde entwickelt, um echte Problemlösungs- und agentische Fähigkeiten zu testen, nicht nur das Abrufen, und spiegelt so die Herausforderungen von Entwicklern in der realen Welt besser wider.

Welches KI-Modell ist laut DeepSWE derzeit am besten zum Codieren geeignet?

Laut den neuesten DeepSWE-Ergebnissen hat OpenAI's GPT-5.5 einen deutlichen Vorsprung mit einer Lösungsrate von 70%, weit vor Konkurrenten wie Claude Opus 4.7, das 54% erreichte.

Warum liefern SWEbench und DeepSWE so unterschiedliche Rankings für KI-Modelle?

Die Benchmarks testen unterschiedliche Fähigkeiten. SWEbench ist zu einem Test der Fähigkeit eines Modells geworden, Lösungen für bekannte Probleme abzurufen, die es wahrscheinlich im Training gesehen hat. DeepSWE testet die Fähigkeit, völlig neue, komplexe Probleme mit minimalen Anweisungen zu durchdenken und zu lösen.

One weekly email of tools worth shipping. No drip funnel.

one email per week · unsubscribe in two clicks · no third-party tracking

🚀Mehr entdecken

Bleiben Sie der KI voraus

Entdecken Sie die besten KI-Tools, Agenten und MCP-Server, kuratiert von Stork.AI.

P.S. Etwas Brauchbares gebaut? Bei Stork listen

Zurück zu allen Beiträgen