Claude Opus 4.7 Bewertung: Leistungsstarke KI mit versteckten Token-Kosten

Zusammenfassung / Kernpunkte

Anthropic hat gerade Claude Opus 4.7 veröffentlicht, ein Coding-Kraftpaket, das Benchmarks zerschlägt und beeindruckende UIs entwirft. Doch eine stille Tokenizer-Änderung bedeutet, dass Sie für genau dieselben Prompts 35 % mehr bezahlen könnten.

Der beste KI-Programmierer hat gerade eine Gehaltserhöhung bekommen

Anthropic's neuestes Flaggschiffmodell, Opus 4.7, ist ein beeindruckendes Upgrade für Entwickler und Kreative, das erhebliche Fortschritte bei den KI-Fähigkeiten verspricht. Diese am 16. April 2026 veröffentlichte Iteration verbessert das Claude-Erlebnis wirklich und verschiebt die Grenzen in kritischen Bereichen wie Code-Generierung und visuellem Verständnis. Seine Einführung positioniert es sofort als Top-Anwärter in der sich schnell entwickelnden KI-Landschaft.

Trotz seiner beeindruckenden Leistungssteigerungen birgt Opus 4.7 versteckte Kosten, die Entwickler berücksichtigen müssen. Während Anthropic eine konsistente Preisgestaltung pro Token beibehält, führen ein aktualisierter Tokenizer und neue Standardeinstellungen dazu, dass dieselben Eingabe-Prompts in der Praxis nun erheblich mehr Tokens verbrauchen können, was zu höheren Betriebskosten führt. Diese subtile Verschiebung führt eine „geheime Steuer“ auf das ein, was zunächst wie eine kostenlose Leistungssteigerung erscheint.

Opus 4.7 zeigt radikal verbesserte Coding-Benchmarks. Es erreichte einen Sprung von 10 % gegenüber seinem Vorgänger, Opus 4.6, auf SWE-bench Pro, mit beeindruckenden 64,3 %. Auf SWE-bench Verified erzielte das Modell 87,6 %, was einem Zuwachs von 7 % entspricht. Diese Zahlen festigen seine Position als überlegenes Werkzeug für komplexe Code-Argumentation, Systemtechnik und autonome Aufgaben mit langem Horizont.

Jenseits des Codings erweitert Opus 4.7 seine multimodale Unterstützung dramatisch. Das Modell verarbeitet jetzt hochauflösendere Bilder und akzeptiert Eingaben von bis zu 2.576 Pixeln an der längsten Kante, etwa 3,75 Megapixel – dreimal die Auflösung früherer Modelle. Diese Verbesserung optimiert Aufgaben wie die Datenextraktion aus komplexen Dokumenten und Diagrammen erheblich, neben der Generierung von „geschmackvolleren und kreativeren“ UI-Designs, wie in jüngsten Tests zur Erstellung responsiver Café-Websites gezeigt wurde.

Der erhöhte Token-Verbrauch resultiert aus zwei primären Änderungen. Ein aktualisierter Tokenizer ordnet denselben Eingabeinhalt je nach Datentyp etwa 1,0- bis 1,35-mal mehr Tokens zu. Darüber hinaus „denkt“ Opus 4.7 auf höheren Anstrengungsstufen „mehr“, ein Standardverhalten in Claude Code, wo eine neue `xhigh`-Anstrengungsstufe jetzt für alle Pläne aktiviert ist. Diese tiefere Argumentation verbessert die Zuverlässigkeit, verbraucht aber unweigerlich mehr Ausgabe-Tokens, was sich direkt auf die Kosten auswirkt.

Code zerschlagen, Fakten vertauschen?

Opus 4.7 glänzt wirklich in der Code-Generierung und Problemlösung und zeigt robuste Fortschritte gegenüber seinem Vorgänger. Das Modell erreichte einen 10%igen Sprung auf SWE-bench Pro und erreichte eine beeindruckende Genauigkeit von 64,3 %, wodurch es Opus 4.6 deutlich übertrifft. Diese erhebliche Verbesserung positioniert Opus 4.7 als ein beeindruckendes Werkzeug für Entwickler, die komplexe Software-Engineering-Herausforderungen bewältigen.

Um seine Coding-Dominanz weiter zu festigen, verzeichnete Opus 4.7 auch einen 7%igen Zuwachs auf SWE-bench Verified mit 87,6 %. Diese Benchmark-Siege unterstreichen Anthropic's Engagement, die Fähigkeit des Modells zur Bewältigung von Langzeitautonomie, Systemtechnik und komplexen Code-Argumentationsaufgaben zu verbessern.

Paradoxerweise gehen diese Coding-Triumphe mit einem rätselhaften Rückgang der Cybersicherheitswerte einher. Anthropic's eigene Benchmarks zeigen einen leichten Rückgang in diesem Bereich, ein bewusstes Ergebnis neuer, strenger Schutzmaßnahmen, die in Opus 4.7 implementiert wurden. Das Unternehmen hat diese verbesserten Cyberschutzmaßnahmen absichtlich entwickelt, um Anfragen zu blockieren, die auf verbotene oder hochriskante Cybersicherheitsnutzungen hinweisen.

Diese strategische Entscheidung bedeutet, dass das Modell seine Cybersicherheitsleistung künstlich niedriger hält, als es sonst erreichen könnte. Anthropic möchte aus diesen Interaktionen lernen, um die Entwicklung noch leistungsfähigerer, aber sichererer zukünftiger Modelle wie der unveröffentlichten Mythos-class zu informieren, was eine Spannung zwischen roher Leistungsfähigkeit und verantwortungsvollem KI-Design verdeutlicht.

Trotz seiner Programmierfähigkeiten weist Opus 4.7 eine besorgniserregende Regression im Langkontextverständnis auf, eine entscheidende Fähigkeit für viele fortgeschrittene KI-Anwendungen. Interne „Nadel-im-Heuhaufen“-Evaluierungen berichteten von einem dramatischen „Absturz“ der Langkontextleistung im Vergleich zu Opus 4.6. Dies deutet darauf hin, dass Opus 4.7 größere Schwierigkeiten hat, spezifische Informationen abzurufen, die tief in großen Textmengen vergraben sind.

Dieser unerwartete Rückgang wirft erhebliche Fragen über die Zuverlässigkeit des Modells auf, wenn es umfangreiche Dokumente verarbeitet, lange Gespräche zusammenfasst oder die Kohärenz über längere, mehrtägige Aufgaben hinweg aufrechterhalten muss. Für Benutzer, die sich bei Claude auf ein tiefes Kontextverständnis verlassen, könnte diese potenzielle Verschlechterung die reale Nutzung erheblich beeinträchtigen.

Verabschieden Sie sich von Ihren alten Prompts

Opus 4.7 führt einen radikal anderen Ansatz zur Befolgung von Anweisungen ein, der eine vollständige Neubewertung etablierter Prompting-Strategien erfordert. Im Gegensatz zu früheren Claude-Modellen, die Anweisungen oft locker interpretierten oder sogar weniger betonte Teile übersprangen, ist Opus 4.7 auf beispiellosen Literalismus und Präzision ausgelegt. Diese grundlegende Verschiebung bedeutet, dass das Modell nun strikt jede gegebene Anweisung befolgt und Befehle mit einer Genauigkeit ausführt, die die Art und Weise, wie Benutzer mit ihm interagieren müssen, grundlegend verändert.

Benutzer, die Prompts verwenden, die für ältere, nachsichtigere Modelle entwickelt wurden, werden mit ziemlicher Sicherheit unerwartete oder übermäßig wörtliche Ausgaben erhalten. Wo eine frühere Iteration möglicherweise Absichten abgeleitet oder bestimmte Anweisungen gegenüber anderen priorisiert hätte, wird Opus 4.7 alle Teile eines Prompts mit gleichem Gewicht ausführen. Dies kann zu unerwünschten Ergebnissen führen, wenn Prompts nicht akribisch erstellt wurden, um seiner neu entdeckten Strenge Rechnung zu tragen, was komplexe Arbeitsabläufe potenziell zum Scheitern bringen und erhebliches Debugging erfordern kann.

Diese entscheidende Änderung erfordert eine umfassende Überprüfung und Neubewertung bestehender Prompt-Bibliotheken. Entwickler und Ersteller müssen ihre Prompts nun akribisch verfeinern, jegliche Mehrdeutigkeit beseitigen und sicherstellen, dass jede Anweisung explizit und beabsichtigt ist. Die Anpassung an dieses präzise Paradigma ist nicht nur eine Option, sondern eine Voraussetzung, um die verbesserte Leistung von Opus 4.7 voll auszuschöpfen, insbesondere bei komplexen Codierungs- und Agentenaufgaben, bei denen die genaue Einhaltung mehrstufiger Anweisungen von größter Bedeutung ist.

Die Nutzung der verbesserten Anweisungsbefolgung des Modells bedeutet, einen disziplinierteren Ansatz beim Prompt Engineering zu verfolgen. Der Lohn ist jedoch ein Modell, das hochpräzise und vorhersehbare Ergebnisse liefern kann, vorausgesetzt, die Eingabe entspricht seinem Literalismus. Diese Investition in die Prompt-Verfeinerung wird das wahre Potenzial von Opus 4.7 freisetzen und es zu einem zuverlässigeren und leistungsfähigeren Werkzeug für komplexe Aufgaben machen. Für diejenigen, die umfangreiche Prompt-Überarbeitungen planen, ist das Verständnis der neuesten Tokenisierungs- und Preisstrukturen von entscheidender Bedeutung; detaillierte Informationen finden Sie auf der Seite Model Pricing | Anthropic von Anthropic.

Die 35% „Tokenizer-Steuer“, die Sie jetzt zahlen

Opus 4.7 führt eine grundlegende Änderung in der Art und Weise ein, wie Anthropic's Flaggschiff-Modell Text verarbeitet, was sich direkt auf die Betriebskosten für Entwickler und Power-User auswirkt. Anthropic hat den Tokenizer des Modells aktualisiert, den internen Mechanismus, der Eingabetext in diskrete Einheiten zerlegt, damit die KI ihn verstehen kann. Diese technische Anpassung verbessert zwar die interne Verarbeitung, hat aber erhebliche finanzielle Auswirkungen für die Benutzer.

Zuvor entsprach ein gegebener Input-Prompt einer vorhersehbaren Anzahl von Tokens für die API-Abrechnung. Mit Opus 4.7 kann derselbe Input nun je nach Inhaltstyp 1,0 bis 1,35 Mal mehr Tokens entsprechen. Nutzer zahlen effektiv mehr für identische Informationen, obwohl Anthropic seine ursprüngliche Pro-Token-Preisgestaltung beibehält. Dieser erhöhte Token-Verbrauch fungiert als eine heimtückische „Tokenizer-Steuer“ auf jeden API-Aufruf, die die Betriebskosten stillschweigend in die Höhe treibt.

Betrachten wir ein praktisches Beispiel für einen API-Entwickler, der Opus 4.7 für eine komplexe Codierungsaufgabe verwendet. Ein Input-Prompt, der zuvor 1.000 Tokens auf Opus 4.6 verbrauchte, hätte bei Anthropic's Input-Preis von 15,00 $ pro 1 Million Tokens 0,015 $ gekostet. Dies war eine unkomplizierte Berechnung.

Mit dem neuen Tokenizer könnte derselbe 1.000-Token-Input nun bis zu 1.350 Tokens für Opus 4.7 bedeuten. Dies führt direkt zu neuen Input-Kosten von 0,02025 $ für denselben Prompt, eine deutliche Erhöhung der Ausgaben um 35 % allein aufgrund der Tokenizer-Änderung. Diese „Steuer“ gilt noch bevor man die Tendenz von Opus 4.7 berücksichtigt, bei höheren Anstrengungsstufen „mehr zu denken“, was den gesamten Token-Verbrauch weiter in die Höhe treibt.

Entwickler müssen nun akribisch die Token-Anzahlen überwachen und Prompting-Strategien anpassen, um diese steigenden Kosten zu mindern. Das scheinbar geringfügige technische Update des Tokenizers erfordert eine vollständige Neubewertung der Budgetprognosen und der Prompt-Optimierung, wodurch ein leistungsstarkes Upgrade zu einem teureren Angebot wird. Die vorhersehbare Token-Nutzung ist beendet und läutet eine Ära des sorgfältigen Kostenmanagements ein.

Ihre KI arbeitet Überstunden (standardmäßig)

Opus 4.7 führt eine neue `xhigh`-Anstrengungsstufe ein, die zwischen den `high`- und `max`-Denkeinstellungen positioniert ist. Diese Ergänzung bietet Entwicklern eine feinere Kontrolle über die Verarbeitung des Modells, indem sie tieferes rechnerisches Denken gegen die Antwortlatenz abwägt. Bei diesen höheren Anstrengungsstufen „denkt“ Opus 4.7 mehr, insbesondere bei späteren Zügen in agentischen Einstellungen, was seine Zuverlässigkeit bei komplexen, schwierigen Problemen erheblich verbessert.

Dieses verbesserte Denken bringt einen entscheidenden, oft verborgenen Kostenfaktor mit sich: Anthropic hat die Anstrengungsstufe extra high als Standard in Claude Code für alle Pläne festgelegt. Ohne Benutzereingriff arbeitet Opus 4.7 nun standardmäßig Überstunden und verbraucht wesentlich mehr Tokens, als Nutzer für ihre Prompts erwarten könnten. Diese Änderung trägt direkt zur zuvor besprochenen „Tokenizer-Steuer“ bei, da die Ausführlichkeit des Modells zunimmt.

Um dies ins rechte Licht zu rücken: Die neue `extra high`-Anstrengungsstufe in Opus 4.7 verbraucht ungefähr die gleiche Menge an Tokens wie die max-Anstrengungsstufe von Opus 4.6. Das bedeutet, dass Nutzer, die an die Leistung von Opus 4.6 bei seiner höchsten Einstellung gewöhnt sind, nun eine ähnliche Token-Verbrauchsrate als Basis in Opus 4.7 erhalten, selbst für Routineaufgaben. Dieser Standard wirkt sich dramatisch auf die Betriebskosten aus.

Versierte Entwickler können diese neue Kostenlandschaft jedoch strategisch navigieren. Experten raten dringend, die verschiedenen Anstrengungsstufen zu testen, um ein optimales Gleichgewicht zu finden. Eine wichtige Empfehlung: Ändern Sie die Standardeinstellung in Claude Code von `extra high` auf `high`.

Diese scheinbar geringfügige Anpassung bringt erhebliche Vorteile. Die `high`-Anstrengungsstufe von Opus 4.7 übertrifft tatsächlich die `max`-Anstrengungsstufe von Opus 4.6, und das alles bei der Verwendung von weniger Tokens. Durch diese einzige Konfigurationsänderung können Nutzer eine überlegene Leistung im Vergleich zum Höhepunkt der vorherigen Generation erzielen, jedoch mit einer bemerkenswerten Reduzierung des Token-Verbrauchs und der entsprechenden Kosten. Dies bietet einen klaren Weg zur Optimierung sowohl der Ausgabequalität als auch der Ausgaben.

Der ultimative UI-Design-Showdown

Über die reine Programmierleistung hinaus pries Anthropic auch die verbesserten UI-Designfähigkeiten von Opus 4.7. Ein unkomplizierter Test einer 'Café-Website', der lediglich eine `index.html`-Datei erforderte, stellte Opus 4.7 gegen seinen Vorgänger, Opus 4.6, sowie die Konkurrenten Gemini 3.1 und GPT 5.4. Dieses reale Szenario zielte darauf ab, das kreative Gespür der Modelle und ihre Fähigkeit zu bewerten, ein einfaches Konzept in eine visuell ansprechende Webseite zu übersetzen.

Opus 4.7 lieferte ein „ziemlich gutes“ Ergebnis und generierte eine responsive Café-Website mit einer geschmackvollen Schriftart und gut integrierten Unsplash-Bildern. Das Design vermittelte ein echtes Café-Gefühl und zeigte einen deutlichen Fortschritt gegenüber der Ausgabe von Opus 4.6. Sein Vorgänger produzierte eine weniger ausgefeilte Version mit einem weniger ansprechenden Farbverlaufshintergrund und einer generell weniger raffinierten Ästhetik, was die Verbesserung von Opus 4.7 spürbar machte.

Die eigentliche Überraschung kam jedoch von Gemini 3.1, das sich als bevorzugtes Design für diese spezifische kreative Aufgabe herausstellte. Seine Ausgabe zeichnete sich durch einen markanten festen Hintergrund, gut umgesetzte Bildbereiche und ein schön angelegtes Menü aus, das die Tester beeindruckte. Gemini 3.1 zeigte ein starkes visuelles Gespür und bewies, dass reine Programmierfähigkeit nicht immer gleichbedeutend mit überlegenem ästhetischem Urteilsvermögen im UI-Design ist.

Umgekehrt landete GPT 5.4 auf einem abgeschlagenen letzten Platz. Die von ihm generierte Website litt unter einem generischen, sofort erkennbaren „GPT-Look-and-Feel“, gekennzeichnet durch eine übermäßige Verwendung von unscharfen Kartenelementen. Dieses Design verfehlte das gewünschte Café-Ambiente und verdeutlichte den Kampf des Modells mit kreativer, stilistischer Interpretation im Vergleich zu seinen Mitbewerbern.

Dieser UI-Design-Showdown unterstreicht, dass Benchmarks zwar die technische Leistung quantifizieren, subjektive kreative Aufgaben jedoch oft unterschiedliche Modellpersönlichkeiten und Stärken offenbaren. Das Verständnis dieser Nuancen ist entscheidend für Entwickler, die die richtige KI für vielfältige Projekte auswählen. Weitere Details zu den wirtschaftlichen Auswirkungen dieser Modelle und ihrer sich entwickelnden Token-Nutzung können Leser unter Claude Opus 4.7 Pricing: The Real Cost Story Behind the “Unchanged” Price Tag - Finout erkunden.

Eine Fullstack-App in einem Rutsch erstellen

Über einfache Single-Page-Websites hinaus geht der ultimative Test für moderne KI-Programmierfähigkeiten dahin, eine Fullstack-Anwendung von Grund auf neu zu erstellen. Wir forderten die führenden Modelle heraus, ein umfassendes persönliches Finanz-Dashboard zu konstruieren, wobei wir ihnen volle Autonomie bei der Auswahl ihres bevorzugten Tech Stacks und der Implementierung von Kernfunktionen gewährten. Diese komplexe Aufgabe prüft nicht nur das UI-Design, sondern auch die Backend-Logik, das Datenmanagement und die architektonische Entscheidungsfindung.

Opus 4.7 lieferte ein wirklich beeindruckendes Anfangsergebnis, das ein Integrations- und Designkohärenzniveau zeigte, das von seinen Rivalen unerreicht war. Die generierte Anwendung verfügte über eine saubere, intuitive Benutzeroberfläche mit einem sorgfältig gewählten Farbschema. Ihre ästhetische Anziehungskraft stach sofort hervor und spiegelte die angepriesenen Verbesserungen des Modells bei der „geschmackvollen und kreativen“ UI-Generierung wider.

Funktional waren die Frontend-Komponenten robust und gut implementiert. Benutzer konnten mit verschiedenen Elementen interagieren, Finanzdaten eingeben und durch verschiedene Abschnitte des Dashboards navigieren. Der Code zeigte ein starkes Verständnis moderner Webentwicklungsprinzipien und erzeugte eine reaktionsschnelle und ansprechende Benutzererfahrung, die auf den ersten Blick produktionsreif wirkte.

Opus 4.7s ausgeklügelte Ausgabe barg jedoch einen kritischen Designfehler tief in seiner gewählten Architektur. Trotz des beeindruckenden Frontends entschied sich das Modell für eine In-Memory-Datenbank-Lösung zur Handhabung aller Benutzerdaten. Diese grundlegende Entscheidung untergrub den realen Nutzen der Anwendung erheblich und führte zu einem fatalen Fehler für jedes Finanz-Tracking-Tool.

Eine In-Memory-Datenbank bedeutet, dass alle Informationen, von Benutzerkonten bis zu Transaktionshistorien, ausschließlich im aktiven Speicher der Anwendung liegen. Folglich löscht jeder Neustart des Servers oder des Anwendungsprozesses sofort alle gespeicherten Daten. Dieser vollständige Mangel an data persistence macht das Finanz-Dashboard für seinen beabsichtigten Zweck völlig unpraktisch.

Während Opus 4.7 außergewöhnliche Fähigkeiten bei der Generierung von komplexem, gut strukturiertem Code und attraktiven UIs zeigte, offenbarte seine architektonische Entscheidung einen erheblichen blinden Fleck. Das Modell versäumte es, den wichtigsten Aspekt einer persönlichen Finanzanwendung zu priorisieren: die sichere und dauerhafte Speicherung sensibler Finanzinformationen. Dieses Versäumnis unterstreicht eine anhaltende Herausforderung selbst für die fortschrittlichsten AI-Coders: das Verständnis impliziter Benutzeranforderungen jenseits expliziter Anweisungen.

Wie die Konkurrenz abschneidet

Nachdem Opus 4.7 erfolgreich ein persönliches Finanz-Dashboard architektonisch entworfen und gebaut, seinen eigenen Tech-Stack gewählt und eine lauffähige Anwendung in einem Durchgang geliefert hatte, zeigt die vergleichende Analyse deutliche Unterschiede zwischen den führenden Modellen. Seine Fähigkeit, eine kohärente, funktionale Full-Stack-Lösung aus einem High-Level-Prompt zu generieren, setzt einen beeindruckenden Standard für die Konkurrenz in der praktischen Softwareentwicklung.

Die vorherige Iteration von Anthropic, Opus 4.6, zeigte ein gemischteres Ergebnis. Während seine Benutzeroberfläche weniger beeindruckend und ästhetisch verfeinert war als die Ausgabe von 4.7, zeigte das Modell ein stärkeres Verständnis für Backend-Persistenz. Es implementierte korrekt eine persistent SQLite database und lieferte mehr funktionierende Features, die für eine funktionale Anwendung entscheidend sind. Dieses ältere Modell priorisierte die Kernanwendungslogik und hob einen nuancierten Kompromiss zwischen visueller Politur und robuster grundlegender Funktionalität hervor.

OpenAI's GPT-5.4 hatte erhebliche Schwierigkeiten mit der Full-Stack-Aufgabe und produzierte einen Versuch, der funktional unbrauchbar war. Es gelang ihm nicht, eine kohärente oder lauffähige Anwendung zu liefern, sondern generierte fragmentierten Code, der erhebliche manuelle Eingriffe erforderte. Darüber hinaus entschied sich das Modell für einen technisch einfachen Ansatz, der auf einfachem JavaScript und HTML basierte, anstatt Kenntnisse moderner Frameworks zu demonstrieren. Diese Ausgabe positioniert GPT-5.4 weit hinten bei der Generierung komplexer, mehrkomponentiger Anwendungen.

Googles Gemini 3.1 lieferte in diesem anspruchsvollen Test die am wenigsten effektive Leistung. Es gelang ihm grundlegend nicht, eine lauffähige Anwendung aus dem ursprünglichen Prompt zu erstellen, was mehrere Folgeinteraktionen und umfangreiche Benutzerführung erforderte, um überhaupt eine teilweise Funktionalität zu erreichen. Diese Unfähigkeit, ein eigenständiges, ausführbares Projekt ohne erhebliche externe Intervention zu generieren, unterstreicht seine aktuellen Einschränkungen in autonomen Full-Stack-Entwicklungsszenarien und stuft es in diesem Benchmark als am wenigsten fähig ein.

Diese Ergebnisse sowohl aus dem einfachen UI-Test für eine Café-Website als auch aus der komplexeren Full-Stack-Herausforderung für ein persönliches Finanz-Dashboard zeichnen ein klares Bild der aktuellen AI-Coding-Landschaft. Während Opus 4.7 sich durch die Erstellung ausgefeilter, lauffähiger Anwendungen mit modernen Designprinzipien und robuster Funktionalität auszeichnet, bleiben seine Konkurrenten oft entweder bei der ästhetischen Qualität, der funktionalen Vollständigkeit oder der entscheidenden Fähigkeit, ein funktionierendes Produkt ohne umfangreiche Benutzerführung und iteratives Prompting zu liefern, zurück. Diese Leistungslücke festigt die aktuelle Führung von Opus 4.7 bei der komplexen, vielschichtigen Codegenerierung.

Lernen Sie Mythos kennen: Die KI, die wir noch nicht haben können

Während Opus 4.7 als das leistungsfähigste öffentlich verfügbare Modell gilt, enthüllen Anthropic's eigene Benchmarks eine verborgene, mächtigere KI: Mythos. Dieses fortschrittliche Modell, das in internen Evaluierungen gezeigt wurde, übertrifft nachweislich sogar die neueste Claude-Iteration, bleibt jedoch für Entwickler und Kreative unzugänglich. Seine Existenz unterstreicht den schnellen, oft ungesehenen Fortschritt, der in KI-Forschungslaboren stattfindet.

Anthropic hält Mythos derzeit aufgrund kritischer Sicherheitsbedenken von der öffentlichen Freigabe zurück. Die immensen Fähigkeiten des Modells, insbesondere sein Missbrauchspotenzial, erfordern robuste Schutzmaßnahmen und umfangreiche Tests, bevor es breit eingesetzt werden kann. Dieser vorsichtige Ansatz unterstreicht den anhaltenden Kampf der Branche, Innovation mit verantwortungsvoller KI-Entwicklung in Einklang zu bringen.

Opus 4.7 spielt eine zentrale, strategische Rolle in diesem heiklen Balanceakt. Anthropic hat es speziell als wichtiges Testfeld für neue Cybersicherheitsmaßnahmen entwickelt, die Anfragen, die auf verbotene oder hochriskante Cybersicherheitsnutzungen hinweisen, aktiv blockieren. Diese bewusste Designentscheidung erklärt die einzigartige Leistungsanomalie von Opus 4.7: einen leichten, kontrollierten Rückgang seiner Cybersicherheits-Benchmark-Scores im Vergleich zu Opus 4.6, eine Reduzierung, die als künstliche Beschränkung dient, um potenzielle Risiken zu mindern.

Aus der Bereitstellung von Opus 4.7 unter diesen strengen Protokollen gewonnene reale Daten sind von unschätzbarem Wert. Sie ermöglichen es Anthropic, die Wirksamkeit seiner Sicherheitsmechanismen rigoros zu bewerten und die komplexen Wechselwirkungen zwischen leistungsstarker KI und potenziellen Bedrohungen zu verstehen. Dieser iterative Lernprozess ist grundlegend für die Verfeinerung zukünftiger Modelle.

Letztendlich stellt Opus 4.7 einen entscheidenden, grundlegenden Schritt zur eventuellen, sicheren Einführung von Mythos-Klasse-Modellen dar. Seine öffentliche Freigabe bietet eine kontrollierte Umgebung zur Validierung fortschrittlicher Sicherheitsfunktionen und ebnet den Weg für leistungsfähigere, aber sichere KI-Systeme. Wenn Mythos oder seine Nachfolger endlich erscheinen, versprechen sie, die Softwareentwicklung radikal neu zu gestalten und beispiellose Fähigkeiten erst nach strenger Sicherheitsvalidierung anzubieten.

Das Urteil: Ein fehlerhaftes Meisterwerk?

Opus 4.7 präsentiert ein nuanciertes Bild und liefert bahnbrechende Fähigkeiten im Bereich Codierung und UI-Design. Sein 10%iger Sprung bei SWE-bench Pro und 7%iger Zuwachs bei Verified benchmarks gegenüber Opus 4.6 zeigen seine rohe Leistung und demonstrieren in unseren Tests eine beeindruckende Generierung von Full-Stack-Anwendungen. Diese verbesserte Leistung geht jedoch mit einem erheblichen Kostenanstieg einher, insbesondere einer potenziellen 35%igen 'Tokenizer-Steuer' auf bestehende Prompts. Darüber hinaus bleiben Fragen zur Zuverlässigkeit im langen Kontext bestehen, wobei einige needle-in-a-haystack benchmarks einen Leistungsabfall im Vergleich zu Opus 4.6 nahelegen.

Anthropic's Entscheidung, in Claude Code standardmäßig das neue `extra high` Anstrengungsniveau zu verwenden, verschärft den Token-Verbrauch zusätzlich. Während diese Einstellung tiefere Schlussfolgerungen und verbesserte Zuverlässigkeit bei schwierigen Problemen verspricht, führt sie direkt zu höheren Betriebskosten für Entwickler. Benutzer müssen diese Einstellungen aktiv verwalten und das `high` Anstrengungsniveau erkunden, um ein besseres Gleichgewicht zwischen Leistung und wirtschaftlicher Effizienz zu finden. Diese Wachsamkeit wird für jede nachhaltige Entwicklungsarbeit, insbesondere für agentische Einstellungen, entscheidend.

Für komplexe Codierungsaufgaben, aufwendiges Systems Engineering und anspruchsvolles UI-Design erweist sich Opus 4.7 als ein phänomenales Werkzeug, wohl das beste öffentlich verfügbare Modell. Seine wörtlichere Befolgung von Anweisungen erfordert eine Verfeinerung der Prompts, belohnt Präzision jedoch mit hochgenauen Ausgaben. Entwickler können seine verbesserte multimodale Unterstützung und Selbstverifizierung für bemerkenswert robuste Ergebnisse nutzen, selbst über Multi-Session-Workflows hinweg.

Letztendlich ist Opus 4.7 ein fehlerhaftes Meisterwerk: in bestimmten Bereichen unübertroffen, aber mit versteckten Kosten und potenziellen Schwächen bei langen Kontexten, die Benutzer berücksichtigen müssen. Es erfordert einen strategischeren Ansatz bei der Nutzung, bewusste Entscheidungen über den Aufwand und die Prompt-Optimierung zu treffen. Was halten Sie von Anthropic's neuestem Update? Welches KI-Modell ist derzeit Ihr Favorit für die Entwicklung, und was halten Sie von den Kompromissen von Opus 4.7?

Häufig gestellte Fragen

Was ist das Haupt-Upgrade in Claude Opus 4.7?

Opus 4.7 bietet wesentliche Verbesserungen in den Bereichen Codierung, agentisches Denken und hochauflösende Vision, was einen Sprung von 10 % beim SWE-bench Pro Benchmark gegenüber seinem Vorgänger zeigt.

Warum kostet die Nutzung von Opus 4.7 für denselben Prompt mehr?

Es verwendet einen aktualisierten Tokenizer, der denselben Text auf bis zu 35 % mehr Tokens abbilden kann. In Kombination mit einem standardmäßigen „extra hohen“ Anstrengungsgrad in Claude Code erhöht dies effektiv die Kosten pro Aufgabe, trotz unveränderter Pro-Token-Preise.

Wie verhält sich die Long-Context-Performance von Opus 4.7 im Vergleich zu 4.6?

Einige Benutzertests und Benchmarks, wie der Needle-in-a-Haystack-Test, zeigen eine signifikante Regression bei der Long-Context-Retrieval, was darauf hindeutet, dass möglicherweise ein Kompromiss eingegangen wurde, um andere Fähigkeiten zu verbessern.

Ist Claude Opus 4.7 besser als GPT-5.4 für die Codierung?

Basierend auf einem Full-Stack-Anwendungstest produzierte Opus 4.7 eine deutlich vollständigere und besser gestaltete Anwendung mit einer sauberen Benutzeroberfläche, während GPT-5.4 ein grundlegendes und unbrauchbares Projekt generierte.

𝕏 in ↑↗

One weekly email of tools worth shipping. No drip funnel.

one email per week · unsubscribe in two clicks · no third-party tracking

Claudes neue KI hat eine geheime Steuer