TL;DR / Key Takeaways
Die KI-Arena hat gerade einen Durchbruch erlebt.
Google’s Gemini 3 Pro hatte kaum Zeit, seinen Thron zu genießen, da ein neuer Herausforderer auf die Bühne trat. Nur wenige Tage nachdem Gemini 3 Pro die AI Twitter-Diskussionen und Benchmark-Charts dominiert hatte, veröffentlichte Anthropic Opus 4.5, was sofort eine Neubewertung der Frage „Wer ist der Beste?“ erforderte.
Gemini 3 Pro setzte eine brutale Messlatte. Es beeindruckte Entwickler mit außergewöhnlicher Codierungsleistung, lieferte atemberaubende Grafiken durch Nanaban Pro und erzielte einen Wert von 76,2 % im SWE-Verified, einem der angesehensten Codierungsbenchmarks. Für einen kurzen Moment schien es, als hätte Google die Krone in den Bereichen reasoning, multimodales Verständnis und Codegenerierung gesichert.
Opus 4.5 kommt als “modest” (bescheiden) Update daher, aber auf diesem Niveau sieht bescheiden monumental aus. Auf SWE-Verified springt Opus 4.5 auf 80,9 %, ein erheblicher Abstand zu Gemini 3 Pro’s 76,2 % in einem Benchmark, bei dem jeder Prozentpunkt schmerzhaft zu erkämpfen ist. Im Computer-Nutzungs-Benchmark von OS World erreicht Opus 4.5 66,3 % im Vergleich zu Claude Sonnet 4.5’s 62,9 % und setzt damit einen neuen Höchstwert für neu veröffentlichte Modelle, die tatsächlich eine Desktop-Umgebung betreiben.
Benchmarks lesen sich jetzt eher wie ein Boxscore als eine einfache Rangliste. Opus 4.5 übertrifft Gemini 3 Pro in der agentischen Terminalcodierung und der Werkzeugnutzung, hat jedoch bei einigen „klassischen“ Prüfungen wie GPQA und MMU geringfügige Rückstände, wo Gemini und OpenAIs neueste GPT-Modelle weiterhin gegeneinander antreten. Selbst bei langfristigen Simulationen wie „ein Unternehmen für 350 Tage führen“, wie etwa Vending Bench 2, behält Gemini 3 Pro einen knappen Vorsprung – mit etwas weniger als 5.500 Dollar an simuliertem Gewinn gegenüber knapp 5.000 Dollar für Opus 4.5.
Dieser Artikel behandelt Opus 4.5 und Gemini 3 Pro im direkten Vergleich in den Bereichen Codierung, Denken, Computerbenutzung, multimodale Arbeit und Kosteneffizienz, um herauszufinden, welches Modell tatsächlich den Stand der Technik Ende 2025 repräsentiert. Anthropic, Google und OpenAI entwickeln sich so schnell weiter, dass der Titel „König des Hügels“ etwa so lange hält wie eine Produkthonoration. Für die Nutzer übersetzt sich dieses Wettrüsten direkt in günstigere Tokens, intelligentere Agenten und Modelle, die nicht nur Ihre App schreiben, sondern sie auch installieren, testen und während Sie schlafen unbemerkt Ihre Tabellenkalkulationen ausführen können.
Ein neuer Sheriff in der Welt des Codes
Diese Woche wurde still und leise ein neues Ranking auf SWE-verified veröffentlicht, einem der wenigen Benchmarks für Programmierung, der tatsächlich versucht, realen Software Engineering zu messen, anstatt sich mit Spielereien zu beschäftigen. Opus 4.5 erzielt einen Score von 80,9 und übertrifft damit Gemini 3 Pro mit 76,2 um einen Abstand, der groß genug ist, um unwahrscheinlich zu sein, dass es sich um Zufall handelt. SWE-verified prüft nicht nur, ob der Code kompiliert, sondern auch, ob er alle Test-Suites in großen, mehrteiligen Projekten durchläuft. Ein Abstand von über vier Punkten deutet somit auf eine zuverlässigere End-to-End-Implementierung hin.
Zahlen werden greifbarer mit dem einmaligen Minecraft-Klon, den Anthropic jetzt präsentiert. Opus 4.5 hat in einem Durchgang etwa 3.500 Codezeilen generiert, die die Weltgenerierung mit mehreren Biomen, grundlegenden Crafting-Elementen und der Spiellogik verknüpfen, ohne dass ein Mensch teilweises Output zusammenfügen musste. Die Generierung von Langzeit-Code in diesem Maßstab belastet alles, was Modelle schlecht können: APIs korrekt zu halten, zirkuläre Importe zu vermeiden und konsistente Datenstrukturen über Hunderte von Aufrufen hinweg aufrechtzuerhalten.
Anthropic hat Opus 4.5 auch gegen eine notorisch brutale interne Ingenieur-Heimprüfung getestet, eine mehrstündige Aufgabe, die Unternehmen nutzen, um Senior-Kandidaten herauszufiltern. Laut dem Unternehmen hat Opus 4.5 jeden Menschen, der diesen Test jemals abgelegt hat, übertroffen, nicht nur in Bezug auf Korrektheit, sondern auch in Bezug auf Geschwindigkeit und architektonische Qualität. Dieses Ergebnis muss extern repliziert werden, stimmt jedoch mit den Ergebnissen der öffentlichen Coding-Benchmarks überein.
Wo Entwickler den Wandel am stärksten spüren werden, ist beim Agentic Terminal Coding. Auf Terminal-Bench, das autonome Arbeit in der Kommandozeile misst, erzielt Opus 4.5 59,3 gegenüber 54,2 von Gemini 3 Pro – ein erheblicher Vorteil, wenn man einer KI erlaubt, Shell-Befehle auf echten Systemen auszuführen. Agentic Terminal Coding bedeutet, dass das Modell eine Sequenz von Befehlen plant, sie ausführt, Fehler überprüft und ohne Aufsicht wiederherstellt.
Für Entwickler bedeutet das eine sicherere Automatisierung von Aufgaben, die früher manuell erledigt wurden: das Einrichten und Konfigurieren von Entwicklungsumgebungen, das Durchführen und Beheben von Migrationen, das Überwachen von Protokollen zur Aufspürung von Regressionen oder das Einrichten von Cron-Jobs und CI-Skripten. In Kombination mit seiner führenden Position im Betriebssystembereich im allgemeinen Computereinsatz beginnt Opus 4.5 weniger wie eine Code-Autovervollständigung und mehr wie ein Junior-Ingenieur zu wirken, der in deinem Terminal lebt.
Der Kampf um Rohdaten
Rohdaten zu Intelligenzbenchmarks zeigen einen engeren Wettkampf als die Programmierwerte vermuten lassen. Auf ARC-AGI-2 meldet Anthropic, dass Opus 4.5 eine Genauigkeit von etwa 37–38% erreicht, was mehr als eine Verdopplung früherer Benchmarks darstellt und Gemini 3 Pro um etwa 6 Prozentpunkte bei ähnlichen „Denkbudgets“ übertrifft. Dieses Ergebnis, das in Anthropics eigener Offiziellen Ankündigung zu Claude Opus 4.5 hervorgehoben wird, gilt nun als der Stand der Technik für veröffentlichte Grenzmodelle, wenn es um die Entdeckung abstrakter Muster und nicht um das Abrufen von Trivia geht.
ARC-AGI-2 betont die kompositionale Logik bei seltsamen, synthetischen Rätseln, die sich einer Memorierung entziehen. Wenn Anthropic den Kontext für das interne „Denken“ von 0 auf 64K Token erhöht, steigt die Intelligenzkurve von Opus 4.5 schneller als die der Konkurrenz und erzielt Spitzenleistungen in den Kosten-gegen-Punkt-Diagrammen. Die unveröffentlichte Deep Think-Variante von Gemini erzielt zwar höhere Rohwerte, doch Opus 4.5 erreicht seine Gewinne mit erheblich weniger Token-Verschwendung und zu geringeren Kosten pro Aufgabe.
Allgemeinwissen und prüfungsähnliche Benchmarks erzählen eine differenziertere Geschichte. Bei GPQA und MMU-ähnlichen „letzten Prüfungen der Menschheit“ liegt Opus 4.5 nur geringfügig hinter Gemini 3 Pro und, in einigen Untertests, hinter GPT 5.1. Gemini zeigt weiterhin Stärke bei langformatigen akademischen Fragen, dichter Leseverständnis und multimodalen Fragen, die Diagramme, Charts und Text kombinieren.
Die Computer-Nutzung ist der Bereich, in dem Opus 4.5 ein klares Zeichen setzt. Im OS World Benchmark, der den End-to-End-Erfolg bei echten GUI-Aufgaben misst – wie das Installieren von Apps, das Anpassen von Einstellungen und das Navigieren in Dateisystemen – erreicht Opus 4.5 eine Erfolgsquote von 66,3 %. Dieses Ergebnis übertrifft den bisherigen Champion, Claude Sonnet 4.5 mit 62,9 %, und setzt einen neuen Maßstab für veröffentlichte Frontier-Modelle, die tatsächlich einen Desktop steuern, anstatt nur davon zu sprechen.
Kein Labor hat jeden Leaderboard für sich. Opus 4.5 führt bei ARC-AGI-2, OS World, SWE-Verified und mehreren agentischen Terminal- und Tool-Nutzungstests, während Gemini 3 Pro oder GPT-Modelle bei bestimmten Prüfungen, multimodalen Aufgaben und Benchmarks für Geschäftsanwendungen weiterhin die Nase vorn haben. Doch das Muster ist klar: der Fortschritt von Opus 4.5 in denkschöpferischen und computerseitigen Kompetenzen zählt mehr als jeder einzelne Sieg, da er sich direkt in Agenten umsetzt, die länger denken, zuverlässiger handeln und in chaotischen Workflows der realen Welt fokussiert bleiben können.
Ein Unternehmen für 350 Tage führen
Vending Bench ist still zu einem der aufschlussreichsten Stresstests für moderne KI geworden: ein simuliertes Verkaufsautomaten-Geschäft, das über 300–350 Spieltage läuft und langfristige Planung, Lagerstrategie und grundlegendes finanzielles Verständnis erfordert. Anstatt statische Rätsel zu lösen, müssen die Modelle Produkte recherchieren, die Kundennachfrage ableiten, den Cashflow verwalten und den Automaten ständig bestücken, ohne in Unsinn abzudriften.
Auf Vending Bench 2 behält der Gemini 3 Pro weiterhin die Krone. Nach fast einem Jahr simulierten Betriebs erzielt er einen Gewinn von knapp 5.500 Dollar, ausgehend von 500 Dollar Startkapital. Diese Marge ist wichtig, da jeder Dollar auf diesem Benchmark aus Dutzenden winziger Entscheidungen stammt: welche Snacks zu kaufen sind, wie aggressiv nachgefüllt wird und wann man von weniger erfolgreichen Produkten abweicht.
Opus 4.5 nimmt hier nicht den ersten Platz ein, aber sein Sprung ist kaum zu ignorieren. Das Modell erzielt etwa 4.967 $ Gewinn, was fast einer 10-fachen Steigerung des anfänglichen Einsatzes von 500 $ entspricht, und einen erheblichen Fortschritt gegenüber dem Ergebnis von etwa 3.800 $ von Claude Sonnet 4.5 im gleichen Test darstellt. Praktisch gesehen verhält sich Anthropics Flaggschiff jetzt eher wie ein vorsichtiger Junior-Operator als wie ein verwirrter Praktikant, der am Tag 120 vergisst, was er gerade tut.
Diese langfristigen agentischen Benchmarks decken eine andere Dimension der Fähigkeiten auf als die Haupt-IQ-Werte oder Programmier-Ranglisten. Sie messen, ob ein Modell über Hunderte von Schritten hinweg fokussiert bleiben, eine kohärente Geschäftsstrategie aufrechterhalten und katastrophale Fehler wie den Verlust sämtlicher Kapital durch einen einzigen Fehlauftrag vermeiden kann. Mit der Skalierung der Modelle steigen die Zahlen der Vending Bench, was darauf hindeutet, dass eine höhere Anzahl an Rohparametern und besseres Training direkt in stabileres, weniger abwegiges Entscheidungsverhalten über die Zeit übersetzt werden.
Alpha Arena bringt dieselbe Idee in ein härteres Umfeld: fast-live Krypto-Handel. In Saison 2 sind Gemini 3 Pro und Claude Sonnet 4.5 unter den Teilnehmern, während Opus 4.5 auffällig nicht in der offiziellen Liste vertreten ist. Ein leistungsstarkes „Geheimmodell“, das derzeit auf dem zweiten Platz sitzt, direkt hinter GPT 5.1, hat bereits Spekulationen ausgelöst, dass Anthropic heimlich die Risikobereitschaft von Opus 4.5 testet, bevor es seinen Namen auf die Rangliste setzt.
Aufstieg des KI-Orchestrators
Der Aufstieg des KI-Orchestrators könnte das wichtigste sein, was Anthropic stillschweigend mit Opus 4.5 geliefert hat. Anstatt ein einziges riesiges Modell als die endgültige Gehirnstruktur zu betrachten, verhält sich Opus 4.5 zunehmend wie ein Manager, der plant, delegiert und die Arbeiten, die von kleineren, kostengünstigeren Modellen wie Haiku 4.5 erledigt werden, überprüft. Dieses Muster zeigt sich in langfristigen Aufgaben wie Vending Bench, wo anhaltende Kohärenz über 300-350 simulierte Tage wichtiger ist als jede einzelne Antwort.
Multi-Agent-Setups übertreffen jetzt konsequent Single-Agent-Baselines bei komplexen Forschungsarbeitslasten. Geben Sie einer Opus 4.5-Instanz eine umfassende Aufgabe – erkunden Sie ein wissenschaftliches Gebiet, kartieren Sie Wettbewerber, entwerfen Sie eine Produktspezifikation – und sie kann Haiku 4.5-Unteragenten aktivieren, um Dokumente zu durchsuchen, Arbeiten zusammenzufassen und Ideen parallel zu testen. Benchmarks, die langwierige, werkzeugintensive Arbeitsabläufe betonen, von Vending Bench 2 bis hin zu OS World-ähnlicher Computerbenutzung, belohnen diese Arbeitsteilung mit höheren Erfolgsquoten und weniger Fehltritten.
Wirtschaftliche Logik treibt diese Architektur ebenso sehr an wie rohe Leistungsfähigkeit. Das Ausführen von Opus 4.5 für jedes Token jeder Teilaufgabe verschwendet teure Kapazität für standardisierte Zusammenfassungen und mechanische Umwandlungen, die Haiku 4.5 für einen Bruchteil der Kosten übernehmen kann. Ein Orchestrierungsmodell, das nur beim Planen, Zerlegen von Problemen oder Lösen von Konflikten „hart denkt“ und ansonsten die Ausführung auslagert, skaliert mehr wie ein menschlicher Manager, der ein Team koordiniert, als wie ein einzelner überqualifizierter Auftragnehmer, der alles selbst macht.
Dieses Manager-Team-Muster verallgemeinert sich über Suche und Forschung hinaus. In der Programmierung kann ein Opus 4.5 Orchestrator das System entwerfen, Schnittstellen definieren und dann Haiku 4.5 Agenten starten, um Module zu implementieren, Tests zu schreiben und Terminal-Bench-ähnliche Toolbefehle auszuführen, bevor die endgültige Integration und Überprüfung erfolgt. Für kreative Arbeiten kann ein hochrangiges Modell eine Kampagne skizzieren, während Unteragenten Textvarianten entwerfen, visuelle Storyboards erstellen und Inhalte an Plattformen anpassen.
Die Geschäftsanalyse könnte sich am stärksten verändern. Ein Orchestrator kann einen Agenten anweisen, ungeordnete Webdaten über Claude für Chrome in Tabellenkalkulationen zu ziehen, einen anderen, diese in Claude für Excel zu bereinigen und zu strukturieren, und einen dritten, Szenarien durchzuführen und die Schlussfolgerungen zu überprüfen. Während sich diese Orchestrierungsmuster festigen, sieht „AI nutzen“ weniger danach aus, mit einem einzelnen Modell zu chatten, und mehr danach, eine virtuelle Firma zu beauftragen, die von einem einzigen, sehr fähigen Direktor geleitet wird.
Wo Gemini 3 Pro immer noch an der Spitze steht
Multimodal bleibt das Zuhause von Gemini 3 Pro. Während Opus 4.5 in den Bereichen Code und abstraktes Denken übertrifft, liefert Gemini 3 Pro dennoch sauberere, zuverlässigere Ergebnisse, wenn Text, Bilder und Layout gleichzeitig wichtig sind, insbesondere in Produktionsabläufen, die Screenshots, Diagramme und eingebettete Medien kombinieren.
Die Grafikgenerierung zeigt die deutlichste Diskrepanz. Googles Nanaband Pro, das in Gemini 3 Pro integriert ist, produziert „absolut unglaubliche“ Illustrationen und UI-Prototypen, die eher an ein dediziertes Bildmodell als an ein angeschlossenes Extra erinnern. Im Gegensatz dazu verhält sich Opus 4.5 nach wie vor wie ein textorientiertes System, das Bilder betrachten kann, aber nicht wie eine echte visuelle Nativen.
Die Videoverarbeitung ist ein weiterer Bereich, in dem Gemini 3 Pro überlegen ist. Es kann Objekte und Personen über Clips hinweg verfolgen, Szenenwechsel erkennen und präzise Fragen darüber beantworten, was zu bestimmten Zeitstempeln passiert, und das mit höherer Konsistenz als Opus. Für Teams, die Besprechungen zusammenfassen, Schulungsvideos annotieren oder Benutzerforschungs-Videos analysieren, bleibt Gemini 3 Pro die sicherere Wahl.
Dokumentlastige Workflows neigen ebenfalls in diese Richtung. Füttert man Gemini 3 Pro mit einem 200-seitigen Jahresbericht, der voller dicker Tabellen, Diagramme und Grafiken ist, bewahrt es in der Regel die Struktur, verweist auf Zahlen und erhält den visuellen Kontext. Opus 4.5 kann PDFs verarbeiten, aber Gemini 3 Pro macht tendenziell weniger Fehler, wenn Zahlen in komplexen visuellen Layouts untergebracht sind.
Die dynamische Web-UI-Generierung könnte der am meisten unterschätzte Vorteil von Gemini 3 Pro sein. Es kann ein Design-Spezifikation lesen, responsive HTML/CSS/JS generieren und das Layout im Dialog mit einem Designer iterieren, wobei Screenshots als gemeinsame Sprache dienen. In Verbindung mit Nanaband Pro kann es gesamte Workflows prototypisieren – Landing Pages, Dashboards, Marketing-Webseiten – ohne einen einzigen Chatverlauf zu verlassen.
Diese Mischung aus Stärken macht das Gemini 3 Pro zur Standardwahl für: - Kreative Fachleute, die visuelle Inhalte, Storyboards und interaktive Prototypen erstellen - Datenanalysten, die in Präsentationen, BI-Dashboards und visuell ansprechenden PDFs arbeiten - Entwickler, die interaktive Webanwendungen und interne Tools liefern, die auf einer ansprechenden Benutzeroberfläche basieren
Jeder, der diese Abwägungen bewertet, sollte mit der offiziellen Fähigkeitstabelle in der **Google DeepMind Gemini Offiziellen Dokumentation** beginnen und dann Kosten, Latenz sowie den Anteil ihrer Arbeitslast berücksichtigen, der tatsächlich visuell orientiert ist, im Vergleich zu text- oder code-lastigen Aufgaben.
Die Milliarden-Dollar-Frage: Kosten vs. IQ
Nennen Sie es eine Intelligenzkurve oder eine Preis curve, aber Grenzmodelle existieren jetzt auf einem Diagramm mit zwei Achsen: roher Fähigkeit und dem, was Anthropic ein "Denkbudget" nennt. Lassen Sie mehr Tokens durch das Modell fließen — 8K, 16K, 32K, 64K an gezieltem Denken — und die Leistung steigt, aber die Kosten steigen nichtlinear. Die Branche optimiert jetzt nicht nur für Höchstwerte, sondern auch dafür, wie viel IQ man pro Dollar in jedem dieser Schritte erhält.
Anthropics eigene Diagramme stellen dies auf einer logarithmischen Kosten-Achse dar. Jede Bewegung nach rechts repräsentiert einen großen Anstieg der Rechenausgaben, doch die "Lachs"-Kurve von Opus 4.5 schmiegt sich an die obere linke Ecke von ARC-AGI2: hohe Werte bei relativ niedrigen Kosten pro Aufgabe. Googles unveröffentlichtes Gemini 3 Deep Think geht noch weiter nach oben, jedoch zu einem viel steileren Kostenpunkt, während das veröffentlichte Gemini 3 Pro hinter Opus 4.5 bei vergleichbaren Denkbudgets zurückbleibt.
Diese Positionierung untermauert eine gewagtere Aussage von Anthropic-CEO Dario Amodei: vergleichbare Ergebnisse zu konkurrierenden Labors mit etwa einem Zehntel der Kapitalausgaben. Wenn das zutrifft, potenziert sich dieser Vorteil – kostengünstigere Experimente, mehr Trainingsläufe und schnellere Iterationen in Bereichen wie Werkzeugnutzung und agentisches Verhalten. Die hochmodernen ARC-AGI2- und OS-Weltwerte von Opus 4.5 deuten darauf hin, dass die Effizienz nicht nur in der Gewinn- und Verlustrechnung, sondern auch in den Benchmarks sichtbar wird.
Für Käufer teilt sich die Kosten-Nutzen-Geschichte entlang der Aufgaben. Nach reinem Ermessen—SWE-Verified-Coding (80,9 vs. Gemini 3 Pro mit 76,2), Terminal-Bench, ARC-AGI2, Agentenaufgaben mit langfristigem Fokus wie Vending Bench—erreicht Opus 4.5 oft eine Zielqualität mit weniger verschwendeten Tokens als die Deep Think-Styles von Gemini. Wenn Ihnen die Wirtschaftlichkeit bei komplexen Backend-Systemen, Agenten oder automatisierten Prozessen wichtig ist, produziert Opus 4.5 wahrscheinlich geringere effektive Kosten pro gelöstem Task.
Wechseln Sie zu multimodal und die Kalkulation ändert sich. Die Bild-, Video- und Dokumentenhandhabung von Gemini 3 Pro sowie die Generierung über Werkzeuge wie Nanaban Pro können gesamte Workflows in einen einzigen, etwas teureren Anruf komprimieren, der mehrere textbasierte Schritte ersetzt. Bei allem, was von visuellem IO geprägt ist – UI-Mockups, Marketingmaterialien, Präsentationen, Videoanalysen – gewinnt Gemini 3 Pro oft im Kostenvergleich pro Liefergegenstand, selbst wenn Opus 4.5 pro Token an „Überlegung“ günstiger bleibt.
Ihr Desktop, jetzt superaufgeladen
Benchmarks sind nur dann wichtig, wenn sie in Produkten sichtbar werden, und Anthropic wartet nicht lange. Neben Opus 4.5 führt das Unternehmen Claude für Chrome und Claude für Excel ein, zwei Funktionen, die Benchmark-Gewinne in der Computeranwendung und langfristigen Planung in etwas verwandeln, das Sie auf einem Laptop bei der Arbeit nutzen können.
Claude für Chrome stützt sich direkt auf die Erfolgsquote von 66,3 % des Opus 4.5 beim OS World Computer-Nutzungsbenchmark, der nun die beste unter den veröffentlichten Frontier-Modellen ist. Anstatt nur eine Seite zusammenzufassen, kann Claude den Browser steuern: mehrstufige Abläufe durchklicken, Formulare ausfüllen, Dashboards navigieren und Daten von schlecht strukturierten Seiten abrufen, die Text, Bilder und merkwürdige Layouts mischen.
Das ist wichtig für die Art von Aufgaben, die Benchmarks wie Vending Bench zu simulieren versuchen. Die Recherche von Produkten, der Preisvergleich, das Verfolgen von Inventar oder das Beobachten von Konkurrenten über Dutzende von Tabs wird zu einer delegierten Aufgabe für einen KI-Orchestrator, der über Hunderte von Schritten hinweg kohärent bleiben kann und nicht nur ein Chatfenster ist, das Fragen beantwortet.
Claude für Excel zielt auf die andere Hälfte der Bürotätigkeiten ab: Zahlen und Struktur. Opus 4.5 kann große, unordentliche Tabellen übernehmen, erklären, was jedes Blatt und jede Formel bewirken, Abhängigkeiten zwischen Arbeitsmappen nachverfolgen und Anomalien aufdecken, die normalerweise einen menschlichen Analysten Stunden lang vor Pivot-Tabellen verbringen lassen würden.
Jenseits der Erklärung zielt Anthropic eindeutig auf Analyse und Planung ab. Claude für Excel kann rohe Exporte verarbeiten, Spalten normalisieren, berechnete Felder generieren, Diagramme erstellen und dann Trends sowie Empfehlungen synthetisieren – genau die Art von mehrstufigem, werkzeugintensivem Arbeitsablauf, in dem Opus 4.5 bereits in agenter Werkzeugnutzung und terminalartigen Aufgaben überlegen ist im Vergleich zu Gemini 3 Pro.
Anthropic passt den Zugang auch dahin an, wo er am wichtigsten ist. Claude für Chrome wird für alle Max-Nutzer eingeführt, während Claude für Excel im Beta-Test für Max-, Team- und Unternehmenskunden ausgeweitet wird, die Gruppen, die wahrscheinlich am meisten in browserbasierten SaaS-Anwendungen und umfangreichen Finanzmodellen arbeiten.
Zusammen zeigen diese Markteinführungen, dass Anthropic spezifische Stärken produktiv umsetzt: den Einsatz modernster Computertechnik, effektive Tabellenkalkulation und langanhaltendes, kohärentes Task-Management. Opus 4.5 erzielt nicht nur höhere Punktzahlen bei synthetischen Tests; es integriert diese Fähigkeiten leise in den alltäglichen Software-Stack, der die moderne Arbeit antreibt.
Die Schwelle der Autonomie
Autonomie hat nun eine funktionierende Definition in Laboren: R&D4. In der Taxonomie von Anthropic markiert dies den Punkt, an dem eine KI „vollständig die Arbeit eines einsteigerischen, nur remote arbeitenden Forschers“ in den Bereichen Literaturrecherche, Versuchsdesign, grundlegende Analysen und Berichterstattung automatisieren kann, und dies mit nur leichter menschlicher Aufsicht. Es handelt sich nicht um generische „AGI“; es ist der Punkt, an dem eine KI in einen Notion-Arbeitsbereich und ein Jira-Board eingefügt werden kann und einfach die Arbeit erledigt.
Anthropic sagt ausdrücklich, dass Opus 4.5 diese Maßstäbe nicht erfüllt. Das Modell fehlt es weiterhin an umfassendem situationalem Urteilsvermögen, insbesondere wenn sich die Anforderungen während des Projekts ändern oder wenn die Stakeholder uneinig sind. Es hat auch Schwierigkeiten mit den chaotischen Aspekten der realen Forschungsarbeit: unklare Anweisungen zu klären, gegen schlechte Ideen anzugehen und mit mehreren Menschen zu koordinieren, die widersprüchliche Prioritäten haben.
Die in der eigenen Mitteilung von Anthropic versteckte Warnung ist interessanter als der Haftungsausschluss. Mit „hochwirksamen Gerüsten“ – Planungsschichten, Gedächtnissystemen, Tool-APIs und Mensch-in-der-Schleife-Überprüfungen – sagt Anthropic, dass Modelle wie Opus 4.5 „nicht sehr weit entfernt“ von R&D4 sind. In der Praxis bedeutet das Orchestrierungsframeworks, die Arbeit in Teilaufgaben zerlegen, sie an kostengünstigere Modelle wie Haiku 4.5 weiterleiten und eine langfristige Agenda über Hunderte von Schritten hinweg intakt halten.
Entwickler richten dies bereits ein. Agentische Stapel, die Opus 4.5 mit Vektorsuche, Codeausführung und Browsersteuerung über Tools wie das Anthropic Python SDK Repository kombinieren, können mehrtägige Forschungszyklen durchführen: sie scrapen wissenschaftliche Arbeiten, fassen Methoden zusammen, generieren Experimente und aktualisieren ein Laborjournal autonom. Die Einschränkung besteht nicht länger nur in der rohen Intelligenz, sondern darin, wie gut das Gerüst diese Intelligenz einschränkt und überwacht.
Googles Alpha Evolve-Projekt bietet einen Ausblick darauf, wohin die Reise geht. In frühen Berichten hatte Google ein älteres, schwächeres Modell in eine enge evolutionäre Schleife eingebunden – automatisierte Hypothesenbildung, Simulation, Bewertung und Auswahl – und schaffte es dennoch, wirklich neuartige wissenschaftliche Ergebnisse zu liefern. Der Durchbruch kam nicht von einem einzelnen riesigen Gehirn, sondern von einem System, das das Modell als Bestandteil eines größeren, autonomen Prozesses behandelte.
Opus 4.5 plus robust Gerüstbau sieht aus wie dasselbe Muster, das auf allgemeine Wissensarbeit ausgerichtet ist. Sobald R&D4 überschritten ist, hört die Bezeichnung „Einsteiger-Forscher“ auf, eine Berufsbezeichnung zu sein, und wird zur Systemkonfiguration.
Ihr nächster Schritt im Wettlauf um Künstliche Intelligenz
KI-Teams stehen jetzt vor einer klaren Weggabelung: Jedes Modell mit der Arbeit zu verbinden, die tatsächlich Geld einbringt oder spart. Benchmarks wie SWE-Verified (Opus 4.5 bei 80,9 gegenüber Gemini 3 Pro bei 76,2) und Vending Bench 2 (Gemini 3 Pro knapp unter 5.500 $ im Vergleich zu Opus 4.5 knapp unter 5.000 $) lassen sich jetzt direkt in Produktentscheidungen, Personalpläne und Cloud-Rechnungen umsetzen.
Wählen Sie Opus 4.5 für: - Fortgeschrittene Codierung: langfristige Refaktorisierungen, Rahmenmigrationen und Multi-Repo-Debugging, wo SWE-Verified und Terminal-Bench-Werte wichtig sind. - Agentische Orchestrierung: ein Opus-“Orchestrator”, der Aufgaben an Claude Sonnet und Haiku 4.5 delegiert, um kostengünstigere Unteraufgaben zu erledigen, insbesondere bei Computerbenutzungs-Workflows im OS World-Stil. - Komplexes Denken: ARC-AGI-2-level abstrakte Probleme, mehrtägige Forschung und R&D4-Stil „Entry-Level-Forscher“-Automatisierung, wo Denk-Tokens über das Rohoutput-Volumen dominieren.
Wählen Sie Gemini 3 Pro für: - Multimodale Arbeiten: komplexe PDFs, UI-Mockups und visuell anspruchsvolle Dashboards, wo sein Verständnis für Bilder und Dokumente weiterhin führend ist. - Kreative Generation: Marketingkampagnen, Storyboards und hochauflösende Grafiken über Systeme wie Nanaban Pro. - Videos und dynamische Medien: Zeitlinienlogik, Szenenanalysen und gemischte Text-Bild-Video-Projekte, bei denen Opus 4.5 bisher nicht im gesamten Prozess mithalten kann.
Strategie für Praktiker: Standardisierung auf einen Dual-Stack. Nutzen Sie Opus 4.5 als Grundlage für Argumentation und Codierung, insbesondere für Agenten, die über Stunden oder Tage laufen, und leiten Sie alles Visuelle, Cinematische oder markenorientierte an Gemini 3 Pro weiter. Umhüllen Sie beides mit einem Nutzungsrouter, der den Aufgabentyp, die Kontextgröße und das Latenzbudget berücksichtigt und dann das kostengünstigste Modell auswählt, das Ihre Qualitätsanforderungen erfüllt.
Schnelle, springende Veröffentlichungen von Anthropic, Google und anderen haben jede Vorstellung von einem dauerhaften Monopol auf state-of-the-art KI zunichtegemacht. Intelligenzkurven werden jetzt im Rhythmus von 60–90 Tagen aktualisiert, nicht mehr über mehrere Jahre, und jedes neue Modell mischt neu, welche Aufgaben profitabel automatisiert werden können.
Erwarten Sie in sechs Monaten mindestens eine weitere Stufe der Autonomie: Agenten, die nicht nur Ihre „Einsteiger-Recherche“-Workflows ausführen, sondern auch Produkte in Web-, Mobil- und Datenumgebungen entwerfen, starten und A/B-Tests durchführen – während Sie leise das Modell des Labors, das an der Spitze der Entwicklung steht, austauschen.