TL;DR / Key Takeaways
Der Test, der entwickelt wurde, um KI zu brechen
Gerüchte über einen geheimen Durchbruch von GPT-5 begannen mit einem Diagramm: Ein angeblicher Score von 75–76% beim neuen ARC-AGI-2-Benchmark, der bequem über dem durchschnittlichen Testergebnis von etwa 60% bei Menschen liegt. Die Geschichte, die auf X und YouTube verstärkt wurde, stellte es als den Moment dar, in dem eine KI endlich Menschen bei einem Test übertroffen hat, der ausdrücklich dazu entwickelt wurde, AGI zu kontrollieren.
ARC-AGI stammt von François Chollet, einem Forscher bei Google DeepMind, der jahrelang argumentiert hat, dass die Vergrößerung von Sprachmodellen nicht dasselbe ist wie der Aufbau allgemeiner Intelligenz. Sein ARC (Abstraktions- und Schlussfolgerungskorpus)-Benchmark und die neuere Variante ARC-AGI-2 zielen auf die Art von flüssigem Denken ab, die Menschen verwenden, um Rätsel zu lösen, die sie noch nie zuvor gesehen haben.
Anstelle von Wissensfragen oder Lehrbuchaufgaben präsentiert ARC-AGI winzige farbige Raster und fordert das Modell auf, die versteckte Regel zu erschließen. Jede Aufgabe umfasst lediglich drei Beispiele für Eingabe und Ausgabe, gefolgt von einer vierten Eingabe, bei der das Modell das korrekte Ausgabegitter von Grund auf generieren muss. Keine Anweisungen, keine Etiketten, keine Multiple-Choice.
Der Benchmark misst flüssige Intelligenz: Mustererkennung, kompositorisches Denken und Generalisierung aus nahezu keinen Daten. Er verwendet eine strenge Pass@2-Metrik – Modelle erhalten höchstens zwei Versuche pro Aufgabe, ohne Teilpunkte, und unter Berücksichtigung der Rechenkosten pro Lösung.
Dieses Design macht ARC-AGI brutal schwer für große Sprachmodelle. LLMs glänzen, wenn sie auf memorisierte Muster aus textlicher Webskala zurückgreifen können, aber die Rätsel von ARC-AGI sind prozedural generiert und visuell, nicht linguistisch, und absichtlich unähnlich allem in den gängigen Trainingskorpora.
Standard-Leistungsrankings wie MMLU, GSM8K oder HumanEval verwischen oft die Grenze zwischen Schlussfolgerungen und Abruf. Benchmarks sickern in Trainingsdaten; Modellanbieter optimieren direkt auf ähnlichen Fragenformaten; die Punktzahlen steigen auf eine Weise, die möglicherweise mehr über Datenkontamination aussagt als über echtes Verständnis.
ARC-AGI geht in die entgegengesetzte Richtung. Die Aufgaben sind „menschlich-einfach/AI-schwer“, wobei menschliche Lösungsanbieter nahezu 100 % erreichen, wenn sie Zeit haben, während frühe Grenzmodelle bei ARC-AGI-2 nur einstellige Werte erzielten. Diese Lücke ist der Grund, weshalb ein angeblicher GPT-5-Wert von 75 %, selbst wenn er nicht verifiziert ist, Alarmglocken läutet: Wenn er wahr ist, würde das auf eine KI hindeuten, die nicht nur Wissen wiederholt, sondern brandneue Regeln so durchbricht wie Menschen.
Denken in Gitter: Was macht ARC so schwierig?
Bunte Quadrate auf einem Gitter klingen nicht nach einem Turing-Test, aber ARC-AGI verwandelt diese kindliche Spielzeugästhetik in ein Werkzeug für Künstliche Intelligenz. Jedes Rätsel zeigt eine Handvoll kleiner Eingabegitter und passender Ausgabegitter und fordert das Modell dann auf, ein neues Gitter unter Verwendung derselben verborgenen Regel zu transformieren: Vielleicht sollen die blauen Blöcke gespiegelt werden, eine rote Form um ein Pixel vergrößert oder alles außer der größten verbundenen Komponente gelöscht werden.
Menschen werfen einen Blick auf diese Beispiele und beginnen fast sofort, die Struktur zu erzählen: „Oh, die gelbe Linie markiert die Mitte“ oder „das Muster wiederholt sich alle drei Zellen.“ Für aktuelle Modelle sind diese 10×10- oder 20×20-Raster ein kombinatorisches Minenfeld. Jedes gefärbte Pixel vervielfacht die Anzahl möglicher Transformationen, die zu den Daten passen könnten, und nichts im Pretraining-Korpus eines Sprachmodells sieht so aus.
Der Schöpfer von ARC, François Chollet, hat es als reinen Test für fluide Intelligenz konzipiert: die Fähigkeit, in neuen Situationen zu schlussfolgern, Muster zu entdecken und Konzepte spontan neu zu kombinieren. Das steht im Gegensatz zur kristallisierten Intelligenz, die sich auf memorierte Fakten und vertraute Vorlagen stützt – Bereiche, in denen große Sprachmodelle glänzen, indem sie Texte in Webgröße wiedergeben und neu mischen.
Auf ARC-AGI-2 gibt es keinen Trainingssplit zum Auswendiglernen und keine Überlappung der Datensätze zu nutzen. Die Modelle sehen nur 3–5 Eingabe-Ausgabe-Paare pro Aufgabe und müssen auf ein neues Beispiel verallgemeinern. Es gibt keine Gradientenupdates, kein Feintuning; alles geschieht zur Testzeit, innerhalb der bestehenden Gewichte des Modells und der daran angebrachten Struktur.
Um Systeme ehrlich zu halten, verwendet ARC-AGI-2 eine Pass@2-Metrik: Ein Modell hat höchstens zwei Versuche pro Aufgabe. Es gibt keine Teilpunkte für „fast richtig“ und keine Möglichkeit, Tausende von Proben durchzuprobieren, bis eine funktioniert. Benchmarks verfolgen auch die Effizienz und zählen, wie viel Rechenleistung jeder Versuch benötigt, was die brutale Enumeration von Kandidatenprogrammen bestraft.
Menschen hingegen lösen diese Rätsel routinemäßig in wenigen Minuten, oft mit einem einzigen klaren Einblick. Diese Kluft – zwischen dem „Offensichtlichen“ für den Menschen und dem „undurchsichtigen“ für die Maschine – zeigt, wie weit die besten heutigen Modelle in Bezug auf echte Abstraktion noch zurückliegen, selbst wenn sie Prüfungen dominieren, die auf kristallisiertem Wissen basieren.
Die 'Unhobbling'-Revolution, die niemand kommen sah
Unhobbling klingt nach einem Fachbegriff aus der Nische, doch Leopold Aschenbrenner verwendet ihn, um etwas brutal Einfaches zu benennen: Aktuelle Modelle sind intelligent, jedoch künstlich eingeschränkt. Sein Papier „Situational Awareness“ aus dem Jahr 2024 argumentiert, dass ein großer Teil der kurzfristigen Gewinne nicht von größeren Modellen, sondern von der Beseitigung dieser Fesseln kommen wird.
Seine Analogie trifft ins Schwarze. Einen LLM zu bitten, ein schwieriges Matheproblem auf Anhieb zu lösen, ist so, als würde man von einem Menschen verlangen, die Antwort sofort herauszupressen, ohne Notizzettel, ohne Überarbeitungen. Chain-of-Thought-Prompting fungierte als dieses Notizblatt und verwandelte „Chatbots, die raten“ in Systeme, die mehrstufiges Denken durchlaufen können und plötzlich viel schwierigere Probleme meistern.
Die heutigen Frontier-Modelle bleiben stark beeinträchtigt. Aschenbrenner hebt hervor, dass sie: - Kein robustes Langzeitgedächtnis haben - keinen Computer oder Dateisystem flüssig nutzen können - selten „nachdenken, bevor sie sprechen“ mit ausführlicher interner Überlegung - hauptsächlich in kurzen, einsträngigen Chats arbeiten, anstatt in beständigen Projekten.
Unhobbling bedeutet, diese Einschränkungen mit Gerüsten zu beheben: Werkzeugnutzung, Planungszyklen, externes Gedächtnis, Multi-Agenten-Orchestrierung und mehr Rechenleistung zur Testzeit. Entscheidend ist, dass es verändert, was man mit den gleichen Basisgewichten tun kann, weshalb Aschenbrenner es als algorithmischen Fortschritt und nicht nur als UX-Optimierung einstuft.
Das kann man bereits in den Zahlen erkennen. Das Meta-System von Poetic soll eine GPT-5-Variante von ungefähr menschlichem Niveau mit ARC-AGI-2-Leistung (~60%) auf etwa 75–76% steigern und Grok-4-Modelle von ~56–57% auf ~72% bei ähnlichen Prüfungstests heben, und das alles ohne ein größeres Basis-Modell. Die Gemini 3-Reihe von Google zeigt dasselbe Muster: von unter 30% auf Mitte 40%, dann zu und über menschliche Baselines bei ARC-ähnlichen Aufgaben durch aufeinanderfolgende Entfesselungsdurchläufe.
Diese Dynamik verändert Zeitrahmen. Wenn die bloße Entfaltung von Potenzial bereits 10–20 Punkte bei Benchmarks liefern kann, von denen erwartet wurde, dass sie die nächste Generation von Modellen erfordern, müssen Sie nicht länger auf Trainingseinheiten im GPT-6-Maßstab warten, um signifikante Fortschritte zu sehen. Die eigenen Botschaften von OpenAI, Introducing GPT-5 - OpenAI, greifen ähnliche Themen auf: mehr Werkzeuge, mehr Kontext, mehr Handlungsspielraum, die auf der Rohskala aufbauen.
Aschenbrenners Prognose ist deutlich: Bis 2027 wird eine fortgesetzte Enthemmung heutiger Chatbots dazu führen, dass sie sich viel mehr wie ein Agent und ein Kollege verhalten als wie ein sprechendes Suchfeld.
Inside Poetic: Die 'Manager KI' Strategie
Poetisch steht im Mittelpunkt der Geschichte von GPT-5 ARC. Das Video von TheAIGRID erkennt das Unternehmen dafür an, eine „unbehindernde“ Struktur um ein Grenzmodell von OpenAI zu schaffen, anstatt ein neues Gehirn von Grund auf zu trainieren. Ihre Behauptung: ein Meta-System, das GPT-5 von ungefähr menschlichem Niveau der ARC-AGI-2-Leistung auf reported 75–76% bringt, ohne die zugrunde liegenden Gewichte zu erhöhen.
Im Mittelpunkt von Poeticals Ansatz steht eine „Manager-KI.“ Anstatt bei jedem Rätsel einen einzelnen großen Modellaufruf zu tätigen, untersucht der Manager das Gitter, schlägt einen übergeordneten Plan vor und zerlegt ihn dann in Teilprobleme. Jedes Teilproblem wird an ein spezialisiertes Arbeitsmodell weitergeleitet – einige sind auf Mustererkennung abgestimmt, andere auf Code-Generierung, Suche oder Verifikation.
Entscheidend ist, dass dieser Manager nicht nur anregt und hofft. Er kann: - Code gegen das Rätselgitter schreiben und ausführen - Zwischenresultate inspizieren und mit dem Ziel vergleichen - In alternative Strategien wechseln, wenn ein Weg falsch aussieht - Entscheiden, wann er aufhören soll, sobald eine korrekte Lösung erscheint
Dieser Zyklus – planen, handeln, überprüfen, überarbeiten – verwandelt ARC von einem einmaligen Schätzspiel in eine iterative Suche. Das System kann Dutzende günstiger Arbeitsaufrufe durchführen, anstatt ein einzelnes teures Grenzmodell zu verwenden. Poetic argumentiert, dass dies massive Rechenressourcen bei schwierigen Denkaufgaben spart, da der Manager frühzeitig stoppt, wenn eine Kandidatenausgabe genau mit dem geforderten Raster übereinstimmt.
Stellen Sie dies der standardmäßigen monolithischen LLM-Konfiguration gegenüber. In der Baseline-Welt senden Sie einen Eingabetext an ein großes Modell, erhalten eine Antwort und zahlen den vollen Preis, selbst wenn die Ausgabe fehlschlägt. Es gibt keine explizite Zerlegung, kein dauerhaftes Notizfeld und keine Selbstkorrektur außer dass ein Nutzer auf „erneut versuchen“ klickt.
Die mehragentenfähige, selbstkorrigierende Architektur von Poetic externalisiert effektiv das, was der Gedankengang nur andeutet. Anstatt ein einzelnes Modell zu einem schrittweisen Denken zu bewegen, orchestriert der Manager ein Team, weist Berechnungen in der Testzeit dort zu, wo sie benötigt werden, und kürzt tote Enden. Bei einem Benchmark wie ARC-AGI-2 kann diese Art von strukturierter Meta-Argumentation mehr Gewicht haben als weitere 10 Milliarden Parameter.
Realitätscheck: Das echte ARC-AGI-Ranking
Die Realität schlägt zu, sobald Sie die tatsächliche ARC Preis Rangliste öffnen. Der virale 75%-GPT-5 Score existiert dort einfach nicht, noch irgendwo sonst, wo er unabhängig verifiziert wurde. Stattdessen zeichnen die öffentlichen Zahlen ein viel bodenständigeres – und dennoch erstaunliches – Bild davon, wo die aktuellen Modelle stehen.
Auf der Hauptplatine ARC-AGI-2 erreicht das Basismodell GPT-5 einen Pass@2-Wert von nur 9,9 %. Damit befindet es sich in derselben kämpfenden Kohorte wie andere fortschrittliche Modelle: Claude Opus 4 mit 8,6 %, verschiedene Gemini 3-Varianten im niedrigen zweistelligen Bereich und viele Systeme, die zwischen 2 % und 6 % stagnieren. Grok-4 „Thinking“ führt diese frühe Tabelle mit 16,0 % an, was kaum nach einem Sieg im AGI-Bereich aussieht.
Scrollen Sie weiter und das vermeintliche Wunder-Modell erscheint in einem anderen Gewand: GPT-5.2, ein neues OpenAI-System, das plötzlich die Kurve verändert. Auf der offiziellen ARC-AGI-2 „Systeme“ Rangliste erreicht GPT-5.2 etwa 53–54% Pass@2. Dieser Wert übertrifft GPT-5s 9,9% mehr als dreimal und ungefähr verdreifacht auch die gemeldeten 17,6% von GPT-5.1, während es frühere Stars wie Gemini 3 Pro, die etwa 45% erreichen, komfortabel übertrifft.
Menschen besitzen jedoch nach wie vor diesen Maßstab. Die menschliche Basislinie von ARC-AGI-2 liegt bei etwa 60 % für durchschnittliche Testteilnehmer, während validierte Sets, wenn man nur Aufgaben zählt, die von mindestens zwei von neun oder zehn Personen gelöst wurden, annähernd 98–100 % erreichen. Der gesamte Zweck von ARC besteht darin, dass diese Rasterrätsel den Menschen „offensichtlich“ erscheinen, für Maschinen jedoch brutal undurchsichtig bleiben.
Dieser Kontext lässt die Behauptung von 75–76 % eher wie Marketing als wie Messung erscheinen. Keiner der öffentlichen Ranglisten-Einträge, Papers oder ARC-Preis-Updates zeigt irgendeine GPT-5-Variante, poetisches System oder Grok-Konfiguration, die die menschliche Durchschnittsmarke von 60 % überschreitet, geschweige denn sie um 15 Punkte übertrifft. Wenn ein solcher Lauf existiert, ist er außerhalb der üblichen Normen von Wettbewerbsbenchmarks, nicht verifiziert und nicht dokumentiert.
Nichts davon mindert, wie schockierend das verifiziert Ergebnis von 53–54 % für GPT-5.2 tatsächlich ist. Eine einzige Modellfamilie, die in einer Generation von unter 20 % auf über 50 % bei ARC-AGI-2 springt, stellt einen deutlichen Fortschritt in der abstrakten Denkweise dar. Menschenähnliches Niveau bleibt unerreichbar, aber die Kluft hat sich viel schneller verringert, als es fast jeder vorhergesagt hat.
Warum 54 % beeindruckender sind als 100 %
Der Fortschritt der ARC-AGI sah nie wie eine glatte Kurve aus. Jahrelang schwebten hochentwickelte Modelle zwischen 0 % und 6 % bei ARC-Ähnlichen Rätseln und zeigten damit trotz enormer Trainingsdurchläufe keine flüssige Intelligenz. Sie konnten Barprüfungen und Programmierinterviews meistern, scheiterten jedoch bei einem 5×5-Raster aus bunten Quadraten.
Deshalb ist 54% wichtiger als ein hypothetisches 100%. Ein Wert im mittleren 50er-Bereich bei ARC-AGI-2, wie es angeblich bei GPT-5.2 der Fall ist, bedeutet, dass die Modelle von „praktisch defekt“ zu „die meisten Probleme eines intelligenten Menschen lösen“ übergegangen sind. Das ist ein qualitativer Phasenwechsel, kein marginaler Benchmark-Zuwachs.
ARC-AGI-2 verwendet Pass@2: zwei Versuche, keine Teilpunkte, kostensensible Bewertung. Vorherige Grenzmodelle wie GPT-5, Claude Opus 4 und Grok-4 Thinking lagen im Bereich von einstellig bis niedrige Zehner. Ein Sprung auf ~53–54% verdreifacht diese Werte mehr als dreimal, während durchschnittliche Menschen bei ungefähr 60% liegen und kuratierte menschliche Baselines 98–100% erreichen.
Entscheidend ist, dass dieser Sprung nicht nur durch die Vergrößerung des Modells erreicht wurde. Er resultierte aus einem Entschlacken: bessere Suche, Denkansätze auf dem Papier, Nutzung von Werkzeugen und eine managerähnliche Orchestrierung rund um das Basis-Modell. Der Ansatz der „Manager-KI“ von Poetic—Aufgabenleitung, Problemanalyse, iterative Lösungen—verkörpert den algorithmischen Fortschritt, den Leopold Aschenbrenner als den nächsten großen Treiber der Leistungsfähigkeit hervorgehoben hat.
Die These von Aschenbrenner war einfach: Modelle sind weitaus fähiger, als es ihre naiven Einmal-Ausgaben vermuten lassen. Fügen Sie strukturiertes Denken, Gedächtnis und Werkzeuge hinzu, und Sie entfalten schlummernde Intelligenz. Der Sprung von ARC von 0–6 % auf über 50 % ist die grafische Darstellung dieses Arguments.
Sam Altman hat immer wieder auf ARC als einen „echten“ Maßstab für AGI verwiesen, gerade weil es gegen Memorierung und Tricks mit Eingabeaufforderungen resistent ist. Berichten zufolge verfolgen Insider von OpenAI die ARC-Kurven genauer als auffällige standardisierte Tests. Wenn diese Linie steil nach oben ausschlägt, achten die Personen, die an AGI arbeiten, darauf.
Jeder kann die öffentlichen Ranglisten und die Methodologie unter **ARC Prize - Abstract Reasoning Corpus** durchsuchen. Die Schlagzeile ist nicht Perfektion; es ist, dass sich die Kurve endlich bewegt hat.
Jenseits des Skalierens: Der neue Weg zur AGI
Die Skalierungsgesetze hatten eine gute Zeit. In den letzten fünf Jahren folgte der Fortschritt bei großen Sprachmodellen einem einfachen Rezept: mehr Parameter, mehr Daten, mehr Rechenleistung. Der Übergang von GPT-3 zu GPT-4 zu GPT-5 ähnelte einer geraden Linie in einem Log-Log-Diagramm, mit Leistungsparametern, die sich gut in Potenzgesetz-Gleichungen einfügten.
ARC-AGI-2 bricht diese Geschichte leise auf. Modelle wie GPT-5.2 springen von niedrigen zweistelligen Werten bei früheren ARC-ähnlichen Aufgaben auf ungefähr 53–54% bei ARC-AGI-2, nicht weil jemand ein Billionen-Parameter-Monster trainiert hat, sondern weil Forscher geändert haben, wie Modelle zur Testzeit denken. Systemdesign und Algorithmen, nicht reine Größe, haben den Fortschritt ermöglicht.
François Chollet, der den ursprünglichen ARC-Benchmark geschaffen hat, argumentiert seit Jahren dafür. Seiner Ansicht nach kann wahre allgemeine Intelligenz nicht in einem statischen, vortrainierten Blob von Gewichten existieren, der nur Korrelationen wiederkäut. Sie erfordert Systeme, die Hypothesen spontan aufbauen und überarbeiten, Lösungsmöglichkeiten erkunden und ihre Strategie anpassen, wenn sie auf neue Aufgaben stoßen.
Diese Philosophie spiegelt sich direkt im Design von ARC wider. Jedes Puzzle bietet nur 3–5 Eingabe-Ausgabe-Beispiele und dann ein völlig neues Testgitter; kein internetgroßes Trainingsset kann Ihnen helfen. Um diese zu lösen, muss ein Modell Testzeitlernen durchführen: Regeln ableiten, über mögliche Transformationen suchen und sich unter engen Rechenbudgets selbst korrigieren.
„Unhobbling“ ist das, was passiert, wenn man das ernst nimmt und ein leistungsstarkes Basismodell mit einem Gerüst umgibt, das es ihm ermöglicht, mehr wie ein Wissenschaftler als wie eine Autovervollständigungsmaschine zu agieren. Leopold Aschenbrenners Paper „Situational Awareness“ hebt Dinge wie das Chain-of-Thought-Prompting, die Nutzung von Werkzeugen und die Planung über längere Zeiträume als einfache Anpassungen hervor, die latente Fähigkeiten freisetzen. Die Manager-LLM-Architektur von Poetic ist diese Idee, die in ein Produkt umgesetzt wurde.
Anstelle eines einzelnen riesigen Vorwärtspasses orchestriert Poetic mehrere Modelle, Werkzeuge und Versuche unter einer Manager-KI, die entscheidet, wie die Rechenleistung eingesetzt wird. Das ist eine architektonische Innovation, keine Skalierungsinnovation. Grok-4 „Denken“, das von ~56–57 % auf ~72 % in internen Denktests springt, oder Gemini 3 Varianten, die von unter 30 % auf menschliche Ebene bei ARC-ähnlichen Aufgaben steigen, stammen aus dieser Art von systematischem Entfrickeln.
Wenn dieses Muster anhält, könnte AGI weniger als ein einzelnes kolossales Modell und mehr als ein eng integriertes System aus anpassungsfähigen Komponenten erscheinen. Grobe Kraft hat die Motoren gebaut; clevere Architektur könnte das Auto vollenden.
Die Zielpfosten verschieben sich: ARC-AGI-3 und darüber hinaus
ARC-AGI-2 ist bereits brutal, aber seine Entwickler stehen nicht still. Das ARC-Preis-Team arbeitet ruhig an ARC-AGI-3, einem Benchmark der nächsten Generation, der für etwa 2026 geplant ist und speziell entwickelt wurde, um Modelle zu überführen, die nur in statischen Tests intelligent wirken.
Anstelle von farbigen Gittern als feste Rätsel wird ARC-AGI-3 Modelle in eine unbekannte Umgebung einsetzen und sie auffordern herauszufinden, was wichtig ist. Denken Sie weniger an „lösen Sie dieses Muster“ und mehr an „Sie befinden sich in einer seltsamen Mikrowelt mit Objekten und Regeln; entdecken Sie, wie es funktioniert, und erreichen Sie dann ein Ziel.“
Dieser Wandel verwandelt passives Mustererkennen in interaktive Argumentation. Modelle müssen die Umgebung erkunden, Experimente durchführen und ihre Hypothesen aktualisieren, wenn etwas nicht funktioniert, was dem viel näher kommt, wie Menschen ein neues Werkzeug, ein Spiel oder eine Schnittstelle lernen.
Der neue Maßstab zielt auf Fähigkeiten ab, die die heutigen Grenzmodelle größtenteils mit cleverem Prompting vortäuschen. Um erfolgreich zu sein, wird eine KI Folgendes benötigen:
- 1Effizient erkunden statt willkürlich herumzuklicken.
- 2Setze eigene Zwischenziele, ohne dass man dich an die Hand nehmen muss.
- 3Ein Weltmodell aus spärlichem Feedback aufbauen und überarbeiten.
- 4Planen Sie mehrstufige Aktionssequenzen und führen Sie diese zuverlässig aus.
ARC-AGI-3 greift auch einen der größten Schwachpunkte aktueller Bewertungen an: dichte Anweisungen. Anstelle einer natürsprachlichen Spezifikation, die dem Modell genau sagt, was zu tun ist, muss das System oft die Aufgabe aus wenigen Beispielen, teilweisen Belohnungen oder sogar nur mit "mach etwas Gutes" ableiten.
Das macht es zu einem Test der Handlungsfähigkeit, nicht nur des Denkens. Ein System, das autonom entscheiden kann: „Ich sollte diesen Raum kartieren, das Verhalten von Objekten katalogisieren und dann nach einem Weg zum Ziel suchen“, sieht viel näher aus wie der „KI-Kollege“, den Leopold Aschenbrenner vorhergesagt hat, als wie ein Chatbot, der auf Eingaben wartet.
Wenn ARC-AGI-2 misst, ob ein Modell ein schwieriges Rätsel lösen kann, wenn man ihm die Regeln vorsetzt, fragt ARC-AGI-3, ob es in der Lage ist, in eine neue Welt einzutreten und sich die Regeln selbst beizubringen. Diese Überbrückung der Kluft – vom Problemlöser zum anpassungsfähigen Agenten – ist die nächste echte Hürde auf dem Weg zur AGI.
Wie 'Entfesseltes' KI Ihre Arbeitsabläufe verändern wird
Das Entwirren wird nicht mehr abstrakt, sobald eine KI nicht mehr wie ein Chatfenster agiert, sondern sich wie ein Kollege verhält, der einen Teil Ihres Jobs übernimmt. Leopold Aschenbrenners Wette ist konkret: Bis 2027 werden die meisten Wissensarbeiter täglich mit Agenten interagieren, die planen, sich erinnern und ausführen, nicht nur Fragen beantworten. Dieser Wandel verwandelt das „Prompt Engineering“ in etwas, das näher an Management und Zusammenarbeit liegt.
Stellen Sie sich einen Projektmanager-Agenten vor, der in Slack und Jira Ihres Unternehmens integriert ist. Sie geben ihm ein Ziel – „den neuen Onboarding-Prozess bis zum 15. März auszuliefern“ – und er zerlegt die Arbeit, erstellt Tickets, verhandelt Abhängigkeiten mit anderen Agenten und kontaktiert Menschen nur für Genehmigungen oder Entscheidungen, die Urteilskraft erfordern. Er verfolgt Burndown-Diagramme, prognostiziert Verzögerungen anhand historischer Geschwindigkeiten und entwirft automatisch Updates für die Stakeholder.
Ein Software-Ingenieur könnte einem freigeschalteten System ein unübersichtliches Monolithen-Design übergeben und sagen: „Finde Leistungsengpässe und schlage einen Migrationsplan zu Services vor.“ Der Agent durchsucht das Repository, erstellt Aufrufgrafen, führt Profiling in einer Staging-Umgebung durch, eröffnet Pull-Requests mit Refactorings und schreibt Regressionstests. Menschliche Ingenieure überprüfen und lenken, aber die mühsame Arbeit des Schürfens durch Legacy-Code und das Verdrahten von Boilerplate verschwindet größtenteils.
Marktanalyse-Analysten könnten gesamte Forschungsprojekte abwickeln, anstatt Einzelanfragen zu bearbeiten. Ein Agent mit Live-Web-Tools und API-Zugang könnte: - Gewinnaufrufe und 10-K-Formulare in einem Sektor scrapen - Preis-, Sentiment- und Volumendaten in Echtzeit verfolgen - Szenarioanalysen und Monte-Carlo-Simulationen für Cashflow-Modelle durchführen - Ein 20-seitiges Briefing mit Diagrammen, Vorbehalten und empfohlenen Handelsstrategien zusammenfassen
Benchmarks wie ARC-AGI-2 und Datensätze im GPT-5 Benchmarks Repository treiben diesen Wandel leise voran, aber das Benutzererlebnis scheint alltäglich: weniger Tabs, weniger Meetings, weniger Statusdokumente, die man von Hand schreibt. Die Magie entsteht durch das Aufbrechen von Einschränkungen, die Aschenbrenner anspricht – kurze Kontextfenster, fehlende Werkzeuge, kein Langzeitgedächtnis, kein Planungszyklus – und das Umhüllen von Modellen mit Gerüsten, die diese Probleme beheben.
Ihr Job hört unterdessen auf, nur "eine clevere Eingabe eintippen, eine clevere Antwort erhalten" zu sein. Sie müssen Ihre Ziele klar definieren, Kompromisse aushandeln und Pläne überprüfen, so wie Sie es mit einem jüngeren Teamkollegen tun würden. Zusammenarbeit bedeutet, Rahmenbedingungen festzulegen, das Denken zu überprüfen und Agenten in bestehende Arbeitsabläufe zu integrieren, anstatt einen Chatbot zu betreuen.
Das echte KI-Rennen dreht sich um Systeme, nicht um Größe.
Der virale Hype um ein geheimes GPT-5, das stillschweigend die ARC-AGI-2 mit 75 % „bestanden“ haben soll, stellte sich als falsch heraus. Doch die Geschichte brachte zufällig eine tiefere Wahrheit ans Licht: Die Grenze liegt nicht mehr innerhalb eines einzelnen großen Modells, sondern in den Systemen, die es umgeben.
Die eigene Rangliste des ARC-Preises zeigt GPT-5 bei 9,9 % und GPT-5.2 bei etwa 53–54 %, weit entfernt von den behaupteten 75–76 %. Diese Kluft zwischen Gerücht und Realität verdeutlicht, wie viel des heutigen Fortschritts auf bessere Orchestrierung, Suche und Werkzeuge zurückzuführen ist, anstatt auf ein magisches neues Gehirn mit einer Billion Parametern.
Fundamentale Modelle sind nach wie vor wichtig; GPT-5.2 hat die 17,6% ARC-AGI-2-Bewertung von GPT-5.1 ungefähr verdreifacht. Doch die größten Fortschritte ergeben sich jetzt aus dem „Entfesseln“ dieser Modelle mit Unterstützung: Manager-AIs, Werkzeugnutzung, Langzeitgedächtnis und mehrstufige Planung, die aus denselben zugrunde liegenden Gewichten weitaus effektivere Schlussfolgerungen herausholen.
Dieser Wandel schreibt leise die Wettbewerbslandschaft neu. Sie müssen kein Hyperscale-Rechenzentrum mehr besitzen, um wettbewerbsfähig zu sein; Sie müssen den intelligentesten agentischen Stack aufbauen, basierend auf dem API-Zugang, den Sie kaufen können.
Ein kleines Labor kann ein handelsübliches Modell verwenden und folgende Komponenten hinzufügen: - Einen Planer, der Probleme in Teilziele zerlegt - Einen Werkzeugrouter, der Code, Suchvorgänge und spezialisierte Solver aufruft - Einen Prüfer, der Antworten überprüft und iterativ verbessert
Bei ARC-ähnlichen Aufgaben können diese Ergänzungen den Unterschied zwischen einer einstelligen Leistung und einer menschenähnlichen Leistung ausmachen.
Die gemutmaßte „Manager-KI“ von Poetic passt in diesen Kontext: ein Steuerungselement, das entscheidet, welches Modell aufgerufen wird, wie viele Proben generiert werden und wann ein neuer Versuch gestartet oder hochgestuft werden soll. Unabhängig davon, ob die Zahlen von GPT-5 standhalten, weist die Architektur in die richtige Richtung: Systeme, die LLMs als Komponenten und nicht als Orakel betrachten.
Das ist das eigentliche Wett Rennen: Wer die fähigsten und kosteneffizientesten Denk Systeme pro Dollar Rechenleistung bauen kann, nicht wer die größte rohe Parameteranzahl ankündigen kann. Die Modellgröße verschafft zwar Spielraum, aber die Entfesselung bestimmt, wie viel von diesem Spielraum in nutzbare Fähigkeiten umgewandelt wird.
Beobachten Sie, wie das Entschlacken die Verbindung von Chatbots zu Kollegen darstellt. Der schnellste Weg von den heutigen LLMs zu den Agenten von morgen führt über Systems Engineering, nicht nur über größere GPUs.
Häufig gestellte Fragen
Was ist das ARC-AGI-2 Benchmark?
Es ist ein Test, entworfen von Francois Chollet, um die „fluiden Intelligenz“ einer KI zu messen – ihre Fähigkeit, neuartige, abstrakte Denkrätsel mit sehr wenigen Beispielen zu lösen, was für Menschen einfach ist, für aktuelle KI jedoch eine Herausforderung darstellt.
Was bedeutet es, eine KI zu "entfesseln"?
Der Begriff „Unhobbling“, geprägt von Leopold Aschenbrenner, bezieht sich auf die Verbesserung der Leistung einer KI durch die Beseitigung ihrer Einschränkungen, nicht durch die Vergrößerung des Basis-Modells. Dies geschieht durch den Aufbau intelligenterer Systeme darum herum, wie das Hinzufügen von Speicher, Werkzeugen oder schrittweise Denkrahmen.
Hat GPT-5 tatsächlich den Leistungsmaßstab auf menschlichem Niveau bestanden?
Nein. Trotz viraler Behauptungen zeigen offizielle Ranglisten, dass GPT-5.2 etwa 54 % beim ARC-AGI-2 erzielt, ein signifikanter Fortschritt, aber immer noch unter dem durchschnittlichen menschlichen Wert von etwa 60-100 %. Der Fortschritt resultiert aus „Entfesselungstechniken“ und nicht nur aus der Leistungsfähigkeit des Basismodells.
Wer ist Leopold Aschenbrenner?
Er ist ein ehemaliger Forscher von OpenAI, bekannt für sein detailliertes Papier von 2024 mit dem Titel „Situational Awareness: The Decade Ahead“, das den schnellen strategischen Fortschritt in Richtung AGI diskutiert und Konzepte wie „Unhobbling“ popularisiert.