Anthropics KI-Coding-Agent: 24-Stunden-Testresultate & Zukunft der Entwicklung

💡

TL;DR / Key Takeaways

Wir haben den neuen KI-Coding-Agenten von Anthropic bis an seine Grenzen getrieben mit einem ununterbrochenen 24-Stunden-Coding-Marathon. Die Ergebnisse bieten einen schockierenden Einblick in die Zukunft der Softwareentwicklung.

Die Unmögliche Herausforderung: Eine KI programmiert 24 Stunden lang

Anthropics neuestes Programmierexperiment klingt wie eine Herausforderung: Schließe Claude an ein langfristiges Agenten-"Harnes" an, drücke auf Start und lass es 24 Stunden am Stück programmieren. Kein Kaffee, keine Pausen, nur ein KI-Modell, das während deines Schlafes eine umfangreiche Software-Spezifikation abarbeitet. Das Ziel: herauszufinden, ob ein modernes Programmiermodell weniger wie eine Autocomplete-Funktion und mehr wie ein unermüdliches Junior-Entwicklungsteam agieren kann.

Lange Aufgaben brechen normalerweise KI-Agenten auf langweilige, vorhersehbare Weise. Nach ein paar Stunden überlasten sie ihr Kontextfenster, vergessen frühere Entscheidungen und halluzinieren entweder Struktur oder erklären einfach das Projekt für „abgeschlossen“, während die Hälfte der Funktionen nur im Prompt existiert. Traditionelle Werkzeuge setzen den Zustand zurück, verlieren den historischer Faden und zwingen Menschen dazu, jede größere Umstrukturierung zu beaufsichtigen.

Anthropic's Open-Source Harness greift dieses Fehlermuster direkt an. Anstatt eines einzigen großen Monologs mit dem Modell koordiniert der Harness mehrere Agenten, verteilt die Arbeit auf separate Kontextfenster und speichert den Zustand auf der Festplatte. Er setzt auf testgetriebene Entwicklung: Zunächst werden Hunderte von Testfällen und eine detaillierte App-Spezifikation definiert, bevor die Agenten iterieren, bis die Tests schließlich bestanden sind.

Cole Medin’s Experiment bringt dieses Harness an die Grenzen: ein 24‑stündiger Programmiermarathon, um einen funktionierenden Klon von Claudes eigener Web-App zu erstellen, komplett mit Projekten, Unterhaltungen, Artefakten und Datei-Uploads. Das Harness startet einen Initialisierungsagenten, um eine Funktionsliste mit ungefähr 200+ detaillierten Testfällen zu generieren, strukturiert das Projekt und verbindet von Anfang an Git, sodass jede Änderung nachvollziehbar ist. Danach arbeiten Programmieragenten stundenlang, implementieren und beheben Funktionen basierend auf diesen Tests.

Als YouTube-Spektakel inszeniert, deutet dies auf eine ernsthafte Zukunft für agentes Coding hin. Langfristige KI-Agenten, die im Stillen MVPs, Hintergrundprototypen und vollständige UI-Shells über Nacht erstellen, könnten Wochen der Vorbereitung auf einen einzigen Kalendertag komprimieren. Der 24-Stunden-Stunt zeigt einfach, was passiert, wenn man aufhört, KI als Chatbox zu behandeln, und anfängt, sie als Prozess zu betrachten.

Durchbrechen der KI-Ausdauergrenze

Illustration: Die Durchbrechung der KI-Ausdauergrenze

Ausdauer, nicht roher IQ, beendet die meisten KI-Coding-Experimente heimlich. Langfristige Agenten driften ab, überschreiben ihre eigenen Pläne oder „entscheiden“ einfach, dass sie fertig sind, sobald das Kontextfenster mit unausgereiftem Code und umherirrenden Anweisungen gefüllt ist. Die Anthropic-Setup greift diesen Fehlermodus direkt an: ein Gestell, das sich erinnert, was der Agent nicht kann.

Anstelle eines intelligenten neuen Agents fungiert das Harness als eine Koordinationsschicht, die sich um gewöhnliche Claude Code-Sitzungen legt. Es verfolgt Dateien, Aufgaben und Testergebnisse über Stunden der Ausführung hinweg und startet neue Gespräche, sobald ein Thread zu aufgebläht wird, um kohärent zu bleiben. Jede neue Sitzung beginnt mit einem destillierten Snapshot dessen, was wichtig ist, und nicht mit einem unordentlichen Transkript von allem, was zuvor gekommen ist.

Massive Projekte verwandeln sich in strukturierte To-do-Listen. Der Prozess beginnt mit einer Klartext-App-Spezifikation oder PRD und verwandelt diese dann in eine Funktionsliste mit Hunderten von kleinen, testbaren Verhaltensweisen. Coles Medins Lauf zielte auf über 200 Testfälle für einen Claude.ai-ähnlichen Klon ab, die alle im Vorfeld aus dieser einen Spezifikation generiert wurden.

Diese Funktionen existieren nicht als vage Aufzählungspunkte. Sie werden zu JSON-Objekten mit Feldern wie Beschreibung, betroffenen Dateien und spezifischen Akzeptanzkriterien. Der Harness kann dann ein Feature nach dem anderen auswählen, den relevanten Kontext in Claude einspeisen und ihn bitten, nur diesen Teil des Systems zu implementieren oder zu beheben.

Anstelle eines 24-Stunden-Mega-Chats führt das System Dutzende oder Hunderte von fokussierten „Sprints“ durch. Jeder Sprint ist eine kurzlebige Agentensitzung mit einem engen Ziel: ein Bauelement hinzufügen, einen API-Aufruf einrichten, einen Test bestehen. Wenn das Kontextfenster zu überladen ist, schließt das System diese Sitzung und öffnet eine neue, die mit dem aktuellen Repository-Zustand und der Aufgabenliste gefüllt ist.

Der Zustand lebt auf der Festplatte und in Git, nicht im Gedächtnis des Modells. Das System stützt sich auf: - Den Codebestand selbst - Die JSON-Featureliste - Eine wachsende Testsuite und Protokolle

Durch die Externalisierung des Zustands verwandelt das Harness einen unzuverlässigen, vergesslichen Agenten in etwas, das sich eher wie eine deterministische Build-Pipeline verhält – eine, die 24 Stunden lang codieren kann, ohne den Überblick zu verlieren.

Die Mission: Clone Claude.ai von Grund auf neu erstellen

Claudes 24-Stunden-Mission hatte ein brutally klares Briefing: Das Claude.ai Web-App von Grund auf neu zu bauen, ohne menschliche Unterstützung, ohne Kurskorrekturen. Kein Spielzeug-Chatfenster, sondern ein funktionierender Klon der Oberfläche, die Millionen von Nutzern täglich nutzen. Die gleichen Kernabläufe, der gleiche Sinn für Politur, vollständig von einer KI geschrieben, die niemals schläft.

Das bedeutet, die gesamte konversationale Oberfläche zu replizieren. Der Agent musste ein persistentes Gesprächsmanagement mit Nachrichtenverlauf, Sidebar-Threads und einer ordnungsgemäßen Zuordnung zu verschiedenen Projekten aufbauen. Es benötigte zudem echte Datei-Uploads und Anhänge, keine Platzhalter – die Handhabung von Dokumenten, Code und PDFs, die ins Modell fließen und als Referenzen in der Benutzeroberfläche wieder herauskommen.

Darüber hinaus forderte Cole Medins Spezifikation eine projektbezogene Organisation und ein sauberes, modernes Frontend. Der Klon benötigte: - Projekterstellung und -wechsel - Gruppierte Gespräche pro Projekt - Unterstützung für „Artefakte“ oder umfangreiche Ausgaben - Ein responsives Layout im Claude-Stil mit leichtem UX-Chrome, nicht rohem Bootstrap

Genau das ist der Bereich, in dem langjährige Agenten hervorragend sein sollten: eine dichte Mischung aus Front-End-Arbeiten mit React oder Next.js, Backend-API-Integration und Kle Code, um den Zustand konsistent zu halten. Es zwingt Claude, Routing, Authentifizierung, Persistenz und UI-Zustand zu jonglieren, während er gleichzeitig mit einer menschenlesbaren Produktspezifikation im Einklang bleibt. Kein einzelner Prompt kann das abdecken; nur ein System, das die Arbeit zerlegt und den Kontext immer wieder aufgreift, hat eine Chance.

Der eigene Artikel von Anthropic Effektive Halterungen für langlaufende Agenten - Anthropic nutzt einen Claude.ai-ähnlichen Klon als Hauptbeispiel, komplett mit hunderten von Tests und einem Multi-Agenten-Workflow. Auf dem Papier koordiniert die Halterung die Initialisierungs- und Codierungsagenten, erstellt eine Struktur und bearbeitet über 200 Testfälle, bis die App besteht. Auf YouTube verwandelt sich dieses glänzende Diagramm in eine brutale Frage: Kann dasselbe Setup tatsächlich einen Claude.ai-Klon in 24 Stunden ohne menschliche Bearbeitungen erstellen, oder hat der Blogbeitrag heimlich auf Handanpassungen und ausgewählte Screenshots zurückgegriffen?

Diese Einsätze machen dies zu mehr als nur einem neuartigen Maßstab. Wenn ein Harness plus Claude tatsächlich eigenständig einen produktionsnahen Claude.ai-Klon erstellen kann, deutet das auf eine nahende Zukunft hin, in der "eine neue App starten" bedeutet, eine Spezifikation zu schreiben, auf Ausführen zu klicken und am nächsten Morgen zu einem funktionierenden SaaS-Skelett zurückzukehren.

Der Architekt: Lernen Sie den Initialisierungsagenten kennen

Der Initialisierer-Agent fungiert als Hauptarchitekt des Projekts, jedoch ohne jegliches Ego und mit unbegrenzter Geduld. Es ist der erste Prozess, den der Anthropic-Harnisch startet, und alles, was danach kommt, hängt von der Qualität seiner Arbeit ab. Bevor ein einziges Merkmal programmiert wird, sitzt dieser Agent mit den App-Spezifikationen—dem pseudo-PRD für den Claude.ai-Klon—und verwandelt sie in einen vollständig strukturierten Plan.

Sein Job klingt einfach: „Analysiere die Anforderungen und richte das Projekt ein.“ In der Praxis bedeutet das, einige Seiten Text in einen maschinenlesbaren Plan umzuwandeln, dem andere Agenten rund um die Uhr ohne Abschweifen folgen können. Kein Debugging, keine UI-Optimierung, keine Refactorings—nur Einrichtung.

Das Harness zwingt den Initializer-Agenten, vier zentrale Artefakte zu erstellen, die das gesamte Build definieren:

1Eine Feature-Listen-JSON mit über 200 detaillierten Testfällen
2Ein Initialisierungsskript, um das Projekt zu starten.
3Boilerplate Code-Gerüst für den Full Stack
4Ein frisch initialisiertes Git-Repository

Diese Funktionsliste im JSON-Format übernimmt diskret die schwerste Arbeit. Sie zerlegt die Spezifikation des Claude.ai-Klons in Hunderte von kleinen, überprüfbaren Verhaltensweisen: ein neues Gespräch beginnen, eine Datei hochladen, Projekte wechseln, Artefakte rendern, leere Zustände handhaben und mehr. Jeder Testfall wird zu einem Ziel für zukünftige Codierungsagenten und fördert eine Art KI-natives testgetriebenes Entwickeln.

Das Initialisierungsskript verbindet die Umgebung, damit zukünftige Agenten keine Token mit dem Neuen von Einrichtungsschritten verschwenden. Es kodiert Entscheidungen wie die Wahl des Frameworks, Paketmanager und Entwicklungsbefehle – denken Sie an `npm install`, Datenbank-Setups und Äquivalente von `npm run dev`, die in einem reproduzierbaren Einstiegspunkt festgehalten sind.

Das Gerüst bietet den Codierern eine Übersicht über den Codebestand, bevor sie eine einzige Komponente berühren. Sie erhalten vordefinierte Verzeichnisse für das Frontend, das Backend, API-Routen und gemeinsame Hilfsprogramme sowie Platzhalterdateien, die auf die Architektur hinweisen: Routing, Zustandsmanagement und Integrationspunkte für Claudes Chat, Artefakte und Dateiverarbeitung.

Git ist das letzte nicht verhandelbare Element. Der Initializer-Agent erstellt ein neues Repository und etabliert die Versionshistorie ab der ersten Zeile, sodass nachfolgende Agenten sicher committen, differenzieren und zurückrollen können. Für langfristige agentische Kodierungssysteme ist diese Historie das einzige, was verhindert, dass eine 24-Stunden-Sitzung in Chaos umschlägt.

Die unerbittliche Logik der Programm Schleife

Illustration: Die unerbittliche Logik der Programmier-Schleife

Das Codieren hängt ganz entscheidend von seinem Hauptakteur ab: dem Coding Agent. Sobald der Initializer Agent den Plan skizziert hat, tritt dieser Agent in eine unermüdliche Schleife ein, wacht mit einem frischen Kontextfenster auf, überfliegt den Projektstatus und arbeitet sich nacheinander durch die Funktionen. Kein Plaudern, kein Brainstorming – nur ein straffer Feedbackzyklus aus Tests, Anpassungen und Commits.

Im Zentrum steht eine strikte testgetriebene Entwicklung (TDD)-Disziplin. Bevor auch nur eine Zeile Produktionscode geändert wird, weiß das System bereits, wie „fertig“ aussieht, anhand einer umfangreichen Feature-Liste im JSON-Format, oft mit über 200 granularen Testfällen. Die Aufgabe des Coding Agents besteht nicht darin, kreativ zu sein; es geht darum, diese Tests zum Bestehen zu bringen.

Jede Schleife beginnt damit, dass der Agent ein Fortschrittsartefakt lädt: eine strukturierte Datei, die verfolgt, welche Funktionen existieren, welche Tests bestehen und was kürzlich beschädigt wurde. Von dort aus wählt er das nächste Ziel aus – zum Beispiel „Unterstützung für das Hochladen mehrerer Dateien in ein Projekt“ oder „Darstellung des Gesprächsverlaufs mit Artefakten“ – basierend auf Priorität und Abhängigkeiten. Diese Entscheidung erfolgt innerhalb des Prompts, aber der Zustand, der sie leitet, befindet sich auf der Festplatte.

Bevor der Agent den Codebestand berührt, führt er die vollständige Regressionstest-Suite aus. Das bedeutet, dass jede Iteration damit beginnt, alles, was bisher erstellt wurde, erneut zu validieren, um Regressionen sofort zu erfassen, anstatt Stunden später. Wenn ein zuvor erfolgreich bestandenes Testverfahren fehlschlägt, konzentriert sich der Agent darauf, dies zu beheben, bevor er etwas Neues hinzufügt.

Nur nachdem die Regressionstests bestanden sind, implementiert der Agent die neue Funktion. Er bearbeitet Quell Dateien, aktualisiert Komponenten, optimiert API-Handler und verbindet das UI-Verhalten, alles über dieselbe Tool-Oberfläche. Dann führt er die Tests erneut aus und iteriert, bis der neue Fall bestanden ist oder ein konfiguriertes Limit für Versuche erreicht wird.

Wenn die Funktion funktioniert, zwingt das System den Agenten, sein Gedächtnis zu externalisieren. Es aktualisiert die Fortschrittsdatei mit Details: welche Funktion implementiert wurde, welche Tests jetzt bestanden werden, bekannte Einschränkungen und die nächsten logischen Schritte. Diese Datei wird zu einem kompakten, maschinenlesbaren Änderungsprotokoll für die nächste Sitzung.

Jede Schleife endet mit einem Git-Commit. Das Framework betrachtet Git nicht als nachträglichen Gedanken, sondern als eine zentrale Gedächtnisbasis: Diffs zeigen der nächsten Instanz des Coding Agents genau, was sich geändert hat, Commit-Nachrichten fassen die Absicht zusammen und die Historie schützt vor katastrophalen Fehlern. Zusammen mit der Fortschrittsdatei ermöglichen diese Commits einem brandneuen Kontextfenster, 18 Stunden Arbeit „zu erinnern“, ohne das gesamte Codebasen erneut lesen zu müssen.

Jenseits der CLI: Die Macht des SDK

Kommandozeilenwerkzeuge wie Claude Code erscheinen mächtig, doch dieses 24-Stunden-Experiment umgeht sie geschickt. Anstatt sich an eine CLI zu wenden, kommuniziert das Tool direkt mit Claude über das Claude Agents SDK in Python und behandelt das Modell wie eine erstklassige Softwarekomponente und nicht wie einen ausgefallenen Terminalbefehl.

Anthropics Harness aktiviert Agenten, plant Aufgaben und prüft den Git-Zustand vollständig über SDK-Aufrufe. Der Python-Prozess orchestriert alles: das Erstellen von Sitzungen, das Streamen von Toolaufrufen, das Lesen und Schreiben von Dateien und sogar das Neustarten von Agenten, wenn sie ins Stocken geraten. Kein Mensch gibt jemals `claude code` in eine Eingabeaufforderung ein, sobald der Lauf beginnt.

Der direkte Zugriff auf das SDK verwandelt die Wahl des Modells in ein Konfigurationsdetail anstelle eines Neuaufbaus. Das gleiche Framework könnte Folgendes nutzen: - Claude Sonnet 4.5 für kosteneffiziente Iterationen - Claude Opus 4.5 für kompliziertere Refactorings - Drittanbieter-Modelle wie Code Llama oder GPT-ähnliche Codierer über kompatible APIs

Das Wechseln von Modellen wird zu einer einfachen Zeilenänderung in einem Client-Initializer, nicht zu einem ganz neuen Workflow. Das System behandelt „Claude“ bereits als eine Abstraktion: einen Programmier-Agenten mit Werkzeugen, Kontext und einem Vertrag. Unter dieser Oberfläche kann dieser Vertrag auf jedes Modell verweisen, das JSON versteht und das Protokoll einhält.

Deshalb sehen SDKs wie die wahre Zukunft des agentischen Codierens aus. CLIs glänzen bei schnellen einmaligen Lösungen oder interaktivem Debugging; sie versagen, wenn ein persistenter Zustand, Hintergrundjobs oder die Koordination zwischen Agenten benötigt wird. Langfristige Systeme wie diese nutzen programmatische Schnittstellen für Logging, Wiederholungen, Metriken und Sicherheitskontrollen.

Anthropics eigener Autonomous Coding Quickstart - Anthropic GitHub Repository basiert auf dieser Annahme. Das Repository enthält lediglich Python, Eingabeaufforderungen und Verbindungen rund um das Agents SDK, wodurch das Ganze weniger wie ein Entwicklerwerkzeug und mehr wie ein erweiterbarer Mikroservice zur Softwareerstellung wirkt.

So führen Sie Ihren eigenen 24-Stunden-AI-Programmierer aus

Das Betreiben Ihres eigenen 24-Stunden-Claude-Coders beginnt mit Anthropic's Open-Source-Harness auf GitHub. Gehen Sie zum autonomen Coding-Quickstart im claude-quickstarts-Repository, speziell im Verzeichnis `autonomous-coding`, und klonen Sie es lokal. Sie erhalten ein sofort einsatzbereites Gerüst: Aufforderungen, Agentenverkabelung und Skripte zum Starten von langfristig laufenden Claude-Coding-Agenten.

Die Einrichtung fühlt sich eher wie die Konfiguration einer Entwickler-Toolchain an als wie eine Spielzeug-Demo. Sie installieren Abhängigkeiten (Python, Node und Projektpakete über `npm install` oder `pnpm install`), legen Ihre Umgebungsvariablen in einer `.env`-Datei ab und weisen das Harness auf Ihre Claude-Anmeldeinformationen hin. Das Repository enthält Beispielkonfigurationen für den Claude.ai-Klon, sodass Sie größtenteils anpassen und nicht neu erfinden müssen.

Kostenkontrolle wird zur nicht offensichtlichen Killerfunktion. Cole Medin hebt einen entscheidenden Trick aus dem Video hervor: Verwende ein Claude-Abonnement-Token (das gleiche, das dein Browser für Claude Code verwendet) anstelle eines gemessenen API-Keys. Wenn du dies mit einem nutzungsabhängigen Schlüssel verbindest und 24 Stunden laufen lässt, riskierst du, mit einer Rechnung im drei- oder vierstelligen Bereich aufzuwachen.

Der gesamte Prozess beginnt mit einem einzigen Befehl aus dem Wurzelverzeichnis des Repositories, etwa so:

- `python main.py --app-spec=app_spec.txt`

Nachdem Sie die Eingabetaste gedrückt haben, passiert für 10–20 Minuten nichts Aufregendes. Das ist der Initializer-Agent, der stillschweigend über 200 Testfälle erstellt, das Projekt strukturiert, das Init-Skript schreibt und ein Git-Repo einrichtet, bevor eine sichtbare Benutzeroberfläche erscheint.

Alles hängt von deiner App-Spezifikation-Datei ab. Die Infrastruktur von Anthropic erwartet eine brutal detaillierte PRD-ähnliche Textdatei, die Seiten, Abläufe, Randfälle, Rollen und nicht-funktionale Anforderungen beschreibt. Wenn du ihm einen vage formulierten Absatz über einen „Chat-App-Klon“ übergibst, erhältst du ein vages Produkt.

Eine starke App-Spezifikation für einen Claude.ai-Klon liest sich wie etwas, das du einem menschlichen Team übergeben würdest: URL-Strukturen, Gesprächszustände, Dateiupload-Limits, Verhaltensmuster von Artefakten, Tastenkombinationen, Fehlermeldungen und sogar Designs für Leere-Zustände. Der Initializer-Agent zerlegt das in detaillierte Tests, sodass jeder vage Satz in deiner Spezifikation 12 Stunden später zu einem vagen oder fehlenden Feature wird.

Der Kampf beginnt: Claude wird entfesselt

Illustration: Der Wettkampf Beginnt: Claude wird entfesselt

Es schlägt Mitternacht, der Befehl läuft, und das System wechselt leise von der Einrichtung zur Ausführung. Der Initializer Agent startet seine erste Sitzung, zieht die App-Spezifikation ein, erzeugt die umfangreiche feature_list.json mit etwa 200 detaillierten Testfällen und verkabelt das erste Next.js-ähnliche Gerüst sowie ein frisches Git-Repo. Nachdem es diese Artefakte geschrieben hat, übergibt es die Kontrolle an das Arbeitstier: die Coding Agent-Schleife.

Ihr Terminal hört auf, wie eine normale Entwicklerkonsole auszusehen, und beginnt, wie ein Live-Systemprotokoll von einem alienen Pair-Programmierer zu lesen. Toolaufrufe erscheinen alle paar Sekunden: `read_file`, `write_file`, `run_tests`, `git diff`, `git commit`. Sie beobachten, wie Verzeichnisse wie `app/`, `components/` und `lib/` sich mit TypeScript, React-Komponenten und API-Routen-Handlern füllen, die alle von Claude verfasst wurden, ohne dass Sie nach diesem ersten `npm start` Eingaben gemacht haben.

Die Ausgabelinien stapeln sich in einem Tempo, das kein Mensch aufrechterhalten könnte. Im einen Moment erstellt der Agent ein Gerüst für die Seitenleiste von Projekten, im nächsten verbindet er Gesprächsstränge, dann behebt er einen instabilen Test im Artefakt-Bereich. Das System hält die Sitzungen klein, rotiert den Kontext und startet neue Coding-Agent-Läufe, während der Zustand über das Dateisystem, die Git-Historie und die JSON-Liste der Funktionen erhalten bleibt.

Die Hände bleiben designbedingt vom Keyboard fern. Keine „Genehmigen“-Schaltflächen, keine manuellen Wiederholungen, keine Anpassungen während des Ablaufs. Sobald Sie `node run_harness.mjs` starten, übernimmt das System die nächsten 24 Stunden: Planen, Codieren, Tests durchführen und Code festschreiben. Die einzige menschliche Aktivität besteht darin, den Scrollvorgang zu beobachten und gelegentlich die Systemmetriken zu überprüfen, um sicherzustellen, dass die Maschine selbst nicht überhitzt.

Sicherheit und Validierung ziehen sich durch fast jede Aktion. Das Harness umschließt Shell-Befehle, um gefährliche Aktionen zu blockieren, beschränkt Datei-Schreibvorgänge auf das Projektverzeichnis und verwendet Puppeteer über einen MCP-Server, um den Claude.ai-Klon in einem Headless-Browser visuell zu überprüfen. Der Agent kann:

1Starte den Entwicklungsserver.
2Öffnen Sie localhost in Chromium
3Durch Klicken auf Projekte, Gespräche und Datei-Uploads navigieren
4Vergleiche die gerenderte Benutzeroberfläche mit den Spezifikationen und den Testerwartungen.

Jeder Puppeteer-Pass fließt wieder in den Kreislauf als ein weiteres Signal ein: Hat die App tatsächlich so funktioniert, oder muss der nächste Commit die Hälfte der Benutzeroberfläche herausreißen und neu schreiben?

Das endgültige Urteil: Was eine KI in 24 Stunden erschafft

Vierundzwanzig Stunden und Hunderte von Agentenschleifen später trat Claude mit etwas Echtem hervor: einer funktionierenden, vollwertigen Claude.ai-Stil Web-App. Kein Spielzeug, kein statisches Mockup, sondern ein React-Frontend, ein API-Backend und eine Testsuite, die in dasselbe System integriert sind, das den Build steuerte. Cole Medin scrollt in einem Video wie bei jedem normalen SaaS-Produkt durch es, denn funktional ist das genau das, was es ist.

Visuell landet der Klon überraschend nah. Das Sidebar-Layout, die Chat-Threads, die Projektliste und die gesamte Ästhetik von Claude erscheinen: hell, sauber und vertraut. Sie können Gespräche starten, sie umbenennen und sehen, wie sie in einem ständigen Verlaufspaneel auftauchen.

Die Kerninteraktion funktioniert ebenfalls. Die App sendet Nachrichten an Claude, streamt Antworten und bewahrt den Kontext über die Gesprächswendungen hinweg. Datei-Uploads funktionieren für grundlegende Anwendungsfälle, indem Dokumente einem Chat angehängt und in der Benutzeroberfläche angezeigt werden, obwohl Grenzfälle mit großen oder ungewöhnlichen Dateien weiterhin Probleme verursachen.

Artefakte, Claudes markantes „Inline-Apps“-Merkmal, sind in partieller Form verfügbar. Der Klon kann einfache Artefakte rendern, sie in einem speziellen Bereich anzeigen und sie mit einem Gespräch verknüpfen. Weiterentwickelte Abläufe – Multi-Artefakt-Sitzungen, komplexe zustandsbehaftete Tools oder das Bearbeiten von Artefakten vor Ort – schlagen entweder stillschweigend fehl oder verhalten sich inkonsistent.

Das Projektmanagement liegt irgendwo in der Mitte. Der agentengesteuerte Ansatz ermöglicht: - Erstellung und Löschung von Projekten - Zuweisung von Gesprächen zu Projekten - Grundlegende Filterung von Chats nach Projekt

Aber Massenoperationen, robuste Suche und projektübergreifende Ansichten bleiben fehlerhaft oder fehlen häufig, oft als nicht implementierte Schaltflächen oder tote Benutzeroberflächen angezeigt.

Unter der Haube zahlt sich die testgetriebene Strategie aus. Von rund 200+ generierten Testfällen bestehen die meisten bis zum Ende der 24 Stunden, wobei die Fehler häufig bei fortgeschrittenem UX-Feinschliff und obscurer Fehlerbehandlung auftreten. Der Prozess läuft weiter, bis der Fortschritt stagnierend ist, nicht wenn Claude „müde“ wird oder entscheidet, dass es genug ist.

Medin bezeichnet das Harness im Gespräch als „legitim“, und es fühlt sich nicht nach Hype an. Er betont, dass dies noch keine ingenieurtechnische Produktionsqualität erreicht, aber als Beweis dafür, dass agentisches Codieren autonom eine komplexe, multifunktionale Webanwendung an einem Tag zusammenstellen kann, kommt die Demo eindrucksvoll an. In Kombination mit Anthropic's umfassenderen Fortschritten bei langlaufenden Agenten und Modellen wie Claude Opus 4.5, die unter Introducing Claude Opus 4.5 - Anthropic detailliert beschrieben werden, ist die Erkenntnis klar und deutlich: dieser Workflow ist noch früh in der Entwicklung, funktioniert aber bereits.

Ihr neuer KI-Kollege kommt morgen zur Schicht.

Ihr aktueller „KI-Paarprogrammierer“ wird bald veraltet wirken. Langfristige Harnesses wie Anthropics Open-Source Agenten-Harness verwandeln Modelle wie Claude von gesprächigen Assistenten in Hintergrundarbeiter, die unermüdlich einen Rückstand über 24 Stunden oder länger abarbeiten, ohne den Faden während eines Refaktorisierungsprozesses zu verlieren.

Anstatt ein Eingabefenster zu betreuen, können Sie einem Agenten ein PRD, ein Repository und eine Test-Suite übergeben und dann mit einem funktionierenden Prototyp zurückkommen. Cole Medins Claude-Experiment zeigt dies konkret: Eine von einem Harness koordiniertes Claude Code-Instanz strukturiert eine Claude.ai-ähnliche Schnittstelle, verknüpft Projekte und Gespräche und durchläuft über einen ganzen Tag Berechnungen Hunderte von Tests.

Für Entwickler sieht das weniger nach einer Neuerung aus und mehr nach einer neuen Ebene der Infrastruktur. Denken Sie an Agenten als: - Nächtliche Prototypenbauer - Kontinuierliche Refactorings-Dämonen - Testgenerierungs- und Abdeckungsbots - Dokumentations- und Migrationsassistenten

Geben Sie einem dieser Systeme 24 Stunden und eine Feature-Liste im JSON-Format mit über 200 Fällen, und es wird fleißig grüne Häkchen verfolgen, während Sie schlafen.

Nichts davon fühlt sich bisher „produktionsbereit“ an. Das System in Anthropics Schnellstart-Repo ist experimentell, anfällig für instabile Tests und verwundbar gegenüber denselben Halluzinationen wie jedes LLM. Doch die Strategien, die es kodiert – testgetriebenes Prompting, strenge Erfolgskriterien, Git als Quelle der Wahrheit, Multi-Agenten-Koordination – entsprechen direkt der Art und Weise, wie man KI-Systeme für den Einsatz in der realen Welt absichert.

Sie können diese Muster bereits in Ihren Stack integrieren. Verwenden Sie einen Initialisierungsagenten, um Spezifikationen, Gerüste und Tests zu generieren; begrenzen Sie einen Codierungsagenten darauf, nur bestimmte Verzeichnisse zu ändern; und verbinden Sie CI, um die gleichen auf dem Harness basierenden Überprüfungen vor dem Merge auszuführen. Jeder Schritt macht Ihre KI-Helfer weniger wie eine Autovervollständigung und mehr wie deterministische Arbeiter, die an Ihrer Pipeline angehängt sind.

Agentische Ingenieurkunst wird verändern, was "Software schreiben" überhaupt bedeutet. Menschliche Ingenieure definieren Architekturen, Einschränkungen und Prüfungsrichtlinien, während Flotten spezialisierter Agenten an der Umsetzung, den Tests und der Integration über Dutzende von Stunden arbeiten. Das Claude-Klon-Experiment ist eine grobe Skizze dieser Zukunft: Codebasen, die weniger durch Tasteneingaben und mehr durch die Orchestrierung von Legionen unermüdlicher, testbesessener Mitarbeiter geprägt sind.

Häufig gestellte Fragen

Was ist das Anthropic Harness für langfristig ausgelegte Agenten?

Es ist eine Open-Source-Koordinationsschicht, die es KI-Coding-Agenten ermöglicht, an komplexen Aufgaben über längere Zeiträume (Stunden oder Tage) zu arbeiten, indem sie Kontextfenster verwalten und die Arbeit in kleinere, testbare Einheiten aufteilen.

Kann dieses Geschirr auch mit anderen Modellen als Claude verwendet werden?

Ja. Das Harness ist modellagnostisch. Da es sich um ein System von Eingabeaufforderungen und Artefaktdateien handelt, können Sie Claude Code durch andere Modelle wie die von OpenAI oder Open-Source-Alternativen austauschen, indem Sie das Client-SDK anpassen.

Ist dieses autonome Codierungssystem bereit für den Einsatz in der Produktion?

Nein, es ist immer noch stark experimentell. Es eignet sich am besten für schnelles Prototyping, die Erstellung von Machbarkeitsnachweisen und das Erkunden der Zukunft der agentischen Ingenieurwissenschaften, anstatt für den Bau produktionsreifer Anwendungen.

Wie umgeht das Harness die Einschränkungen des Kontextfensters?

Es erstellt ein neues, frisches Kontextfenster für jede Codier-Agenten-Sitzung. Der Agent holt den Fortschritt ein, indem er zentrale Artefaktdateien wie eine Fortschrittszusammenfassung, eine Funktionsliste und den bestehenden Code liest, und stellt sicher, dass er nur den relevanten Kontext für die nächste granulare Aufgabe benötigt.

𝕏 in ↑↗

Frequently Asked Questions

Was ist das Anthropic Harness für langfristig ausgelegte Agenten?

Es ist eine Open-Source-Koordinationsschicht, die es KI-Coding-Agenten ermöglicht, an komplexen Aufgaben über längere Zeiträume zu arbeiten, indem sie Kontextfenster verwalten und die Arbeit in kleinere, testbare Einheiten aufteilen.

Kann dieses Geschirr auch mit anderen Modellen als Claude verwendet werden?

Ist dieses autonome Codierungssystem bereit für den Einsatz in der Produktion?

Wie umgeht das Harness die Einschränkungen des Kontextfensters?

Claude 24 Stunden lang codiert. Die Ergebnisse sind unglaublich.

TL;DR / Key Takeaways

Die Unmögliche Herausforderung: Eine KI programmiert 24 Stunden lang

Durchbrechen der KI-Ausdauergrenze

Die Mission: Clone Claude.ai von Grund auf neu erstellen

Der Architekt: Lernen Sie den Initialisierungsagenten kennen

Die unerbittliche Logik der Programm Schleife

Jenseits der CLI: Die Macht des SDK

So führen Sie Ihren eigenen 24-Stunden-AI-Programmierer aus

Der Kampf beginnt: Claude wird entfesselt

Das endgültige Urteil: Was eine KI in 24 Stunden erschafft

Ihr neuer KI-Kollege kommt morgen zur Schicht.

Häufig gestellte Fragen

Was ist das Anthropic Harness für langfristig ausgelegte Agenten?

Kann dieses Geschirr auch mit anderen Modellen als Claude verwendet werden?

Ist dieses autonome Codierungssystem bereit für den Einsatz in der Produktion?

Wie umgeht das Harness die Einschränkungen des Kontextfensters?

Frequently Asked Questions

Read Next

Anthropic's neuer Agent hat gerade No-Code getötet

Dieses Tool zähmt chaotische AI Agents

Die perfekte Erinnerung der KI ist da

Stay Ahead of the AI Curve