Agenten-Harnesses: Das Ende des Codierens?

Die rohe LLM-Leistung erreicht ein Plateau, doch eine neue Schicht von KI-Technologie schafft Systeme, die endlich komplexe, langanhaltende Aufgaben bewältigen können. Entdecken Sie, wie Agenten-Harnesse das Spiel verändern und 99% Code-Automatisierung zur Realität werden lassen.

Stork.AI
💡

TL;DR / Key Takeaways

Die rohe LLM-Leistung erreicht ein Plateau, doch eine neue Schicht von KI-Technologie schafft Systeme, die endlich komplexe, langanhaltende Aufgaben bewältigen können. Entdecken Sie, wie Agenten-Harnesse das Spiel verändern und 99% Code-Automatisierung zur Realität werden lassen.

Wir haben die Leistungsgrenze der LLM erreicht.

Jeder, der aufmerksam ist, kann es spüren: Die Feuerwerksshow verlangsamt sich. GPT-4, Claude 3 Opus und Gemini 1.5 sind zweifellos stark, aber sie repräsentieren nicht denselben atemberaubenden Sprung, den GPT-3 über GPT-2 gemacht hat. Die Benchmarks steigen weiter an – MMLU, HumanEval, GSM8K – aber der echte „Wow“-Faktor der rohen LLM-Kraft verdoppelt sich nicht mehr alle sechs Monate.

Diese Verlangsamung ist nicht imaginär; sie ist eine wirtschaftliche Realität. Das Trainieren eines Frontmodell kostet derzeit Hundertmillionen Dollar in Bezug auf Rechenleistung, Datenaufbereitung und Ingenieurwesen. Jeder zusätzliche Prozentpunkt auf einer Rangliste wie MMLU oder Codeforces erfordert exponentiell mehr GPUs, mehr Tokens und mehr menschliches Feedback.

Abnehmende Erträge treffen überall zu. Größere Kontextfenster – 200K, 1M Tokens – existieren, aber effektives Schließen über diesen Kontext scheitert immer noch auf brüchige Weise. Code-Modelle meistern Boilerplate und gängige Muster, halluzinieren jedoch APIs oder missverstehen Randfälle, die jeder mittelmäßige Ingenieur in einer Codeüberprüfung erkennen würde.

Also hat sich die Grenze verschoben. Cole Medin bringt es in seinem Video auf den Punkt: Die „rohe Kraft von LLMs explodiert einfach nicht mehr“, aber die Schicht um sie herum tut es. Werkzeugorchestrierung, Gedächtnissysteme und Multi-Agenten-Koordination bringen größere Fortschritte als ein weiteres 0,3 in einem Benchmark.

Denken Sie daran, dass es sich um den Übergang von schnelleren CPUs zu besseren Betriebssystemen handelt. Agenten-Harnesses, Kontext-Router und Weltmodelle stehen auf GPT-4 oder Claude 3 und schöpfen aus derselben zugrunde liegenden Intelligenz mehr Zuverlässigkeit heraus. Die Hardware des Geistes erreicht ein Plateau; der Software-Stack darum herum beginnt wichtiger zu werden.

Das rahmt diesen Moment nicht als eine Grenze, sondern als einen Wendepunkt ein. Anstatt dafür zu beten, dass GPT-5 zehnmal intelligenter ist, entwickeln Teams Agenten-Frameworks, die Werkzeuge, Wiederholungen und langfristige Arbeitsabläufe verwalten, damit sich die heutigen Modelle wie zuverlässige Kollegen verhalten. Der Mittelpunkt der Innovation verschiebt sich von Modellgewichten hin zu Systemdesign.

Nennen Sie es die Post-Benchmark-Ära. Marginale Modellgewinne sind weiterhin wichtig, aber die wirklichen Durchbrüche werden aus der Architektur des Gerüsts – Gedächtnis, Planung, Verifizierung – rund um LLMs resultieren. Der Fokus verlagert sich von den Trainingsläufen im Labor zum Code des Ingenieurs.

Die wahre Revolution ist die 'Hülle'

Illustration: Die wahre Revolution ist die 'Hülle'
Illustration: Die wahre Revolution ist die 'Hülle'

Rohe Modellaufrufe beginnen, wie nackter Silizium zu wirken: beeindruckend auf dem Papier, zerbrechlich in der Praxis. Cole Medins zentrale Aussage ist klar: Die wahre Handlung hat sich auf die „Schicht über LLMs“ verlagert — die Orchestrierungslogik, die eine intelligente Autovervollständigungsmaschine in etwas verwandelt, dem man bei echter Arbeit vertrauen kann.

Diese Schicht hat jetzt einen Namen: das Agenten-Harness. Denken Sie daran wie an ein Betriebssystem für Modelle, das den Steuerungsfluss, den Speicher und die Werkzeugnutzung regelt, sodass ein LLM außerhalb einer Demo und innerhalb eines Produktions-SLA überleben kann.

Ein roher LLM-Aufruf verhält sich wie ein zustandsloser API-Zugriff. Sie senden ein Eingangsstatement, hoffen, dass das Modell Ihre Absicht verstanden hat, und erhalten einen Textblock zurück, der möglicherweise Werkzeuge ignoriert, frühere Schritte vergisst oder APIs halluziniert, die nie existiert haben.

Legen Sie dasselbe Modell in ein System ein, und das Verhalten ändert sich. Das System verfolgt den Zustand über Dutzende oder Hunderte von Schritten, bewahrt das Arbeitsgedächtnis und setzt Richtlinien durch, welche Werkzeuge das Modell wann und mit welchen Argumenten verwenden kann.

Moderne Harnesses vereinen mehrere Fähigkeiten, die früher in verstreuten Skripten und ad-hoc Eingaben lebten: - Langfristige und kurzfristige Speicher - Werkzeug-Routing und fehlerbewusste Wiederholungen - Koordination und Planung von Unteragenten - Leitplanken, Validierung und Beobachtbarkeit

Projekte wie die interne Harness von Anthropic, LangChains DeepAgent und Cole Medins Linear Agent Harness zeigen, dass sich ein Muster herauskristallisiert. Anstelle einer einzelnen Chat-Vervollständigung erhalten Sie Graphen von Agenten, Werkzeugen und Zuständen, die stundenlang ohne menschliche Aufsicht laufen können.

Hier ist der Ort, an dem das menschliche Ingenieurwesen nun seinen Einfluss ausübt. Sie können die Gewichte von GPT-4.5 nicht anpassen, aber Sie können entscheiden, wie viele Unteragenten erstellt werden, wie sie Kontextfenster teilen, wie sie Aufgaben zerlegen und wie sie sich von fehlerhaften Toolaufrufen erholen.

Das Warten auf „GPT-6, aber 10x“ verfehlt den Punkt. Die nächste 10-fache Verbesserung wird durch ein besseres Harness-Design kommen: intelligentere Planungszyklen, reichhaltigere Weltmodelle und engere Rückmeldungen aus Protokollen in Eingabeaufforderungen und Richtlinien.

Software-Teams, die das Modell als Ware und das Harness als Produkt betrachten, werden den Wert erfassen. Alle anderen werden lediglich eine API aufrufen und auf das Beste hoffen.

Entschlüsselung des modernen Agenten-Geschirrs

Agent klingt flauschig, aber Anthropic und LangChain definieren etwas sehr Konkretes: eine strukturierte Kontrollschicht, die wiederholt ein LLM aufruft, den Zustand verfolgt und Werkzeuge orchestriert, bis eine Aufgabe tatsächlich abgeschlossen ist. Die eigene Harness-Spezifikation von Anthropic beschreibt einen Controller, der die Schleife, Fehlerbehandlung, Speicher und Werkzeugrouting verwaltet, während das Modell nur das nächste Token vorhersagt. Die DeepAgent-Dokumente von LangChain gehen noch weiter und betrachten das Harness als eine programmgesteuerte Richtlinie, die entscheidet, was der Agent in jedem Schritt tut.

Mehr als nur eine glorifizierte While-Schleife verhält sich ein modernes Harness wie eine Zustandsmaschine. Jeder Schritt wechselt zwischen Zuständen wie „Planung“, „Werkzeugaufruf ausstehend“, „Warten auf Mensch“ oder „Fertig“, mit klaren Regeln darüber, was in jedem Zustand erlaubt ist. Diese Struktur macht das Verhalten reproduzierbar und debugbar, anstatt sich auf ein Bauchgefühl und Hoffnung zu verlassen.

Die Kernverantwortlichkeiten lassen sich in vier Bereiche unterteilen, die sich über Anthropic, LangChain und Cole Medins Linear Agent Harness erstrecken. Ein Harness muss persistente Speicher verwalten, Werkzeuge steuern, mehrere Arbeiter koordinieren und lang laufende Abläufe überwachen. Wird einer dieser Aspekte entfernt, fallen Agenten schnell auf Einmal-Chatbots zurück.

Das Speichermanagement ähnelt jetzt einem Miniatur-Datenbankproblem. Speicher verwalten kurzfristige Arbeitsspeicher, Vektorspeicher für semantisches Erinnern und langfristige Protokolle, entscheiden, was zusammengefasst, was entfernt und was wiederhergestellt wird in Kontextfenster, die auf 200.000 bis 1 Million Tokens begrenzt sind. Sie regeln auch den Zugang zu sensiblen Daten und bestimmen, welche Sub-Agenten was sehen dürfen, eine Voraussetzung für jede Unternehmensimplementierung.

Das Werkzeug-Management verwandelt das Harness in eine Richtlinien-Engine. Es entscheidet: - Welche Werkzeuge der LLM aufrufen kann - Wie Argumente validiert und bereinigt werden - Wie Aufrufe wiederholt, debouncet oder parallelisiert werden

Diese Richtlinieneebene verhindert katastrophale prompt-Injected-Befehle wie „Produktdatenbank herunterladen“ und sorgt dafür, dass fehleranfällige APIs Arbeitsabläufe nicht nach einem einzigen 500-Fehler aus der Bahn werfen.

Die Koordination von Unteragenten bringt die Steuerung in den Bereich der Orchestrierung. Ein Codierungssystem könnte separate Agenten für Planung, Implementierung, Test und Refaktorisierung hervorbringen, die jeweils über spezialisierte Werkzeuge und Speicher verfügen. Das System weist Aufgaben zu, kombiniert Ergebnisse und löst Konflikte, wenn die Agenten uneinig sind, ähnlich einem Build-System, das die Ausgaben von Compiler und Linter schlichten kann.

Aus 10.000 Fuß Höhe betrachtet, sieht das LLM wie einen Kernel aus, während das Harness wie eine OS-Shell plus Runtime funktioniert. Es bietet Planung, I/O, Berechtigungen und Protokollierung um einen sehr intelligenten, aber sehr amnestic Kern. Der eigene Bericht von Anthropic, Effektive Harnesses für langlaufende Agenten - Anthropic, liest sich effektiv wie ein Entwurfsdokument für diese Shell.

Von spröden Aufforderungen zu widerstandsfähigen Systemen

Die frühe Entwicklung von KI sah trügerisch mächtig aus: Schreibe ein cleveres Prompt, vielleicht eine einfache RAG-Pipeline hinzufügen, und beobachte, wie das Modell Code oder Dokumentation ausspuckt. Das funktionierte bei einmaligen Aufgaben – eine Funktion entwerfen, ein PDF zusammenfassen, eine Frage aus einem kleinen Vektorspeicher beantworten. Sobald man jedoch darüber hinausging, fiel alles auseinander.

Prompt-basierte Systeme verhalten sich wie Praktikanten mit Amnesie. Wenn man ein LLM bittet, ein 200.000-Zeilen-Monolith mit einem einzigen Prompt umzustrukturieren, erhält man teils bearbeitete Teile, halluzinierte Dateien und fehlerhafte Importe. Selbst mit Retrieval stopft naives RAG einfach „relevante“ Abschnitte in den Kontext; es verfolgt keinen Zustand, überprüft keine Ergebnisse und erinnert sich nicht daran, was bereits durchgeführt wurde.

Komplexe, mehrstufige Arbeiten zeigen diese Risse schnell auf. Lang laufende Aufgaben – Migrationen, Refactorings mehrerer Dienste, Incident-Runbooks – benötigen verzweigte Logik, Zurückverfolgen und das Bewusstsein für externe Einschränkungen wie Testfehler oder API-Durchsatzbeschränkungen. Statische Eingabeaufforderungen können sich nicht anpassen, wenn eine Testsuite Zeitüberschreitung hat, eine Abhängigkeit konfliktet oder ein Tool fehlerhaftes JSON zurückgibt.

Der moderne Agent nutzt Angriffe, die diese Sprödigkeit direkt angehen. Statt eines einzelnen Prompts erhalten Sie eine Regelungsschleife, die über Dutzende oder Hunderte von Schritten planen, handeln, beobachten und überarbeiten kann. Das Harness besitzt den Ausführungsgraphen, nicht das Modell: Es entscheidet, wann Werkzeuge aufgerufen, wann neu geplant und wann abgebrochen wird.

Wiederholungen hören auf, eine nachträgliche Überlegung zu sein. Systeme wie das Codierungs-Harness von Anthropic oder LangChains DeepAgent umhüllen jeden Toolaufruf mit strukturierter Fehlerbehandlung: automatische Wiederholungen bei Netzwerkfehlern, Schema-Validierung der Toolausgaben und gezielte erneute Eingaben, wenn das Modell vom Spezifikationen abweicht. Sie protokollieren jeden Schritt, damit der Agent seine eigene Historie einsehen und den Kurs korrigieren kann.

Dynamische Planung wird zu einem erstklassigen Feature. Anstatt einer fest codierten Sequenz aktualisiert das System die Aufgabenliste basierend auf dem Feedback des Tools: - Einen Plan erstellen - Ein Tool ausführen - Erwartete vs. tatsächliche Ergebnisse vergleichen - Schritte einfügen, löschen oder neu anordnen

Betrachten Sie erneut die umfassende Refaktorisierung eines großen Codebases. Eine einzelne Eingabe könnte versuchen, alles auf einmal umzuschreiben, die Kontextgrenzen überschreiten und nicht kompilierbaren Code erzeugen. Ein von einem Rahmen gesteuerter Agent kann das Repository scannen, Dateien in Teile aufteilen, Module für Modul refaktorisieren, nach jedem Batch Tests durchführen, Fehler erkennen, spezifische Änderungen zurücksetzen und iterativ reparieren, bis die Suite besteht.

Anatomie eines Produktions-Harnisches

Illustration: Anatomie eines Produktionsgrade-Geschirrs
Illustration: Anatomie eines Produktionsgrade-Geschirrs

Produktionsgerechte Agenten-Harnesse sehen weniger wie clevere Aufforderungen aus und mehr wie Miniatur-Betriebssysteme. Das DeepAgent-Harnes von LangChain, die internen Frameworks von Anthropic und Cole Medins Linear-Harnes konvergieren alle zu derselben Architektur: eine enge Schleife, die vier Kernkomponenten umfasst, die ein großes Sprachmodell auf ein Ziel ausrichten, anstatt es in unbestimmte Richtungen abdriften zu lassen.

An der Basis sitzt der State Manager. Dieses Modul verfolgt das aktuelle Ziel des Agenten, Zwischenziele, die Schrittgeschichte und Ausführungsmetadaten: welche Werkzeuge ausgeführt wurden, was sie zurückgegeben haben und ob sie gescheitert sind. In DeepAgent existiert dies oft als strukturiertes Zustandsobjekt, das durch jeden Aufruf fließt und dem Modell eine kanonische Sicht darauf gibt, „wo wir stehen“ und „was gerade passiert ist.“

Gutes Statusmanagement geht über das Logging hinaus. Es setzt Schemata für jeden Schritt durch, speichert Checkpoints, sodass lang laufende Aufgaben nach einem Absturz fortgesetzt werden können, und dokumentiert Einschränkungen wie Zeitlimits oder Token-Budgets. Anstelle eines freiformartigen Gesprächs läuft der Agent innerhalb eines typisierten Workflows, der überprüft, wiedergegeben und getestet werden kann.

Parallel zum Status vermittelt der Tool Controller jede Nebenwirkung. Werkzeuge lassen das Modell niemals direkt auf rohe APIs zugreifen oder das Dateisystem berühren; sie stellen ein kuratiertes Werkzeugset mit strengen Eingabe- und Ausgabeverträgen zur Verfügung. In LangChain deklarieren Werkzeuge JSON-Schemas und Sicherheitsvorkehrungen, sodass der Controller Argumente validieren, Anfragen drosseln und offensichtlich gefährliche Aktionen blockieren kann.

Ein robuster Controller kümmert sich ebenfalls um: - Authentifizierung und Geheimnisisolierung - Ratelimitierung und Backoff über mehrere Anbieter hinweg - Sandbox-Ausführung für Datei-, Shell- oder Code-Tools

Der Speicher befindet sich in einem eigenen Modul, das die Kontextgrenzen des LLM von 200K–1M Tokens mit realen Arbeitslasten verbindet, die sich über Tage erstrecken. Kurzzeitgedächtnis sieht normalerweise aus wie ein Notizblock: eine laufende Zusammenfassung der letzten N Schritte, die vom Modell selbst komprimiert wird, um im Budget zu bleiben. Langzeitgedächtnis lebt in Vektordatenbanken wie Pinecone, Weaviate oder pgvector, indiziert durch Embeddings von Modellen wie text-embedding-3-large.

Intelligente Harnesses unterscheiden zwischen flüchtiger Aufgaben- erinnerung, dauerhafter Projekt- erinnerung und globalem Organisationswissen. Sie entscheiden, was zusammengefasst, was eingebettet und was verworfen werden soll, anstatt alles wieder in die Eingabe zu stopfen.

Die Dispatcher/Koodinator hält alles zusammen und steuert die zentrale Schleife. Er versorgt das LLM mit dem aktuellen Zustand und den Erinnerungen, analysiert die „Intention“ des Modells (ein Werkzeug aufrufen, eine Unteraufgabe erstellen oder das Ergebnis abschließen) und leitet die Kontrolle an die richtige Komponente weiter. Bei jeder Iteration wird der Zustand aktualisiert, Erinnerungen werden hinzugefügt und die Einschränkungen verschärft, wodurch ein stochastisches Modell in ein vorhersagbares System verwandelt wird.

Ist 'Vibe Coding' endlich rentabel?

Vibe-Coding klingt wie ein Scherz, bis man erkennt, dass es beschreibt, was jeder Entwickler sich wirklich wünscht: ein Ergebnis festzulegen, die Boilerplate zu überspringen und zu versenden. In diesem Rahmen bedeutet Vibe-Coding, die Absicht auf der Ebene von „baue einen Slack-Bot, der Vorfälle klassifiziert“ zu beschreiben und das System die APIs, Datenmodelle zu entdecken und Tests zu schreiben, ohne dass man jede Funktion überwachen muss.

Jahrelang war das Fantasie, denn rohe LLMs verhalten sich wie begabte, aber unzuverlässige Praktikanten. Sie halluzinieren APIs, ignorieren Grenzfälle und verlieren nach einem Dutzend Interaktionen den Überblick über mehrstufige Pläne. Selbst mit GPT-4 oder Claude 3.5 führt die Anfrage nach einem nicht trivialen System – sagen wir, einem vollständigen CRUD-SaaS mit Authentifizierung, Abrechnung und Analytik – immer noch zu Code, der kompiliert, aber unter echtem Datenverkehr und realen Daten leise versagt.

Agenten formen die Gestalt dieses Risikos. Sie verwandeln die „Vibes“ in ein übergeordnetes Ziel und zwingen das Modell, innerhalb eines Gerüsts aus Werkzeugen, Erinnerungen und expliziten Einschränkungen zu arbeiten. Anstatt “einen Backend zu schreiben”, fordern Sie das Harness auf, “einen produktionsbereiten Backend bereitzustellen”, und es orchestriert Unteraufgaben: Schema-Design, Migrationen, Integrationstests, Bereitstellungskonfigurationen.

Moderne Harnesses wie Anthropics internes Framework oder LangChains DeepAgent vertrauen nicht auf einen einzelnen LLM-Aufruf. Sie zwingen zu Schleifen von Plan → Handeln → Überprüfen, protokollieren jeden Schritt und leiten Fehler zurück über Debugger oder menschliche Überprüfungen. LangChain dokumentiert dies ausdrücklich in seinen Agent Harness-Funktionen - Dokumentation von LangChain, wo Agenten strukturierte Ziele erhalten, Werkzeuge auswählen und einen mehrstufigen Zustand aufrechterhalten.

So wird Vibe-Coding „einigermaßen“ tragfähig, genau in der Art und Weise, wie Cole Medin argumentiert. Man vibet an der Systemgrenze – „unser Monolith soll bis Q3 in eine serviceorientierte Architektur migriert werden, die Latenz soll unter 150 ms liegen, bestehende Authentifizierung soll wiederverwendet werden“ – und der Harness zerlegt das in Hunderte von konkreten Aktionen. Das LLM assoziiert nicht mehr frei; es agiert innerhalb eines geregelten, testbaren Workflows.

Entscheidend ist, dass Sie nicht mit einem nackten LLM-Chatfenster interagieren. Sie geben hochrangige Anweisungen an ein robustes System, das Sie entwickelt haben: Werkzeug-Schemas, Sicherheitsvorkehrungen, Überwachungsfunktionen, Rollback-Strategien. Die Kreativität hebt sich auf ein neues Level – vom Schreiben von Schleifen zu dem Entwerfen des Rahmens, der es ermöglicht, mit Vibe-Coding tatsächlich eine Roadmap zu planen.

Der neue Coder: Ein KI-Systemarchitekt

Programmierer werden leise zu KI-Systemarchitekten befördert. Anstatt sich mit Controllern, Diensten und Datenbankzuordnungen abzumühen, orchestrieren sie Netzwerke von Modellen, Werkzeugen und Arbeitsabläufen, die sich eher wie Teams als wie Skripte verhalten. Der Job wandelt sich von „eine Funktion schreiben“ zu „entwerfen, wie ein intelligentes System denkt und handelt.“

Cole Medin bringt den Wendepunkt klar auf den Punkt: „Wir bauen das System, gestalten den Rahmen, aber wir werden in naher Zukunft den Großteil des Codes nicht selbst schreiben.“ Dieser Satz klingt übertrieben, bis man einen DeepSeek-, Claude- oder GPT-ähnlichen Agenten beobachtet, der REST-Aufrufe, Migrationen und Tests aus einem Absatz von Intention verknüpft. Der Mensch gibt weiterhin die Richtung vor; der Agent organisiert das Gerüst.

Entwickler bei New-day definieren Agenten-Ziele mit der Genauigkeit von Produktspezifikationen. Anstatt einfach „eine Rechnungsseite zu erstellen“ zu sagen, formulieren sie die Ziele präziser: „Halten Sie Stripe-Rechnungen synchron mit unserem internen Hauptbuch, gleichen Sie Fehlermeldungen stündlich aus und eskalieren Sie Anomalien über 5.000 Dollar.“ Das System wandelt dies in Werkzeuge, Unteragenten und Leitplanken um.

Werkzeuge werden zu einem erstklassigen Handwerk. Architekten wählen oder entwickeln Funktionen für: - Anfragen an APIs und interne Dienste - Abfragen von Vektor-Speichern und SQL-Lagern - Auslösen von CI/CD- und Infrastrukturänderungen

Jedes Tool benötigt strikte Schemas, Authentifizierungsgrenzen und Latenzbudgets. Die Qualität dieser Werkzeuge bestimmt, wie kompetent sich der Agent fühlt.

Harness Logic ersetzt handgeschriebenen Orchestrierungscode. Entwickler entwerfen Planungsloops, Fehlerwiederholungsrichtlinien, Speicherstrategien und Genehmigungsgates. Eine „Workflow-Datei“ könnte festlegen, wie ein Agent Aufgaben zerlegt, wann er Unteragenten erstellen kann und was für Auditzwecke protokolliert wird. Es sieht weniger nach Java aus und mehr nach Terraform für Kognition.

Debugging verwandelt sich in eine forensische Analyse von Denktrails. Anstatt durch Stack-Frames zu gehen, untersuchst du Gedankenketten, Toolaufrufe und Kontextfenster. Du passt Eingabeaufforderungen an, justierst Toolverträge oder verkabelst den Planer neu und führst dann das Szenario erneut aus.

Fern von der Beseitigung von Programmierern, erhebt dieser Wandel sie von Bauarbeitern zu Architekten. Die schwierigen Probleme steigen auf ein höheres Level: von der Programmierung von Schleifen hin zum Entwurf von Systemen, die selbstständig schreiben können – zuverlässig, sicher und in großem Maßstab.

Harnesses in der Wildnis: Von der Theorie zum Gewinn

Illustration: Geschirre in der Wildnis: Von der Theorie zum Gewinn
Illustration: Geschirre in der Wildnis: Von der Theorie zum Gewinn

Agenten verlieren ihre Abstraktheit in dem Moment, in dem man sie auf ein langweiliges, teures Problem ansetzt. Das Ingenieurteam von Anthropic verwendete ein System, um stundenlange Datenanalysen über einen riesigen internen Datensatz durchzuführen, wobei Agenten SQL-Abfragen orchestrierten, Ergebnisse zusammenfassten und Hypothesen ohne menschliche Unterstützung iterierten. Ihre Ausarbeitung beschreibt lang laufende Workflows, die Tool-Fehler, API-Probleme und sich ändernde Anweisungen überstehen und dennoch zu einem verwendbaren Bericht konvergieren.

Das Anthropic-Beispiel sieht weniger nach „Chat mit einem Bot“ aus und mehr nach einem selbststeuernden Datenanalysten. Das System verfolgt den Zustand über Dutzende von Toolaufrufen, protokolliert Zwischenoutputs und entscheidet, wann es aufhören soll, nicht nur, was als Nächstes gesagt werden soll. Man erhält etwas, das näher an einem beständigen Service ist als an einer einmaligen Ausführung.

Cole Medins Open-Source Linear-Copilot-Harness zeigt, wie dies in einem realen SaaS-Workflow aussieht. Es integriert ein LLM in die API von Linear, um Tickets zu erstellen, zu priorisieren und zu aktualisieren, während es den Kontext aus der Problemerhistorie, den Teamkonventionen und den Projektmeilensteinen berücksichtigt. Anstelle eines fragilen "Schreibe ein Ticket"-Prompts verwaltet das Harness Werkzeuge, Erinnerungen und Sicherheitsvorkehrungen, sodass der Agent wie ein junior Projektleiter agiert, der in Linear eingebettet ist.

Medins Harness basiert auf Mustern wie: - Werkzeugzuweisung basierend auf Aufgabentyp - Beständige Erinnerung, die an lineare Probleme und Nutzer gekoppelt ist - Mehrschrittpläne, die neu geplant werden können, wenn Werkzeuge ausfallen

Diese gleichen Muster lassen sich sauber auf andere geldverdienende Agenten übertragen. Autonome Finanzforschungssysteme können Dokumente, Ergebnisbesprechungen und Marktdaten durchforsten und dann eine fortlaufende These zu einem Unternehmen oder Sektor aufrechterhalten. Ein Steuerungssystem koordiniert die Dokumentenbeschaffung, Tabellenkalkulationsmodelle und Risikoübersichten, während es strenge Werkzeuggrenzen für alles durchsetzt, was mit echtem Kapital in Berührung kommt.

Automatisierte QA-Testagenten können Regressionstests vollständig übernehmen. Sie erstellen Tests, rufen CI-Pipelines auf, interpretieren Fehler, erstellen Tickets und führen gezielte Überprüfungen nach Behebungen erneut durch. Das System führt eine langfristige Karte der Testabdeckung, historischer Instabilitäten und Komponentenverantwortung, sodass der Agent sich über Wochen verbessert, anstatt bei jedem Durchlauf zurückgesetzt zu werden.

Marketingteams experimentieren bereits mit selbstverwaltenden Kampagnenagenten. Ein Framework kann die Erstellung von Texten, kreative A/B-Tests, Budgetumschichtungen und Analyseabfragen über Google Ads, Meta und E-Mail-Plattformen orchestrieren. Unternehmensgerechte Plattformen wie OutSystems Agent Workbench sind dabei, dies produktfähig zu machen, indem sie Framework-Muster in Drag-and-Drop-„Agenten-Rezepte“ verpacken, die direkt in bestehende Systeme integriert werden können.

Agenten sind Kerne, Hülsen sind Schalen.

Pavel Panchekha bietet das klarste mentale Modell dafür: LLMs sind Kerne, die Agenten-Harnesse sind Schalen. Denken Sie an Linux plus Bash, nicht an einen „magischen Agenten“. Der Kern bietet rohe Leistung; die Schale entscheidet, wie Menschen und Programme sie tatsächlich nutzen.

Ein Betriebssystemkern plant Prozesse, verwaltet den Speicher und stellt Systemaufrufe bereit. Eine Shell wie bash oder zsh verwandelt dies in `ls`, Pipes, Skripte und Automatisierung. Setzen Sie Claude oder GPT als Kern ein, und Ihr Rahmen wird zur Shell: Sie interpretiert die Benutzerabsicht, stellt Toolaufrufe in Sequenzen zusammen und hält langlaufende Aufgaben am Leben.

Lesen Sie Agent Harnesses sind nur Hüllen - Pavel Panchekha und die Analogie wird klar. Der LLM "Kernel" kann: - Text generieren und transformieren - Werkzeuge über strukturierte Funktionsaufrufe aufrufen - Den kurzfristigen Gesprächszustand aufrechterhalten

Der „Shell“-Harness umschließt dies mit: - Prozesskontrolle für Aufgaben, die Minuten, Stunden oder Tage laufen - Werkzeugorchestrierung über APIs, Datenbanken und Codebasen - Persistenz, Protokollierung und Wiederherstellung, falls etwas abstürzt

So betrachtet wirken LangChains DeepAgent, die Harness-Beispiele von Anthropic und Cole Medins Linear-Agent-Harness weniger wie exotische KI und mehr wie vertraute Betriebssystem-Engineering. Sie implementieren Scheduling-Schleifen, Wiederholungen, Backoff und Zustandsmaschinen – nur dass sie auf LLM-Calls anstelle von Syscalls ausgerichtet sind. Die Magie verlagert sich vom „Prompt Engineering“ hin zu einem robusten Runtime-Design.

Dieses Modell verdeutlicht auch, warum die Gewinne durch rohe LLMs inkrementell erscheinen, während die Gewinne durch Harness multiplicativ wirken. Ein besserer Kernel ist wichtig, aber eine bessere Shell verändert, wie jeder Benutzer und jeder Prozess mit diesem Kernel interagiert. Bash hat mehr zur Usability von Unix beigetragen als jedes einzelne CPU-Upgrade.

Der logische nächste Schritt für Entwickler ist offensichtlich: Hören Sie auf, Agenten als monolithische Apps zu behandeln, und beginnen Sie, Harnesses als Betriebsumgebungen zu betrachten. Wir rufen nicht mehr nur Kerne auf; wir bauen Schalen für eine völlig neue Klasse von Software.

Ihr 2026-Toolkit beginnt hier

Agenten-Harnesses bewegen sich von Forschungsblogs hin zu Lebensläufen. Bis 2026 wird es bedeuten, „gut mit KI“ zu sein, wenn man in der Lage ist, Harnesses zu gestalten, zu debuggen und auszuliefern, die LLMs stundenlang fokussiert halten, nicht nur clevere Eingaben zu formulieren. Behandle den Aufbau von Harnesses wie das Erlernen von React im Jahr 2015 oder Kubernetes im Jahr 2018: Zunächst optional, dann unverzichtbar für ernsthafte Arbeit.

Beginne mit einem konkreten System: einem Programmierassistenten, der ein Repository für 30–60 Minuten verwalten kann. Integriere Toolaufrufe für Git, Datei-Eingabe/Ausgabe und Tests, füge dann Sicherheitsvorkehrungen hinzu: Statusverfolgung, Wiederholungsrichtlinien und explizite Erfolgskriterien. Messe den Erfolg mit harten Zahlen: Fehlerrate bei der Behebung, Zeit bis zur PR und wie oft Menschen den Agenten retten müssen.

Ihr primäres Lehrbuch sind die LangChain DeepAgent-Dokumente. Arbeiten Sie durch, wie es den Agentenzustand, das Tool-Routing und mehrstufige Pläne modelliert, und entwickeln Sie dann dieses Muster in Ihrem eigenen Stack, auch wenn Sie LangChain nie importieren. Betrachten Sie dessen Design so, wie Sie den Quellcode eines guten Betriebssystem-Schedulers lesen würden: als Referenzimplementierung dafür, wie „robust“ aussieht.

Der technische Blog von Anthropic ist ebenfalls ein Muss. Ihr Ansatz zur langfristigen Datenanalyse zeigt, wie man Speicher, Protokollierung und Fehlermodi verwaltet, wenn Aufgaben über Stunden laufen. Achte darauf, wie sie die Arbeit in Abschnitte unterteilen, Fortschritte überprüfen und den Einfluss von fehlerhaften Modellaufrufen begrenzen.

GitHub ist bereits voller Vorlagen. Studieren Sie offene Harnesses wie Cole Medins Linear Agent Harness und die Beispiele von Anthropic, dann: - Fordern Sie einen an und tauschen Sie Ihre eigenen Tools ein - Fügen Sie Telemetrie und Kostenverfolgung hinzu - Härtet es für eine echte Arbeitslast in Ihrem Job oder Nebenprojekt

Zukünftige, hochwirksame KI-Arbeiten werden denjenigen gehören, die rohe Modelle in zuverlässige Systeme einbetten können. Wenn Cole Medin recht hat und wir 99 % des Codierens an Agenten delegieren, liegt der Vorteil bei demjenigen, der die Rahmenbedingungen entwirft, in denen diese Agenten agieren. Sie können die Person sein, die die Hüllen um die Kerne von morgen baut.

Häufig gestellte Fragen

Was ist ein KI-Agenten-Harnisch?

Ein Agenten-Harnisch ist ein strukturiertes Framework, das das Gedächtnis, die Werkzeuge und den Zustand eines KI-Agenten verwaltet, um sicherzustellen, dass er zuverlässig komplexe, langlaufende Aufgaben ausführen kann, ähnlich wie ein Shell einen Kernel in einem Betriebssystem verwaltet.

Wie unterscheidet sich ein Harness von Prompt Engineering?

Während das Prompt Engineering darauf abzielt, den perfekten anfänglichen Input zu gestalten, entwickelt ein Harness ein gesamtes Betriebssystem rund um das LLM, um dessen Ausführungsfluss zu steuern, Werkzeuge zu verwalten und über die Zeit Fehler zu behandeln.

Werden Agenten-Harnesses Softwareentwickler ersetzen?

Sie sollen die Rolle der Entwickler von der zeilenweisen Programmierung hin zum Entwerfen und Ingenieurwesen der Systeme (Harnesse) verschieben, die KI-Agenten anleiten, den Code zu schreiben, und sie somit zu Systemarchitekten erheben.

Sind "Vibe-Codierung" und Agenten-Harnesse miteinander verbunden?

Ja. „Vibe-Codierung“ – das Beschreiben eines gewünschten Ergebnisses in natürlicher Sprache – wird durch Harnesses praktikabler, da sie die Zuverlässigkeit bieten, um hochrangige „Vibes“ in funktionale, mehrstufige Codeausführungen zu übersetzen.

Frequently Asked Questions

Ist 'Vibe Coding' endlich rentabel?
Vibe-Coding klingt wie ein Scherz, bis man erkennt, dass es beschreibt, was jeder Entwickler sich wirklich wünscht: ein Ergebnis festzulegen, die Boilerplate zu überspringen und zu versenden. In diesem Rahmen bedeutet Vibe-Coding, die Absicht auf der Ebene von „baue einen Slack-Bot, der Vorfälle klassifiziert“ zu beschreiben und das System die APIs, Datenmodelle zu entdecken und Tests zu schreiben, ohne dass man jede Funktion überwachen muss.
Was ist ein KI-Agenten-Harnisch?
Ein Agenten-Harnisch ist ein strukturiertes Framework, das das Gedächtnis, die Werkzeuge und den Zustand eines KI-Agenten verwaltet, um sicherzustellen, dass er zuverlässig komplexe, langlaufende Aufgaben ausführen kann, ähnlich wie ein Shell einen Kernel in einem Betriebssystem verwaltet.
Wie unterscheidet sich ein Harness von Prompt Engineering?
Während das Prompt Engineering darauf abzielt, den perfekten anfänglichen Input zu gestalten, entwickelt ein Harness ein gesamtes Betriebssystem rund um das LLM, um dessen Ausführungsfluss zu steuern, Werkzeuge zu verwalten und über die Zeit Fehler zu behandeln.
Werden Agenten-Harnesses Softwareentwickler ersetzen?
Sie sollen die Rolle der Entwickler von der zeilenweisen Programmierung hin zum Entwerfen und Ingenieurwesen der Systeme verschieben, die KI-Agenten anleiten, den Code zu schreiben, und sie somit zu Systemarchitekten erheben.
Sind "Vibe-Codierung" und Agenten-Harnesse miteinander verbunden?
Ja. „Vibe-Codierung“ – das Beschreiben eines gewünschten Ergebnisses in natürlicher Sprache – wird durch Harnesses praktikabler, da sie die Zuverlässigkeit bieten, um hochrangige „Vibes“ in funktionale, mehrstufige Codeausführungen zu übersetzen.
🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts