Zusammenfassung / Kernpunkte
Jenseits von Prompts: Die 98%, die Sie ignorieren
Ein AI agent kombiniert grundsätzlich zwei Teile: das zugrunde liegende large language model (LLM), das als Motor dient, und das harness, das das gesamte Fahrzeug darstellt. Eine definitive Analyse von Claude Code ergab, dass etwa 98% seiner Architektur das harness und nicht das model ist. Diese Tatsache unterstreicht, dass die wahre Ingenieurskunst bei der Schaffung funktionaler agents in diesem ausgeklügelten Wrapper liegt.
Dieser Ansatz steht in scharfem Kontrast zu früheren AI paradigms. Prompt Engineering konzentrierte sich darauf, *mit* dem model zu sprechen und präzise Eingaben für gewünschte Ausgaben zu formulieren. Context Engineering entwickelte dies weiter, indem es das model informierte und ihm die notwendigen Daten und Kenntnisse zur Verbesserung seiner Argumentation und Antworten bereitstellte.
Harness Engineering stellt die nächste kritische Evolution dar, die sich von bloßer Kommunikation oder Information hin zum Aufbau eines kontrollierbaren, vorhersagbaren Systems *um* das model verschiebt. Dies beinhaltet die Definition der Prozesse, Fähigkeiten des agent und wie er auf Fehler reagiert. Wenn man ein Tool wie Claude Code auswählt, wählt man im Wesentlichen ein vorgefertigtes harness.
Das harness stattet das model mit wesentlichen Fähigkeiten aus, die ihm von Natur aus fehlen, und verwandelt einen einfachen text generator in einen functional agent. Dazu gehören: - file system access - command execution - structured workflows - system monitoring Dieser robuste Rahmen stellt sicher, dass der agent zuverlässig mit seiner Umgebung interagieren, komplexe Aufgaben autonom ausführen und sich weiterentwickeln kann, indem er jeden LLM-Fehler als Gelegenheit zur strukturellen Verbesserung nutzt.
Die Denkweise der 'System Evolution'
Der grundlegende Paradigmenwechsel in der agent-Entwicklung ist entscheidend: Ein agent-Fehler signalisiert einen system design flaw, nicht eine LLM-Unzulänglichkeit. Top agentic engineers, wie diejenigen, die harness engineering vorantreiben, erkennen, dass das Warten auf ein besseres model eine verlorene Strategie ist. Stattdessen sehen sie jeden Fehltritt als Gelegenheit, die strukturelle Integrität des agent zu stärken und den agent wrapper weiterzuentwickeln, anstatt den engine zu beschuldigen.
Dies führt zum Kernprinzip: 'Jeder Fehler wird zu einer Regel.' Wenn ein agent einen destructive command versucht, machen Ingenieure nicht einfach rückgängig; sie fügen einen hook hinzu, um zu verhindern, dass er jemals wieder ausgeführt wird. Wenn ein agent eine kritische Konvention missversteht, wird diese spezifische Erkenntnis in die core rules des agent kodifiziert, wodurch das system strukturell schwieriger wird, diesen Fehler zu wiederholen. Mitchell Hashimoto, eine Schlüsselfigur dieses Ansatzes, betont diese iterative Verfeinerung.
Diese unermüdliche, fehlergetriebene Iteration baut ein widerstandsfähiges, sich selbst verbesserndes system auf. LangChain verbesserte den Terminal Bench 2.0-Score seines coding agent von 52,8% auf 66,5%, indem es ausschließlich das harness modifizierte, was die Wirkung des wrapper beweist. Das OpenAI Codex-Team, das ähnliche Prinzipien anwendete, lieferte in fünf Monaten über eine Million Zeilen production code durch AI agents, wobei Menschen die environment entwarfen. Ingenieure wechseln somit von reaktiven Promptern zu proaktiven system architects, die die volle Verantwortung für die robuste, sich entwickelnde Leistung des agent übernehmen.
Anatomie eines Hochleistungs-Harness
Die Anatomie eines Hochleistungs-Harness beginnt mit der AI layer, dem ultimativen Wrapper, den Ingenieure um jede Coding-Agent-Sitzung herum aufbauen. Diese Schicht definiert den Kontext und die Prozesse des Agenten und umfasst mehrere kritische Komponenten: - global rules: Etablierung von Konventionen und Mustern für konsistentes Verhalten. - skills: Strukturierte Workflows wie `plan`, `implement` und `validate`, die komplexe Aktionen leiten. - hooks: Sicherheitsprüfungs-Trigger, die Aktionen oder Zustände abfangen. - sub-agents: Spezialisierte autonome Entitäten, die spezifische Aufgaben bearbeiten.
Harness engineering operiert auf zwei unterschiedlichen Ebenen. Ebene eins konzentriert sich auf die Perfektionierung dieser AI layer für eine einzelne Agenten-Sitzung, indem sie deren unmittelbare Umgebung und Interaktion optimiert. Ebene zwei erweitert dies, indem sie mehrere spezialisierte Agenten-Sitzungen zu einem einheitlichen, leistungsstarken Workflow orchestriert, was die zuverlässige Ausführung großer Aufgaben ermöglicht und erhebliche Vorteile erschließt.
Diese Komponenten integrieren sich nahtlos. Skills definieren beispielsweise einen mehrstufigen Prozess für eine komplexe Implementierung. Ein hook kann dann einen dedizierten Review sub-agent auslösen, um den generierten Code vor dem Commit gegen Qualitätsstandards und Sicherheitsprotokolle zu validieren und Fehler proaktiv zu verhindern. Für einen tieferen Einblick in diese Architekturmuster konsultieren Sie Ressourcen wie Agent Harness Engineering - AddyOsmani.com. Dieser systematische Ansatz stellt sicher, dass das System aus jedem Fehler lernt.
Warum Harness Engineers gewinnen
Das OpenAI's Codex team lieferte eine frühe, überzeugende Validierung für harness engineering. Sie lieferten in nur fünf Monaten über eine Million Zeilen Produktionscode, der vollständig von AI agents geschrieben wurde. Diese monumentale Leistung resultierte nicht aus dem endlosen Feinabstimmen von Modellen, sondern daraus, dass Menschen die Ausführungsumgebung entwarfen und robuste harness-Prinzipien nutzten, um das Agentenverhalten zu steuern.
Um diese Leistungsfähigkeit weiter zu demonstrieren, verbesserte LangChain die Leistung seines coding agent erheblich. Sie steigerten dessen Punktzahl auf Terminal Bench 2.0 von 52,8 % auf 66,5 % – ein Sprung von fast 14 % – indem sie nur den agent wrapper änderten und das zugrunde liegende Modell unverändert ließen. Diese Ergebnisse unterstreichen eindeutig, wo der wahre technische Hebel in der Agentenentwicklung liegt.
Folglich entsteht schnell eine kritische neue Rolle: der Harness Engineer. Auch bekannt als AI Systems Engineer oder Agent Platform Engineer, sind diese Spezialisten unerlässlich für den Aufbau der widerstandsfähigen, zuverlässigen Infrastruktur, die AI agents im Unternehmen praktikabel macht. Sie konzentrieren sich darauf, was das System verhindert, misst und korrigiert, und formen das Agentenverhalten jenseits des Modells selbst.
Das Beherrschen des harness ist die entscheidende Fähigkeit, die endlich die Lücke zwischen beeindruckenden Proof-of-Concept-Demos und produktionsreifer AI schließt. Es ist der Weg zum Aufbau wirklich autonomer Systeme, die zuverlässig, skalierbar und letztendlich wertvoll sind, und verändert die Art und Weise, wie wir intelligente Lösungen entwickeln und bereitstellen.
Häufig gestellte Fragen
Was ist harness engineering?
Harness engineering ist die Disziplin, den Wrapper oder 'harness' um ein large language model herum aufzubauen. Dies umfasst die Tools, Regeln, Leitplanken und Prozesse, die es einem AI agent ermöglichen, komplexe Aufgaben zuverlässig und sicher auszuführen.
Wie unterscheidet sich harness engineering von context engineering?
Context engineering konzentriert sich darauf, dem model die richtigen Informationen zu geben (was es weiß). Harness engineering konzentriert sich auf den Aufbau des Systems um das model herum, wobei dessen Fähigkeiten, Einschränkungen und Fehlerkorrektur-Schleifen definiert werden (was es tun kann und was nicht).
Warum wird der harness als wichtiger als das model angesehen?
Das Harness bestimmt die Zuverlässigkeit und Leistung eines Agenten. Eine Analyse von Claude Code ergab, dass es zu 98 % aus Harness und nicht aus dem Modell bestand. Ein gut entwickeltes Harness kann Fehler verhindern, komplexe mehrstufige Aufgaben ermöglichen und ein weniger leistungsfähiges Modell ein leistungsstärkeres übertreffen lassen.
Was sind die Kernkomponenten eines AI-Harness?
Ein Harness umfasst typischerweise Tool-Orchestrierung, Verifikationsschleifen (Hooks), Kontext- und Speicherverwaltungssysteme, Guardrails für die Sicherheit und Observability zur Überwachung der Agentenleistung.