Qu'est-ce que l'ingénierie de harnais ? La compétence d'IA qui définit les meilleurs ingénieurs

En bref / Points clés

Alors que tout le monde est obsédé par le prochain LLM, les meilleurs ingénieurs maîtrisent le 'harness' (le harnais)—les 98 % cruciaux d'un agent IA qui délivrent de vrais résultats.
C'est la compétence qui sépare les jouets IA des outils de qualité production.

Au-delà des Prompts : Les 98 % que vous ignorez

Un agent IA combine fondamentalement deux parties : le modèle de langage étendu (LLM) sous-jacent, servant de moteur, et le harness (le harnais), représentant l'ensemble du véhicule. Un démontage définitif de Claude Code a révélé qu'environ 98 % de son architecture est le harness, et non le modèle. Ce fait souligne que la véritable prouesse d'ingénierie dans la création d'agents fonctionnels réside dans cet enveloppe sophistiquée.

Cette approche contraste fortement avec les paradigmes IA précédents. Le Prompt Engineering se concentrait sur la communication avec le modèle, élaborant des entrées précises pour les sorties souhaitées. Le Context Engineering a fait progresser cela en informant le modèle, lui fournissant les données et les connaissances nécessaires pour améliorer son raisonnement et ses réponses.

Le Harness Engineering représente la prochaine évolution critique, passant de la simple communication ou information à la construction d'un système contrôlable et prévisible autour du modèle. Cela implique de définir les processus de l'agent, ses capacités et la manière dont il réagit aux erreurs. Lorsque l'on choisit un outil comme Claude Code, on choisit, en substance, un harness pré-conçu.

Le harness fournit au modèle des capacités essentielles qui lui manquent intrinsèquement, transformant un générateur de texte basique en un agent fonctionnel. Celles-ci incluent : - l'accès au système de fichiers - l'exécution de commandes - des flux de travail structurés - la surveillance du système Ce cadre robuste garantit que l'agent peut interagir de manière fiable avec son environnement, exécuter des tâches complexes de manière autonome et évoluer en tirant parti de chaque erreur du LLM comme une opportunité d'amélioration structurelle.

L'état d'esprit de l'« Évolution du Système »

Le changement fondamental de mentalité dans le développement d'agents est crucial : l'échec d'un agent signale un défaut de conception du système, et non une insuffisance du LLM. Les meilleurs ingénieurs d'agents, comme ceux qui sont les pionniers du harness engineering, reconnaissent qu'attendre un meilleur modèle est une stratégie perdante. Au lieu de cela, ils considèrent chaque faux pas comme une opportunité de renforcer l'intégrité structurelle de l'agent, faisant évoluer l'enveloppe de l'agent plutôt que de blâmer le moteur.

Cela conduit au principe fondamental : « chaque erreur devient une règle ». Si un agent tente une commande destructive, les ingénieurs ne se contentent pas de revenir en arrière ; ils ajoutent un « hook » pour l'empêcher de s'exécuter à nouveau. Lorsqu'un agent comprend mal une convention critique, cette perspicacité spécifique est codifiée dans les règles fondamentales de l'agent, rendant le système structurellement plus difficile à répéter cette erreur. Mitchell Hashimoto, une figure clé de cette approche, souligne ce raffinement itératif.

Cette itération incessante, axée sur les erreurs, construit un système résilient et auto-améliorant. LangChain a amélioré de manière impressionnante le score de son agent de codage Terminal Bench 2.0 de 52,8 % à 66,5 % en modifiant uniquement le harness, prouvant l'impact de l'enveloppe. L'équipe Codex d'OpenAI, appliquant des principes similaires, a livré plus d'un million de lignes de code de production par des agents IA en cinq mois, les humains concevant l'environnement. Les ingénieurs passent ainsi de prompteurs réactifs à des architectes de systèmes proactifs, assumant l'entière responsabilité de la performance robuste et évolutive de l'agent.

Anatomie d'un Harness Haute Performance

L'anatomie d'un harnais haute performance commence par l'AI layer, l'enveloppe ultime que les ingénieurs construisent autour de toute session d'agent de codage. Cette couche définit le contexte et les processus de l'agent, comprenant plusieurs composants critiques : - global rules : établissant des conventions et des modèles pour un comportement cohérent. - skills : des flux de travail structurés comme `plan`, `implement` et `validate` qui guident les actions complexes. - hooks : des déclencheurs de vérification de sécurité qui interceptent les actions ou les états. - sub-agents : des entités autonomes spécialisées gérant des tâches spécifiques.

Le harness engineering opère à deux niveaux distincts. Le niveau un se concentre sur le perfectionnement de cette AI layer pour une seule session d'agent, optimisant son environnement immédiat et son interaction. Le niveau deux élève cela en orchestrant plusieurs sessions d'agents spécialisés en un flux de travail unifié et puissant, permettant l'exécution fiable de tâches à grande échelle et débloquant un levier significatif.

Ces composants s'intègrent de manière transparente. Les skills, par exemple, définissent un processus en plusieurs étapes pour une implémentation complexe. Un hook peut alors déclencher un sub-agent de révision dédié pour valider le code généré par rapport aux normes de qualité et aux protocoles de sécurité avant de le commettre, prévenant ainsi proactivement les erreurs. Pour une exploration plus approfondie de ces modèles architecturaux, consultez des ressources comme Agent Harness Engineering - AddyOsmani.com. Cette approche systématique garantit que le système évolue à partir de chaque erreur.

Pourquoi les Harness Engineers gagnent

L'équipe Codex d'OpenAI a fourni une validation précoce et convaincante pour le harness engineering. Ils ont livré plus d'un million de lignes de code de production, entièrement écrites par des AI agents, en seulement cinq mois. Cette réalisation monumentale ne provient pas d'un réglage fin incessant des modèles, mais de la conception par des humains de l'environnement d'exécution, tirant parti de principes de harnais robustes pour guider le comportement des agents.

Enjoying this? Get one like it in your inbox each morning.

one email a day · unsubscribe in two clicks · no third-party tracking

Démontrant davantage cette puissance, LangChain a considérablement amélioré les performances de son agent de codage. Ils ont augmenté son score sur Terminal Bench 2.0 de 52,8 % à 66,5 % — un bond de près de 14 % — en modifiant uniquement l'agent wrapper, laissant le modèle sous-jacent inchangé. Ces résultats soulignent définitivement où réside le véritable levier d'ingénierie dans le développement d'agents.

Par conséquent, un nouveau rôle critique émerge rapidement : le Harness Engineer. Également connus sous le nom d'AI Systems Engineer ou Agent Platform Engineer, ces spécialistes sont essentiels pour construire l'infrastructure résiliente et fiable qui rend les AI agents viables en entreprise. Ils se concentrent sur ce que le système prévient, mesure et corrige, façonnant le comportement de l'agent au-delà du modèle lui-même.

Maîtriser le harness est la compétence définitive qui comble enfin le fossé entre les impressionnantes proof-of-concept demos et l'AI de production. C'est la voie pour construire des systèmes véritablement autonomes qui sont fiables, évolutifs et, en fin de compte, précieux, transformant la façon dont nous développons et déployons des solutions intelligentes.

Questions fréquemment posées

Qu'est-ce que le harness engineering ?

Le harness engineering est la discipline qui consiste à construire le wrapper, ou 'harnais', autour d'un large language model. Cela inclut les outils, les règles, les guardrails et les processus qui permettent à un AI agent d'effectuer des tâches complexes de manière fiable et sûre.

En quoi le harness engineering est-il différent du context engineering ?

Le context engineering se concentre sur la fourniture au modèle des bonnes informations (ce qu'il sait). Le harness engineering se concentre sur la construction du système autour du modèle, définissant ses capacités, ses limitations et ses boucles de correction d'erreurs (ce qu'il peut et ne peut pas faire).

Pourquoi le harness est-il considéré comme plus important que le modèle ?

Le harnais détermine la fiabilité et la performance d'un agent. Une analyse de Claude Code a révélé qu'il était à 98 % un harnais, et non un modèle. Un harnais bien conçu peut prévenir les erreurs, permettre des tâches complexes en plusieurs étapes et faire en sorte qu'un modèle moins puissant surpasse un modèle plus puissant.

Quels sont les composants essentiels d'un harnais d'IA ?

Un harnais comprend généralement l'orchestration d'outils, des boucles de vérification (hooks), des systèmes de gestion du contexte et de la mémoire, des garde-fous de sécurité et l'observabilité pour le suivi des performances de l'agent.

Found this useful? Share it.

AI Reputation Report

What AI knows about you.

ChatGPT, Perplexity, Gemini, Claude & Grok are already answering questions in your category. Type your site, see who they name — you, or your competitor. Free preview.

Check my sitefree preview

One short daily email of tools worth shipping. No drip funnel.

one email a day · unsubscribe in two clicks · no third-party tracking

La compétence IA qui représente 98 % de l'agent

Au-delà des Prompts : Les 98 % que vous ignorez

L'état d'esprit de l'« Évolution du Système »

Anatomie d'un Harness Haute Performance

Pourquoi les Harness Engineers gagnent

Questions fréquemment posées

Qu'est-ce que le harness engineering ?

En quoi le harness engineering est-il différent du context engineering ?

Pourquoi le harness est-il considéré comme plus important que le modèle ?

Quels sont les composants essentiels d'un harnais d'IA ?

What AI knows about you.

À lire ensuite

Cette IA s'améliore désormais d'elle-même

Cet agent IA bâtit des entreprises pour vous

L'ère des agents de Google vient de commencer

Gardez une longueur d'avance en IA