要約 / ポイント
プロンプトの先へ:あなたが無視している98%
AIエージェントは根本的に2つの部分を組み合わせたものです。エンジンとして機能する基盤となる大規模言語モデル(LLM)と、車両全体を表すハーネスです。Claude Codeの決定的な分解調査により、そのアーキテクチャの約98%がモデルではなくハーネスであることが明らかになりました。この事実は、機能的なエージェントを作成する真のエンジニアリング能力が、この洗練されたラッパーにあることを強調しています。
このアプローチは、これまでのAIパラダイムとは大きく異なります。Prompt Engineeringは、モデルに*話しかける*ことに焦点を当て、望ましい出力のために正確な入力を作成しました。Context Engineeringは、モデルに必要なデータと知識を提供して推論と応答を強化することで、これをさらに進めました。
Harness Engineeringは、単なるコミュニケーションや情報から、モデルの*周りに*制御可能で予測可能なシステムを構築することへと移行する、次の重要な進化を表します。これには、エージェントのプロセス、機能、およびエラーへの対応方法を定義することが含まれます。Claude Codeのようなツールを選択するということは、本質的に、事前に設計されたハーネスを選択していることになります。
ハーネスは、モデルが本来持たない不可欠な機能を提供し、基本的なテキスト生成器を機能的なエージェントに変えます。これには以下が含まれます。 - ファイルシステムアクセス - コマンド実行 - 構造化されたワークフロー - システム監視 この堅牢なフレームワークにより、エージェントは環境と確実に相互作用し、複雑なタスクを自律的に実行し、LLMのあらゆる間違いを構造的改善の機会として活用することで進化できます。
「システム進化」の考え方
エージェント開発における根本的な考え方の転換は極めて重要です。エージェントの失敗は、LLMの不十分さではなく、システム設計の欠陥を示します。Harness Engineeringを先駆けるようなトップのagentic engineersは、より良いモデルを待つことが負け戦略であることを認識しています。代わりに、彼らはあらゆる誤りを、エージェントの構造的完全性を強化する機会とみなし、エンジンを非難するのではなく、エージェントのラッパーを進化させます。
これが、「あらゆる間違いがルールになる」という核心的な原則につながります。エージェントが破壊的なコマンドを試みた場合、エンジニアは単に元に戻すだけでなく、二度と実行されないようにフックを追加します。エージェントが重要な慣習を誤解した場合、その特定の洞察はエージェントのコアなルールにコード化され、システムがそのエラーを構造的に繰り返すことをより困難にします。このアプローチの主要人物であるMitchell Hashimotoは、この反復的な洗練を強調しています。
この容赦ない、エラー駆動型の反復により、回復力があり自己改善するシステムが構築されます。LangChainは、ハーネスのみを修正することで、コーディングエージェントのTerminal Bench 2.0スコアを52.8%から66.5%に驚異的に向上させ、ラッパーの影響力を証明しました。OpenAIのCodexチームは、同様の原則を適用し、人間が環境を設計する中で、AIエージェントによって5ヶ月で100万行以上の本番コードを出荷しました。これにより、エンジニアは反応的なプロンプターから、エージェントの堅牢で進化するパフォーマンスに全責任を負う、積極的なsystem architectsへと移行します。
高性能ハーネスの解剖
高性能ハーネスの解剖学は、AIレイヤーから始まります。これは、エンジニアがあらゆるコーディングエージェントセッションの周囲に構築する究極のラッパーです。このレイヤーは、エージェントのコンテキストとプロセスを定義し、いくつかの重要なコンポーネントで構成されています。 - グローバルルール:一貫した動作のための慣例とパターンを確立します。 - スキル:`plan`、`implement`、`validate`のような、複雑なアクションを導く構造化されたワークフロー。 - フック:アクションや状態を傍受する安全チェックトリガー。 - サブエージェント:特定のタスクを処理する専門的な自律エンティティ。
ハーネスエンジニアリングは2つの異なるレベルで機能します。レベル1は、単一のエージェントセッションのためにこのAIレイヤーを完成させることに焦点を当て、その即時の環境と相互作用を最適化します。レベル2は、複数の専門的なエージェントセッションを統合された強力なワークフローに編成することでこれを高め、大規模なタスクの信頼性の高い実行を可能にし、大きなレバレッジを解放します。
これらのコンポーネントはシームレスに統合されます。例えば、スキルは複雑な実装のための多段階プロセスを定義します。その後、フックは専用のレビューサブエージェントをトリガーして、生成されたコードをコミットする前に品質基準と安全プロトコルに対して検証し、エラーを積極的に防止することができます。これらのアーキテクチャパターンについてさらに深く掘り下げるには、Agent Harness Engineering - AddyOsmani.comのようなリソースを参照してください。この体系的なアプローチは、システムがあらゆる間違いから進化することを保証します。
ハーネスエンジニアが勝利している理由
OpenAIのCodexチームは、ハーネスエンジニアリングの初期の説得力のある検証を提供しました。彼らは、わずか5ヶ月で、AIエージェントによって完全に書かれた100万行以上の本番コードを出荷しました。この記念碑的な成果は、モデルを際限なく微調整することからではなく、人間が実行環境を設計し、堅牢なハーネス原則を活用してエージェントの行動を導くことから生まれました。
この力をさらに示すものとして、LangChainはコーディングエージェントのパフォーマンスを大幅に向上させました。彼らは、エージェントラッパーのみを変更し、基盤となるモデルは変更せずに、Terminal Bench 2.0でのスコアを52.8%から66.5%へと、約14%も向上させました。これらの結果は、エージェント開発における真のエンジニアリングレバレッジがどこにあるかを明確に強調しています。
その結果、重要な新しい役割が急速に台頭しています。それは、ハーネスエンジニアです。AIシステムエンジニアまたはエージェントプラットフォームエンジニアとも呼ばれるこれらの専門家は、AIエージェントを企業で実行可能にするための、回復力のある信頼性の高いインフラストラクチャを構築するために不可欠です。彼らは、システムが何を防止し、測定し、修正するかに焦点を当て、モデル自体を超えてエージェントの行動を形成します。
ハーネスを習得することは、印象的な概念実証デモと本番環境レベルのAIとの間のギャップを最終的に埋める決定的なスキルです。それは、信頼性が高く、スケーラブルで、最終的に価値のある真に自律的なシステムを構築し、インテリジェントなソリューションの開発と展開方法を変革する道です。
よくある質問
ハーネスエンジニアリングとは何ですか?
ハーネスエンジニアリングとは、大規模言語モデルの周囲にラッパー、つまり「ハーネス」を構築する分野です。これには、AIエージェントが複雑なタスクを信頼性高く安全に実行できるようにするツール、ルール、ガードレール、およびプロセスが含まれます。
ハーネスエンジニアリングはコンテキストエンジニアリングとどう違うのですか?
コンテキストエンジニアリングは、モデルに適切な情報(モデルが知っていること)を与えることに焦点を当てます。ハーネスエンジニアリングは、モデルの周囲にシステムを構築し、その能力、制限、およびエラー修正ループ(モデルができることとできないこと)を定義することに焦点を当てます。
なぜハーネスはモデルよりも重要だと考えられているのですか?
ハーネスはエージェントの信頼性とパフォーマンスを決定します。Claude Codeの分解調査では、その98%がモデルではなくハーネスであることが判明しました。よく設計されたハーネスは、エラーを防ぎ、複雑な多段階タスクを可能にし、より強力でないモデルをより強力なモデルよりも優れたパフォーマンスを発揮させることができます。
AIハーネスの主要なコンポーネントは何ですか?
ハーネスには通常、ツールオーケストレーション、検証ループ(フック)、コンテキストおよびメモリ管理システム、安全のためのガードレール、およびエージェントのパフォーマンスを監視するための可観測性が含まれます。