TL;DR / Key Takeaways
LLMのパフォーマンスの壁にぶつかりました。
誰もが感じているように、花火ショーは減速しています。GPT-4、Claude 3 Opus、Gemini 1.5は間違いなく強力ですが、GPT-3がGPT-2を超えた時のような驚くべき飛躍はありません。ベンチマークは上昇し続けています—MMLU、HumanEval、GSM8K—しかし、純粋なLLMパワーの現実世界での「わぁ」要素はもはや6か月ごとに倍増することはありません。
その減速は想像上のものではなく、経済的現実です。フロンティアモデルのトレーニングには、現在、計算、データキュレーション、エンジニアリングに数億ドルのコストがかかります。MMLUやCodeforcesのようなリーダーボードでの各追加のパーセンテージポイントは、指数関数的に多くのGPU、トークン、そして人間のフィードバックを必要とします。
至る所で減少するリターンが現れています。200Kや1Mトークンといった大きなコンテキストウィンドウは存在しますが、そのコンテキストに対する効果的な推論は依然として脆弱な方法で失敗します。コードモデルはボイラープレートや一般的なパターンをうまく処理しますが、APIを誤って想像したり、コードレビューで中堅エンジニアなら見抜くようなエッジケースを誤解したりします。
フロンティアは移り変わりました。コール・メディンは彼のビデオでこれを的確に捉えています:「LLMの生の力はもはや爆発的ではないが、それを取り巻く層はそうです。」ツールのオーケストレーション、メモリーシステム、マルチエージェントの調整は、ベンチマークでの0.3の向上よりも大きな飛躍をもたらしています。
それを、高速CPUからより良いオペレーティングシステムへの移行と考えてください。エージェントハーネス、コンテキストルーター、そしてワールドモデルはGPT-4やClaude 3の上に位置し、ほぼ同じ基盤となる知能からさらに信頼性を引き出します。心のハードウェアは頭打ちになり、その周囲のソフトウェアスタックがより重要になり始めます。
この瞬間を天井ではなく、転換点として再定義します。GPT-5が10倍賢くなることを願うのではなく、チームはツール、再試行、長時間のワークフローを管理する エージェントハーネス を構築しています。その結果、今日のモデルは信頼できる同僚のように振る舞います。イノベーションの焦点はモデルの重みからシステム設計へと移ります。
それをポストベンチマーク時代と呼ぼう。限界モデルの向上は依然として重要だが、真のブレークスルーはLLM(大規模言語モデル)を中心にした骨組み―メモリ、計画、検証―の設計から生まれるだろう。アクションはラボのトレーニングからエンジニアのハーネスコードへと移る。
真の革命は「ラッパー」にある
生のモデルコールは、まるで素のシリコンのように見え始めています:書類上では印象的ですが、実際には脆弱です。コール・メディンの主張は率直です:真の実力は「LLMの上にある層」に移動しており、それは巧妙なオートコンプリートエンジンを実際の作業を任せられる信頼できるものに変えるオーケストレーションロジックです。
その層には現在、エージェントハーネスという名前があります。これは、モデルのためのオペレーティングシステムのようなもので、制御フロー、メモリ、ツールの使用を管理し、LLMがデモの外で、かつプロダクションSLA内で生き残ることができるようにします。
生のLLMコールは、ステートレスなAPI呼び出しのように振る舞います。プロンプトを送信し、モデルがあなたの意図を理解していることを願い、ツールを無視したり、以前のステップを忘れたり、存在しないAPIを想像したテキストのブロックを受け取ります。
同じモデルをハーネスに組み込むと、行動が変わります。ハーネスは数十または数百のステップを通じて状態を追跡し、作業メモリを保持し、モデルがどのツールをいつ、どのような引数で呼び出すことができるかに関するポリシーを強制します。
現代のハーネスは、散在していたスクリプトやアドホックなプロンプトの中にあったいくつかの機能を統合しています: - 長期および短期のメモリストレージ - ツールのルーティングとエラーを考慮した再試行 - サブエージェントの調整とスケジューリング - ガードレール、バリデーション、可観測性
Anthropicの内部ハーネス、LangChainのDeepAgent、Cole MedinのLinear Agent Harnessのようなプロジェクトは、パターンが明確になっていることを示しています。単一のチャット完了ではなく、数時間にわたって人間の介入なしに実行できるエージェント、ツール、状態のグラフを得ることができます。
ここが現在、ヒューマンエンジニアリングのレバレッジが存在する場所です。GPT-4.5の重みを調整することはできませんが、サブエージェントの数を決定したり、どのようにコンテキストウィンドウを共有するか、タスクをどのように分解するか、悪いツール呼び出しからどのように回復するかを決めることができます。
「GPT-6 だが 10 倍」を待つことはポイントを見失っている。次の 10 倍はより良いハーネスデザインから生まれる:より賢い計画ループ、豊かな世界モデル、ログからプロンプトやポリシーへのより密接なフィードバック。
モデルを商品として扱い、ハーネスを製品として捉えるソフトウェアチームが価値を捉えます。その他のチームはただAPIを呼び出して、うまくいくことを願うだけでしょう。
現代のエージェントハーネスを解読する
エージェントは聞こえはふわっとしていますが、AnthropicとLangChainは非常に具体的なものを定義しています。それは、LLM(大規模言語モデル)を繰り返し呼び出し、状態を追跡し、ツールを調整して、タスクが実際に完了するまでの構造化された制御レイヤーです。Anthropicのハーネス仕様では、ループを所有し、エラーハンドリング、メモリ、およびツールのルーティングを管理するコントローラーが定義されており、モデルは次のトークンを予測するだけです。LangChainのDeepAgentのドキュメントはさらに進み、ハーネスを各ステップでエージェントが行うことを決定するプログラム可能なポリシーとして位置づけています。
単なる美化された while ループ以上に、現代のハーネスは 状態遷移機 として機能します。各ステップは「計画中」、「ツール呼び出し待機中」、「人間待ち」、「完了」などの状態間を遷移し、各状態で許可されることについて明確なルールがあります。その構造により、振る舞いが「気分」や「希望」ではなく、再現可能でデバッグ可能なものになります。
コアな責任は、Anthropic、LangChain、そしてCole MedinのLinear Agent Harnessに共通する4つのカテゴリーに集約されます。ハーネスは、持続的なメモリを管理し、ツールを統治し、複数のワーカーを調整し、長期的なフローを監視する必要があります。これらの要素のいずれかを取り除くと、エージェントはすぐに一回限りのチャットボットに退行してしまいます。
メモリ管理は今や小型のデータベース問題のように見えます。ハーネスは短期的なスクラッチパッド、意味的なリコールのためのベクターストア、および長期的なログを維持し、要約するもの、追い出すもの、そして200kから1Mトークンに制限されたコンテキストウィンドウに再水分補給するものを決定します。また、センシティブデータを制御し、どのサブエージェントが何を閲覧できるかを強制するため、企業展開においては必須の要件です。
ツーリングコントロールはハーネスをポリシーエンジンに変えます。それは以下を決定します: - LLMが呼び出せるツール - 引数がどのように検証され、サニタイズされるか - 呼び出しをどのように再試行、デバウンス、または並列化するか
そのポリシーレイヤーは、プロンプト注入による「製品データベースをダウンロード」という災害を防ぎ、1つの500エラーの後に不安定なAPIがワークフローを脱線させるのを防ぎます。
サブエージェントの調整により、ハーネスはオーケストレーション領域に進出します。コーディングシステムは、計画、実装、テスト、リファクタリングのためにそれぞれ異なるエージェントを生成し、各エージェントには特定のツールとメモリが割り当てられます。ハーネスはタスクを割り当て、結果を統合し、エージェント間で意見が食い違った際には対立を解決します。これは、ビルドシステムがコンパイラとリンターの出力を調停するのと類似しています。
1万フィートの高さから見ると、LLMはカーネルのように見え、ハーネスはOSシェルとランタイムのように機能します。それは、非常にスマートでありながら非常に記憶喪失のコアの周りにスケジューリング、入出力、権限、およびロギングを提供します。Anthropic自身の文書、効果的な長期エージェントのためのハーネス - Anthropicは、そのシェルの設計文書のように有効に読めます。
脆弱なプロンプトから強靭なシステムへ
初期のAI開発は一見強力に見えた:賢いプロンプトを書き、基本的なRAGパイプラインを追加すれば、モデルがコードやドキュメントを生成するのを見守ることができた。それは単発のタスクには効果的だった―関数を作成する、PDFを要約する、小さなベクトルストアから質問に答える。しかし、それを超えた瞬間、すべてが崩れてしまった。
プロンプト専用システムは、健忘症のインターンのように振る舞います。LLMに200,000行のモノリスを1つのプロンプトでリファクタリングするよう依頼すると、一部の編集、幻のファイル、壊れたインポートが返ってきます。リトリーバルを使っても、単純なRAGは「関連する」チャンクをコンテキストに詰め込むだけであり、状態を追跡したり、結果を検証したり、既に実行されたことを記憶したりはしません。
複雑で多段階の作業は、これらの亀裂を迅速に露呈させます。長期間のタスク――マイグレーション、マルチサービスのリファクタリング、インシデントランブック――には、分岐ロジック、バックトラッキング、テストの失敗やAPIのレート制限などの外部制約への意識が必要です。静的なプロンプトは、テストスイートがタイムアウトしたり、依存関係が衝突したり、ツールが不正なJSONを返したりするときに適応することはできません。
現代のエージェントはその脆弱性に直接対処する攻撃を活用します。単一のプロンプトではなく、計画、行動、観察、修正を数十回または数百回のステップで行える制御ループを提供します。このハーネスは実行グラフを所有し、モデルではありません:ツールを呼び出すタイミング、再計画するタイミング、そして中止するタイミングを決定します。
リトライはもはや後回しにされることはありません。AnthropicのコーディングハーネスやLangChainのDeepAgentのようなハーネスは、すべてのツール呼び出しを構造化されたエラーハンドリングで包み込みます:ネットワークの失敗時には自動リトライ、ツール出力のスキーマ検証、モデルが仕様から逸脱した際のターゲット再プロンプト。これらは各ステップをログに記録し、エージェントが自身の履歴を確認し、コースを修正できるようにします。
動的プランニングが一流の機能になります。ハードコーディングされたシーケンスの代わりに、ハーネスはツールのフィードバックに基づいてタスクリストを更新します: - プランを生成 - ツールを実行 - 予測と実績を比較 - ステップの挿入、削除、または順序の変更
再度、大規模なコードベースのリファクタリングを考えてみましょう。単一のプロンプトで全てを一度に書き直そうとすると、コンテキストの制限を超え、コンパイルできないコードが生成されてしまう可能性があります。しかし、ハーネス駆動のエージェントはリポジトリをスキャンし、ファイルを分割し、モジュールごとにリファクタリングを行い、各バッチの後にテストを実行し、失敗を検出し、特定の変更を元に戻し、スイートが通過するまで反復的に修正を行うことができます。
生産グレードハーネスの解剖学
生産レベルのエージェントハーネスは、巧妙なプロンプトというよりはミニチュアオペレーティングシステムのように見えます。LangChainのDeepAgentハーネス、Anthropicの内部フレームワーク、Cole MedinのLinearハーネスはすべて同じアーキテクチャに収束しています。それは、大きな言語モデルが目標に向かうように保つ4つのコアコンポーネントを包み込んだタイトなループです。
基盤にはステートマネージャーがあります。このモジュールは、エージェントの現在の目標、中間的なサブゴール、ステップ履歴、および実行メタデータを追跡します:どのツールが実行されたか、何を返したか、失敗したかどうかです。DeepAgentでは、これがしばしば構造化された状態オブジェクトとして存在し、すべての呼び出しを通じて流れることで、モデルに「私たちがどこにいるか」と「何が起こったか」の標準的な視点を提供します。
良好なステート管理は、ログ記録を超えています。それは各ターンのためのスキーマを強制し、長時間実行されるタスクがクラッシュ後に再開できるようにチェックポイントを持続させ、時間制限やトークン予算などの制約を記録します。自由な形式の会話ではなく、エージェントは監査、再生、テストが可能な型付けされたワークフローの中で動作します。
状態と並行して、ツールコントローラーはすべての副作用を調整します。ハーネスはモデルが生のAPIを呼び出したり、ファイルシステムに直接触れたりすることを決して許可せず、厳格な入力と出力の契約を持つキュレーテッドツールセットを提供します。LangChainでは、ツールはJSONスキーマと安全ガードを宣言するため、コントローラーは引数を検証し、リクエストを制限し、明らかに危険なアクションをブロックすることができます。
堅牢なコントローラーは次の処理も行います: - 認証と秘密情報の隔離 - 複数のプロバイダーにわたるレート制限とバックオフ - ファイル、シェル、またはコードツールのためのサンドボックス実行
メモリは独自のモジュールにあり、LLMの200K~1Mトークンのコンテキスト制限と、数日間にわたる実世界の作業負荷をつなぎます。短期メモリは通常、スクラッチパッドのようなものであり、モデル自身によって予算内に収まるように圧縮された最後のNステップの実行概要です。長期メモリは、text-embedding-3-largeのようなモデルからの埋め込みによってインデックスされた、Pinecone、Weaviate、またはpgvectorなどのベクターデータベースに存在します。
スマートハーネスは、一時的なタスクメモリ、持続的なプロジェクトメモリ、そしてグローバルな組織知識を区別します。彼らはすべてをプロンプトに詰め込むのではなく、要約するべきこと、埋め込むべきこと、そして破棄するべきことを決定します。
これをすべてまとめているのが、ディスパッチャー/コーディネーターです。これは、LLMに現在の状態とメモリを供給し、モデルの「意図」を解析します(ツールを呼び出す、サブタスクを作成する、または出力を最終化する)そして、適切なコンポーネントに制御をルーティングします。各イテレーションは状態を更新し、メモリを追加し、制約を厳しくし、確率的モデルを予測可能なシステムに変えます。
「バイブコーディング」はついに実現可能になったのか?
バイブコーディングはジョークのように聞こえますが、実際にはすべての開発者が求めていることを示しています: 成果を明示し、定型文を省き、出荷することです。この定義において、バイブコーディングは「インシデントをトリアージするSlackボットを構築する」という意図をレベルで記述し、システムがAPIを発見し、データモデルを設計し、あなたがすべての関数を世話することなくテストを書くことを意味します。
長年、その状況は幻想でした。生のLLMは、才能はあるが信頼性のないインターンのように振る舞います。彼らはAPIを誤って生成し、エッジケースを無視し、十回もやり取りを重ねるうちに多段階の計画を失念します。GPT-4やClaude 3.5であっても、認証、請求、分析を備えた完全なCRUD SaaSのような非自明なシステムを求めても、コンパイルはするものの、実際のトラフィックやデータの下で静かに壊れてしまうコードが得られるだけです。
エージェントはリスクの形を変えます。彼らは「雰囲気」を最上級の目標に変え、その後、モデルをツール、メモリ、および明示的な制約の枠組み内で機能させるように促します。「バックエンドを書く」と代わりに、ハーネスに「生産準備が整ったバックエンドを提供する」と依頼し、それがサブタスクを調整します:スキーマ設計、マイグレーション、統合テスト、デプロイメント設定。
Anthropicの内部フレームワークやLangChainのDeepAgentのような現代のハーネスは、単一のLLM呼び出しを信頼しません。彼らは計画 → 行動 → 検証のループを強制し、すべてのステップを記録し、失敗をデバッガーや人間のレビューを通じて再処理します。LangChainは、エージェントハーネス機能 - LangChainのドキュメントでこれを明示的に文書化しており、エージェントは構造化された目標を受け取り、ツールを選択し、マルチステップの状態を維持します。
そのため、バイブコーディングはコール・メディンが主張するように「ある種の」実行可能性を持つようになります。システムの境界で「Q3までにモノリスをサービス指向アーキテクチャに移行し、レイテンシを150ms未満に保ち、既存の認証を再利用する」といった形で思考し、その後、ハーネスがそれを数百の具体的なアクションに分解します。LLMは自由連想を行うわけではなく、管理されたテスト可能なワークフローの中で機能します。
重要なのは、あなたが裸のLLMチャットボックスとやり取りしているわけではないということです。あなたは、あなたが設計した堅牢なシステムに対して高水準の指示を出しています:ツールスキーマ、安全策、観測機能、ロールバック戦略。創造性は次のレベルに移行します—単にforループを書くのではなく、コーディングの雰囲気を実際に道筋に賭けられるものにするためのハーネスを設計することです。
新しいコーダー:AIシステムアーキテクト
コーダーは静かにAIシステムアーキテクトに昇進しています。コントローラー、サービス、データベースマッパーの作業をこなす代わりに、彼らはチームのように振る舞うモデル、ツール、ワークフローのネットワークを統括します。仕事の内容は「機能を書く」から「インテリジェントシステムの思考と行動をデザインする」へと移行しています。
コール・メディンは率直に言う。「私たちはシステムとハーネスを設計していますが、近い将来、ほとんどのコードを書くつもりはありません。」この言葉は誇張しているように聞こえますが、DeepSeek、Claude、またはGPTスタイルのエージェントが意図の一段落からREST呼び出し、マイグレーション、テストを接続しているのを見ると、そうではないことがわかります。人間は依然として方向性を設定し、エージェントは足場を扱います。
ニューデイ・デベロッパーは、エージェントの目標を製品仕様の精度で定義します。「請求書ページを作成する」という代わりに、「ストライプの請求書を内部台帳と同期させ、失敗を毎時調整し、5,000ドルを超える異常をエスカレーションする」といった具体的な目標を設定します。このハーネスは、それをツールやサブエージェント、ガードレールに変換します。
ツーリングは一流の技術になります。アーキテクトは以下の機能を選択または構築します: - APIや内部サービスへのアクセス - ベクトルストアやSQLウェアハウスへのクエリ - CI/CDやインフラ変更のトリガー
各ツールには厳格なスキーマ、認証境界、そして遅延予算が必要です。これらのツールの品質が、エージェントの能力感に影響を与えます。
ハーネスロジックは手書きのオーケストレーションコードに代わります。開発者は計画ループ、エラー再試行ポリシー、メモリ戦略、承認ゲートを設計します。「ワークフローファイル」では、エージェントがタスクをどのように分解し、いつサブエージェントを生成できるか、監査のために何をログに記録するかを宣言することがあります。それはJavaのようではなく、むしろ認知のためのTerraformのように見えます。
デバッグは推論の痕跡の法医学的分析に変わります。スタックフレームを一つずつ進む代わりに、思考の連鎖、ツールの呼び出し、コンテキストウィンドウを調査します。プロンプトを微調整したり、ツール契約を調整したり、計画者の配線を改めたりしてから、シナリオを再実行します。
プログラマーを消し去るのではなく、この変化は彼らをレンガ職人から建築家へとアップグレードします。難しい問題は次のレベルへ移行します:ループを書くことから、自らを書けるシステムを設計することへ—信頼性が高く、安全で、大規模に。
野生でのハーネス: 理論から利益へ
エージェントは、退屈で高価な問題に指向させた瞬間から抽象的でなくなります。Anthropicのエンジニアリングチームは、巨大な内部データセットに対して数時間にわたるデータ分析を行うためにハーネスを使用し、エージェントがSQLクエリを調整し、結果を要約し、ヒポテシスを人間の監視なしに反復しました。彼らの報告書は、ツールのエラーやAPIの不具合、指示の変更を乗り越えながらも、使えるレポートに収束する長時間にわたるワークフローを説明しています。
そのAnthropicの例は「ボットとのチャット」のようには見えず、むしろ自己操縦のデータアナリストのようです。このハーネスは数十のツールコール間での状態を追跡し、中間出力を記録し、次に何を言うかだけでなく、いつ停止するかを決定します。これは、単発の完了ではなく、持続的なサービスに近いものになります。
コール・メディンのオープンソースLinear-Copilot-Harnessは、実際のSaaSワークフローの内部がどのように見えるかを示しています。このシステムは、LLMをLinearのAPIに接続し、問題履歴、チームの慣習、プロジェクトのマイルストーンからのコンテキストを考慮しながら、チケットの作成、優先順位付け、更新を行います。脆弱な「チケットを書く」プロンプトの代わりに、このハーネスはツール、メモリ、ガードレールを管理し、エージェントがLinearに組み込まれたジュニアプロジェクトマネージャーのように振る舞うようにします。
Medinのハーネスは、以下のようなパターンに基づいています: - タスクタイプに基づくツールのルーティング - 線形問題およびユーザーに関連付けられた持続的なメモリ - ツールが失敗した際に再プランニングできるマルチステッププラン
同じパターンは、他の収益を生むエージェントにもスムーズに転用できます。自律的な財務研究システムは、提出書類、決算発表、マーケットデータを取得し、企業やセクターに関する継続的な仮説を維持します。ハーネスは、ドキュメントの取得、スプレッドシートのモデリング、リスクサマリーを調整し、実資本に関わるすべてのツールに対して厳格な境界を適用します。
自動化されたQAテストエージェントは、回帰テストスイートをエンドツーエンドで管理できます。彼らはテストを生成し、CIパイプラインを呼び出し、失敗を解釈し、チケットを提出し、修正が適用された後にターゲットチェックを再実行します。このハーネスは、テストカバレッジ、過去の不安定なテスト、コンポーネントの所有権に関する長期間のマップを保持しているため、エージェントは毎回リセットするのではなく、数週間にわたって改善されます。
マーケティングチームはすでに自己管理型キャンペーンエージェントを試験運用しています。ハーネスは、Google Ads、Meta、そしてメールプラットフォーム全体でコピー生成、クリエイティブA/Bテスト、予算再配分、そして分析クエリを統括することができます。OutSystems Agent Workbenchのようなエンタープライズグレードのプラットフォームは、これを製品化するために競っており、ハーネスパターンをドラッグアンドドロップ可能な「エージェントレシピ」としてパッケージ化し、既存のスタックに直接接続できるようにしています。
エージェントはカーネル、ハーネスはシェルです。
パベル・パンチェカはこれに対して最も明快なメンタルモデルを提供します:LLMはカーネルであり、エージェントハーネスはシェルです。魔法のエージェントではなく、Linuxとbashの組み合わせを考えてください。カーネルは生の力を引き出し、シェルは人間とプログラムがそれをどのように実際に使用するかを決定します。
OSカーネルはプロセスをスケジュールし、メモリを管理し、システムコールを公開します。bashやzshのようなシェルは、それを`ls`、パイプ、スクリプト、自動化に変換します。カーネルとしてClaudeやGPTを使えば、あなたのハーネスはシェルとなり、ユーザーの意図を解析し、ツールコールを順次実行し、長時間実行されるジョブを生かし続けます。
エージェントハーネスはただのシェル - パヴェル・パンチェカを読むと、アナロジーが明確になります。LLM「カーネル」は次のことができます: - テキストを生成し、変換する - 構造化された関数呼び出しを通じてツールを呼び出す - 短期的な会話の状態を維持する
ハーネスの「シェル」は、以下の機能を提供します: - 数分、数時間、または数日間続くタスクのプロセス制御 - API、データベース、コードベースを横断するツールのオーケストレーション - 異常発生時の持続性、ログ記録、およびリカバリー
このように見ると、LangChainのDeepAgent、Anthropicのハーネス例、そしてCole MedinのLinearエージェントハーネスは、エキゾチックなAIというよりも親しみやすいOSエンジニアリングに似ています。彼らはスケジューリングループ、リトライ、バックオフ、状態遷移機構を実装しており、syscallではなくLLM呼び出しに向けられています。この魔法は「プロンプトエンジニアリング」から堅牢なランタイムの設計へと移行します。
このモデルは、生のLLMの向上が段階的に感じられる一方で、ハーネスの向上が飛躍的に感じられる理由を明らかにします。より優れたカーネルは重要ですが、より良いシェルはすべてのユーザーとすべてのプロセスがそのカーネルとどのように相互作用するかを変えます。Bashは、単一のCPUのアップグレード以上にUnixの使いやすさを向上させました。
したがって、開発者にとって論理的な次のステップは明らかです。エージェントを単一のアプリケーションとして扱うのをやめ、ハーネスをオペレーティング環境として扱い始めることです。私たちはもはやカーネルを呼び出すだけではなく、全く新しいクラスのソフトウェアのためのシェルを構築しています。
2026年のツールキットはここから始まります。
エージェントハーネスは、研究ブログから履歴書へと移行しています。2026年までには、「AIに強い」ということは、巧妙なプロンプトを書くことではなく、LLMを数時間集中させるハーネスを設計、デバッグ、出荷できることを意味するでしょう。ハーネス構築を2015年のReact学習や2018年のKubernetesのように考えてください:最初はオプションですが、真剣な仕事には必須となります。
具体的なシステムから始めましょう:コード補助ツールが30〜60分間リポジトリを所有するというものです。git、ファイル入出力、テストのためのツールコールを接続し、次にガードレールを追加します:状態追跡、リトライポリシー、明確な成功基準です。成功を測定するために、ハードデータを使用します:バグ修正率、PRまでの時間、そしてどのくらいの頻度で人間がエージェントを救助する必要があるかです。
あなたの主要な教科書はLangChain DeepAgentのドキュメントです。エージェントの状態、ツールのルーティング、マルチステッププランのモデル化方法を理解し、そのパターンを自分のスタックに適用してください。LangChainをインポートすることがなくても、その設計を良いOSスケジューラのソースコードを読むように扱い、「堅牢さ」の参照実装としてください。
Anthropicのエンジニアリングブログはもう一つの必読です。彼らの長時間データ分析のためのハーネスは、ジョブが数時間実行される際のメモリ、ログ、失敗モードの管理方法を示しています。彼らが作業をどのように区切り、進捗をチェックポイント化し、悪いモデル呼び出しの影響範囲をどのように制限しているかに注目してください。
GitHubにはすでに多くのブループリントがあります。コール・メリディンのリニアエージェントハーネスやアンソロピックの例を研究した後に: - 一つをフォークして自分のツールに置き換える - テレメトリーとコストトラッキングを追加する - 自分の仕事やサイドプロジェクトの実際のワークロードに合わせて強化する
将来の影響力のあるAIの仕事は、生のモデルを信頼性のあるシステムに包むことができる人々のもとに属します。もしコール・メディンが正しければ、99%のコーディングをエージェントに委任することになりますが、その場合、エージェントが動作するハーネスを設計する人が力を持つことになります。あなたは、明日のカーネルを取り囲むシェルを構築する人になることができます。
よくある質問
AIエージェントハーネスとは何ですか?
エージェントハーネスは、AIエージェントのメモリ、ツール、および状態を管理する構造化されたフレームワークであり、オペレーティングシステムにおけるカーネルをシェルが管理するのと同様に、複雑で長時間にわたるタスクを信頼性高く実行できるようにします。
ハーネスはプロンプトエンジニアリングとどのように異なるのですか?
プロンプトエンジニアリングが完璧な初期入力の作成に焦点を当てる一方で、ハーネスはLLMを中心にした運用システム全体を構築し、その実行フローを制御し、ツールを管理し、時間の経過とともにエラーを処理します。
エージェントハーネスはソフトウェア開発者を置き換えるのでしょうか?
彼らは、開発者の役割を1行ずつコードを書くことから、AIエージェントにコードを書くよう指示するシステム(ハーネス)を設計・開発することへとシフトさせ、彼らをシステムアーキテクトに引き上げる予定です。
「バイブコーディング」とエージェントハーネスは関連していますか?
はい。「バイブコーディング」—自然言語で望ましい結果を表現すること—は、ハーネスを活用することでより現実的になります。ハーネスは、高度な「バイブ」を機能的で多段階のコード実行に翻訳する信頼性を提供します。