Skip to content

AIコーダーにはハーネスが必要

Anthropicは、大規模なコードベースでのコーディングにおいて、AIモデル自体よりもAIを取り巻くツールが重要であることを明らかにしました。これは、その「ハーネス」を構築し、AIエージェントを実際に効果的にするためのプレイブックです。

Stork.AI
Hero image for: AIコーダーにはハーネスが必要
💡

要約 / ポイント

Anthropicは、大規模なコードベースでのコーディングにおいて、AIモデル自体よりもAIを取り巻くツールが重要であることを明らかにしました。これは、その「ハーネス」を構築し、AIエージェントを実際に効果的にするためのプレイブックです。

ハーネスは新たな流行

標準的なAIコーディングエージェントは、現実世界のコードベースの広大な複雑さに直面すると、一貫して失敗します。その能力を謳われることが多いこれらのシステムは、数万から数十万行のコードを持つ環境では劇的に機能不全に陥り、複雑なアーキテクチャやレガシーシステムをナビゲートするために必要な重要なsituational awarenessを欠いています。単純なプロジェクトで効果的な戦略はすぐに不十分であることが判明し、自律的な運用における根本的な限界を露呈します。

Anthropicは最近、この課題に関するMasterClassを開催し、強力な中心命題を主張しました。それは、AIエージェントを取り巻くハーネスが、基盤となる大規模言語モデル(LLM)自体の生来の力よりも重要であるということです。ツール、コンテキスト、構成からなるこのエコシステムが、ベンチマークスコアだけでなく、エージェントの成功を決定します。数百万行のmonoreposやdistributed systems全体でエージェントが効果的に動作できるように、エージェントを導く適切な環境をキュレートすることが重要です。

この不可欠なハーネスは、現代のコードベースにおける新しい、本質的な第三のコンポーネントを構成し、適切にAI Layerと名付けられています。これは従来のアプリケーションコードとその関連テストと並存し、agentic systemsのための明示的なガイドとして機能します。AI Layerは、グローバルルール、パススコープスキル、self-improving hooks、およびModel Context Protocol (MCP)サーバーなどの要素で構成されており、これらはすべて、エージェントが複雑なタスクを確実に実行するために必要な構造化されたコンテキストを提供するように設計されています。

**AI Layer**のアーキテクチャ設計

効果的なAI Layerのアーキテクチャ設計は、`claude.md`ファイルに代表されるLean & Layeredルールシステムから始まります。ルートレベルの`claude.md`ファイルは、グローバルなコンテキスト(コードベースの主要な目的と全体的な慣習)を確立します。その後、サブディレクトリの`claude.md`ファイルは、段階的に開示されるスコープ付きルールを導入し、エージェントに特定のモジュールや機能に関連するローカライズされた慣習を提供し、不要な詳細で圧倒することはありません。この階層構造により、コンテキストは常に正確で管理可能であることが保証されます。

静的なルールを超えて、動的な機能が重要です。Path-Scoped Skillsは、エージェントに専門的なツールを装備させ、特定のコードベース領域内でターゲットを絞ったアクションを可能にします。これを補完するのが、効率的なシンボル検索システムであるModel Context Protocol (MCP)です。MCPは、エージェントが広大なコードベース全体で定義、使用箇所、関係を迅速に特定することを可能にし、エンジニアがIDEで複雑なプロジェクトをナビゲートする能力を反映させ、ナビゲーション効率を大幅に向上させます。

このインテリジェントなレイヤー化を、一般的なアンチパターンである単一の巨大なプロンプトファイルと比較してください。このアプローチは、可能なすべてのコンテキストを1つのドキュメントに詰め込もうとするもので、しばしば数千行にも及びます。このようなモノリシックなプロンプトは、最も有能なLLMでさえも圧倒し、パフォーマンスを低下させ、推論コストを増加させ、エージェントを人間のエンジニアよりも効果的にしないでしょう。AnthropicのMasterClassは、大規模なコードベースにおけるエージェントの成功を決定するのは、単なる量ではなく、キュレーションされたレイヤー化されたコンテキストであることを強調しています。

静的なルールから生きるシステムへ

静的な`claude.md`ファイルを超えて、効果的なAI Layerは動的で自己改善型のアーキテクチャを要求します。静的なガイドラインを生きるシステムに変えるために、self-improving hooksを実装してください。具体的には、`stop hooks`はエージェントのセッションをレビューし、非効率性や一般的なエラーを特定し、プロジェクトのルールファイルへの更新を自動的に提案することで、エージェントの将来の行動を洗練させ、継続的な最適化を保証できます。

これを補完するものとして、`start hooks` は重要な動的コンテキストを提供します。エージェントがタスクを開始する前に、`start hook` は開発者のチームや編集中の特定のモジュールに基づいて Confluence から関連ドキュメントを取得できます。これにより、エージェントのコンテキストが事前に入力され、最も適切でリアルタイムな情報から開始することが保証されます。これらの洗練されたエージェントハーネスを構築するための Anthropic の洞察は、彼らのガイド How Claude Code works in large codebases に詳しく記載されています。

複雑なタスクの場合、サブエージェントは集中的な実行のための強力な戦略を提供します。広範な探索や専門的な分析で主要なコーディングエージェントを圧倒する代わりに、サブエージェントは特定の複雑な問題を処理するために派遣できます。これらの専門的なエンティティは次のことを行う可能性があります。 - レガシーコードアーキテクチャを深く分析する。 - 新しいAPIドキュメントを探索する。 - 包括的な単体テストスイートを生成する。 この区分化により、メインエージェントはコア実装に集中でき、大規模な実世界のコードベースにおける効率と精度を大幅に向上させます。その結果、より堅牢で適応性があり、高性能なAIコーディングアシスタントが生まれ、多様なプロジェクト全体でそのアプローチを一貫して学習し最適化します。

プロンプトを止めて、エンジニアリングを始めよう

AIコーディングに「プロンプトのささやき」や「雰囲気コーディング」でアプローチするのはやめましょう。LLMにただ最善を期待する時代は終わりました。代わりに、予測可能でスケーラブルな結果を得るための堅牢なシステムを構築する、ハーネスエンジニアリングという意図的な考え方を採用してください。Anthropicの最近のMasterClassは、重要な洞察を確認しました。モデルを取り巻くハーネス、つまりリポジトリ内のAIコンテキストとツールは、モデル自体よりも重要です。

このエンジニアリングアプローチは、大きな利点をもたらします。プロジェクトはより高いAIの自律性を獲得し、より信頼性の高いコード生成を実現し、些細なタスクを超えて進むことができます。このような構造化されたAI Layerは、数百万行のモノレポ、数十年前のレガシーシステム、数十のリポジトリにまたがる分散アーキテクチャを含む複雑な環境で、エージェントが効果的にナビゲートし貢献することを可能にします。社内では、Claude Codeを使用するAnthropicのエンジニアは、3倍多くのコードを出荷し、31%多くのプルリクエストをマージしており、具体的な生産性向上を示しています。

今日からエージェントエンジニアリングの旅を始めましょう。リポジトリのルートにシンプルな `claude.md` ファイルを作成し、初期のグローバルコンテキストを確立します。サブディレクトリに階層化されたルールを追加し、自己改善型のストップフックを実装することで、この基盤を段階的に拡張します。この反復プロセスにより、プロジェクトのオーダーメイドのAI Layerが徐々に構築され、開発ワークフローが変革されます。

よくある質問

AIエージェントハーネスとは何ですか?

AIエージェントハーネスとは、AIモデルが大規模なコードベースのような特定の環境で効果的に動作するのを助けるために、AIモデルを取り巻くコンテキスト、ツール、および構成の集合体です。それはモデルの周りに構築されたエコシステムです。

なぜハーネスはモデルよりも重要なのでしょうか?

複雑なコードベースでは、生のモデルインテリジェンスだけでは不十分です。ハーネスは、重要なスコープ付きコンテキストを提供し、ルールを定義し、モデルを導く専門ツールを提供することで、モデルが迷子になったり、重大な間違いを犯したりするのを防ぎます。

エージェント検索とは何ですか?

それは Claude Code がリポジトリを探索する方法です。事前に構築されたインデックス(RAGのような)を使用する代わりに、`grep` のようなコマンドラインツールを使用してファイルシステムをナビゲートし、人間の開発者と同じようにコードの構造を理解します。

自己改善型フックはどのように機能しますか?

AIセッションの開始時または終了時に実行されるスクリプトです。例えば、「ストップフック」はセッションのアクションを分析し、プロジェクトのルールファイル(claude.md)の改善を提案することで、時間の経過とともにシステムをより賢くすることができます。

One weekly email of tools worth shipping. No drip funnel.

one email per week · unsubscribe in two clicks · no third-party tracking

🚀もっと見る

AI最前線をキャッチアップ

Stork.AIが厳選したAIツール、エージェント、MCPサーバーをご覧ください。

P.S. 使えるものを作りましたか? Storkに掲載 — $49

すべての記事に戻る