クラウドが24時間コーディングしました。その結果は驚くべきものです。

私たちは、Anthropicの新しいAIコーディングエージェントを24時間ノンストップのコーディングマラソンで限界まで追い込みました。その結果は、ソフトウェア開発の未来に驚くべき光を投げかけています。

Hero image for: クラウドが24時間コーディングしました。その結果は驚くべきものです。
💡

TL;DR / Key Takeaways

私たちは、Anthropicの新しいAIコーディングエージェントを24時間ノンストップのコーディングマラソンで限界まで追い込みました。その結果は、ソフトウェア開発の未来に驚くべき光を投げかけています。

不可能な挑戦:AIが24時間コーディングする

Anthropicの最新のコーディング実験は挑戦のように聞こえます。Claudeを長時間稼働するエージェント「ハーネス」に接続し、スタートを押して24時間連続でコードを書かせます。コーヒーなし、休憩なし、ただAIモデルがあなたが眠っている間に膨大なソフトウェア仕様を処理し続けるのです。目的は、現代のコーディングモデルがオートコンプリートのようではなく、疲れを知らないジュニア開発チームのように振る舞うことができるかどうかを見ることです。

長いタスクは、通常、AIエージェントを退屈で予測可能な方法で壊します。数時間後、彼らはコンテキストウィンドウを圧倒し、以前の決定を忘れ、構造を幻覚したり、単にプロジェクトを「完了」と宣言しながら、半分の機能はプロンプトの中にだけ存在するという状況になります。従来のツールは状態をリセットし、スレッドの履歴を失い、人間にすべての主要なリファクタリングを見守らせる必要があります。

Anthropicのオープンソースのハーネスは、その失敗モードに真正面から取り組みます。モデルとの一方的なモノローグではなく、ハーネスは複数のエージェントを調整し、別々のコンテキストウィンドウに作業を分散させ、状態をディスクに保持します。テスト駆動型開発に基づいており、最初に数百のテストケースと詳細なアプリ仕様を定義し、その後エージェントがテストが最終的に合格するまで反復します。

コール・メディンの実験は、このハーネスを極限まで押し上げます。クロード自身のウェブアプリの動作するクローンを作成するための24時間コーディングマラソンで、プロジェクト、会話、成果物、ファイルアップロードをすべて含みます。このハーネスはイニシャライザーエージェントを起動し、約200以上の詳細なテストケースを持つ機能リストを生成し、プロジェクトの足場を作り、最初からGitを接続するため、すべての変更が記録されます。その後、コーディングエージェントが数時間にわたってサイクルを繰り返し、それらのテストに対して機能を実装し、修正します。

YouTubeのスペクタクルとして表現されたこの映像は、エージェンティックコーディングの真剣な未来を予感させます。長期にわたって活動するAIエージェントが、静かにMVP、バックグラウンドプロトタイプ、そしてフルUIシェルを一晩で構築することで、数週間のセットアップを一日で圧縮することが可能です。この24時間というスタントは、AIをチャットボックスとして扱うのをやめ、プロセスとして扱い始めたときに何が起こるかを示しています。

AIスタミナバリアの突破

イラスト:AIスタミナの限界を突破する
イラスト:AIスタミナの限界を突破する

スタミナ、つまり生のIQではなく、静かにほとんどのAIコーディング実験を失敗に導きます。長期間動作するエージェントは漂流し、自らの計画を書き換えたり、文脈ウィンドウが中途半端なコードや迷走する指示で埋まると「終わりにする」と決めたりします。Anthropicのセットアップは、その失敗モードに直接対処します。それは、エージェントが忘れてしまうことを記憶するハーネスです。

スマートな新しいエージェントではなく、ハーネスは通常のClaude Codeセッションを囲むコーディネーションレイヤーとして機能します。それは、実行の数時間にわたってファイル、タスク、テスト結果を追跡し、1つのスレッドがあまりにも膨らんで一貫性を失ったときに新しい会話を立ち上げます。各新しいセッションは、過去のすべての混沌としたトランスクリプトではなく、重要なことの抽出されたスナップショットから始まります。

大規模なプロジェクトは構造化されたタスクリストに変わります。スタート地点はプレーンテキストのアプリ仕様書やPRDで、それを基に数百の小さくテスト可能な動作を含む機能リストに展開します。コール・メディンの実行では、単一の仕様書から事前に生成されたClaude.aiスタイルのクローン用の200以上のテストケースをターゲットにしました。

その機能は曖昧な箇条書きとして存在するのではなく、説明、影響を受けるファイル、特定の受け入れ基準といったフィールドを持つJSONオブジェクトになります。その後、ハーネスは1つの機能を選び、関連するコンテキストをClaudeに提供し、そのシステムの一部分を実装または修正するよう依頼することができます。

24時間のメガチャットの代わりに、システムは数十または数百の集中した「スプリント」を行います。各スプリントは、短期間のエージェントセッションで、狭い目標を持っています:コンポーネントを追加する、APIコールを接続する、テストを通過させるなどです。コンテキストウィンドウが詰まり始めると、ハーネスはそのセッションを閉じ、現在のリポジトリの状態とタスクリストを元に新しいセッションを立ち上げます。

状態はディスクとGitに存在し、モデルのメモリには存在しません。ハーネスは以下に依存しています: - コードベース自体 - 機能リストのJSON - 増加するテストスイートとログ

状態を外部化することで、ハーネスは不安定で忘れっぽいエージェントを、より決定論的なビルドパイプラインのように振る舞うものに変えます。これにより、プロジェクトの筋を保ちながら24時間コーディングを続けることができます。

ミッション:Claude.aiをゼロからクローンする

クロードの24時間ミッションは、非常に明確な指示を含んでいた:人間の補助なしで、Claude.ai ウェブアプリをゼロから再構築すること。おもちゃのチャットボックスではなく、何百万ものユーザーが毎日アクセスするインターフェースの機能的なクローン。核心となるフローは同じで、洗練された感覚も同様で、完全にAIによって書かれたコードでエンドツーエンドで動作する。

それは、完全な会話の表面積を再現することを意味します。エージェントは、メッセージ履歴、サイドバーのスレッド、および異なるプロジェクトへの適切なルーティングを伴った持続的な会話管理を確立する必要がありました。また、スタブではなく、実際のファイルアップロードと添付ファイルも必要でした。ドキュメント、コード、およびPDFを処理し、それらがモデルに流入し、UI内の参照として再び流出する必要がありました。

さらに、コール・メディンの仕様書では、プロジェクトレベルの組織とクリーンでモダンなフロントエンドが求められていました。クローンには以下が必要です: - プロジェクトの作成と切り替え - プロジェクトごとのグループ化された会話 - 「アーティファクト」またはリッチな出力のサポート - ライトなUXクロームを持つレスポンシブなクロードスタイルのレイアウト、従来のBootstrapではなく

これは、長年のエージェントが得意とすべきまさにそのようなタスクです:フロントエンドのReactやNext.jsの作業、バックエンドのAPI接続、そして状態を一貫させるためのグルーコードが密に混ざり合っています。これにより、Claudeはルーティング、認証、永続性、UIの状態を juggling しつつ、人間が理解できるプロダクト仕様に沿った形を維持する必要があります。単一のプロンプトではそれをカバーすることはできません。作業を分解し、何度もコンテキストを再訪するシステムだけが可能性を持っています。

Anthropicの「長期間にわたるエージェントのための効果的なハーネス」記事は、Claude.aiスタイルのクローンを例として使っており、数百のテストとマルチエージェントワークフローを備えています。理論上、ハーネスは初期化エージェントとコーディングエージェントを調整し、足場を立ち上げ、200以上のテストケースを処理してアプリが合格するまで実行します。YouTubeでは、その光沢のある図が厳しい疑問に変わります。同じセットアップで実際に24時間以内にClaude.aiクローンを人間の編集なしで出荷できるのか、それともブログ記事は密かに手動調整と選んだスクリーンショットに頼っていたのか?

その賭けは、これを単なる珍しい基準以上のものにします。ハーネスとクロードが本当に生産に近いクロード.aiクローンを無人で構築できるなら、これは「新しいアプリを始める」ということが仕様を作成し、実行を押し、翌朝には稼働中のSaaSスケルトンに戻ることを意味する近い未来を示唆しています。

アーキテクト:イニシャライザーエージェントに出会う

イニシャライザーエージェントは、プロジェクトのチーフアーキテクトの役割を果たしますが、エゴはゼロで無限の忍耐力を持っています。これはAnthropicのハーネスが最初に立ち上げるプロセスであり、その後のすべてはその作業の質によって生きるか死ぬかが決まります。単一の機能がコーディングされる前に、このエージェントはアプリ仕様書とともに座り—Claude.aiクローンの擬似PRD—それを完全に構造化された計画に変えます。

その仕事はシンプルに聞こえます。「要件を分析し、プロジェクトを設定する。」しかし実際には、それは数ページのテキストを、他のエージェントが24時間連続して迷わずに従える機械可読の設計図に変換することを意味します。デバッグやUIの洗練、リファクタリングは不要—ただの設定です。

ハーネスは、イニシャライザーエージェントに対して、全体のビルドを定義する4つのコアアーティファクトを作成させます。

  • 1200以上の詳細なテストケースを含むフィーチャーリストJSON
  • 2プロジェクトを立ち上げるための初期化スクリプト
  • 3フルスタック用のボイラープレート コードスキャフォールディング
  • 4新しく初期化されたGitリポジトリ

その機能リストJSONは、静かに最も重い作業をこなします。これは、Claude.ai クローンスペックを数百の小さく、検証可能な振る舞いに分解します:新しい会話の開始、ファイルのアップロード、プロジェクトの切り替え、アーティファクトのレンダリング、空の状態の処理などです。各テストケースは、後のコーディングエージェントのターゲットとなり、AIネイティブなテスト駆動開発の一種を確立します。

初期化スクリプトは環境を統合し、将来のエージェントがセットアップステップを再考するのにトークンを浪費しないようにします。それは、フレームワークの選択、パッケージマネージャー、開発コマンドなどの決定をエンコードします。たとえば、`npm install`、データベースのブートストラップ、`npm run dev`の同等のコマンドを一つの再現可能なエントリーポイントにまとめて表現しています。

スキャフォールディングは、コーディングエージェントにコードベースの地図を提供し、コンポーネントに触れる前に全体像を把握させます。フロントエンド、バックエンド、APIルート、共有ユーティリティ用の事前定義されたディレクトリに加え、ルーティング、状態管理、Claudeのチャット、アーティファクト、ファイル処理のための統合ポイントを示すプレースホルダーファイルが用意されています。

Gitは最終的に譲れない重要な要素です。Initializer Agentは新しいリポジトリを作成し、バージョンの履歴を一行目から確立するため、次のエージェントは安全にコミット、差分、ロールバックが可能です。長時間にわたるエージェントによるコーディングシステムでは、その履歴が24時間のセッションが混乱に陥るのを防ぐ唯一のものです。

コーディングループの容赦ない論理

イラスト:無慈悲なコーディングループの論理
イラスト:無慈悲なコーディングループの論理

コーディングは、その主力であるコーディングエージェントに依存しています。イニシャライザーエージェントが設計図を描いた後、このエージェントは容赦ないループに入り、新しいコンテキストウィンドウで目を覚まし、プロジェクトの状態を再確認し、機能を一つずつ進めていきます。雑談やブレインストーミングはなく、テスト、編集、コミットの厳密なフィードバックサイクルだけです。

中央には厳格なテスト駆動開発 (TDD)の discipline が位置しています。一行の生産コードが変更される前に、システムはすでに巨大な機能リスト JSON を通じて「完了」の姿を知っています。これはしばしば200以上の詳細なテストケースを伴っています。コーディングエージェントの仕事は創造的であることではなく、そのテストが成功するようにすることです。

各ループは、エージェントが進捗アーティファクトをロードすることから始まります。これは、どの機能が存在し、どのテストが合格し、最近何が壊れたかを追跡する構造化されたファイルです。そこから、優先度と依存関係に基づいて次のターゲットを選びます。たとえば、「プロジェクトに複数のファイルをアップロードをサポートする」や「アーティファクトと一緒に会話の履歴を表示する」といった具合です。この選択はプロンプト内で行われますが、それを指導する状態はディスク上に保存されています。

コードベースに触れる前に、エージェントは完全な回帰テストスイートを実行します。つまり、すべてのイテレーションは、これまでに構築されたすべてを再検証することから始まり、後になって数時間後に回帰を見つけるのではなく、即座に回帰をキャッチします。以前に合格したテストが失敗した場合、エージェントは新しいものを追加する前にその修正に取り組みます。

回帰テストが通過した後でのみ、エージェントは新機能を実装します。それはソースファイルを編集し、コンポーネントを更新し、APIハンドラーを調整し、同じツールインターフェースを通じてUIの動作を接続します。次にテストを再実行し、新しいケースが通過するか、設定された試行回数の限界に達するまで繰り返します。

機能が動作すると、ハーネスはエージェントに記憶を外部化させます。実装された機能、現在合格しているテスト、既知の制限、および次の論理的ステップの詳細で進捗ファイルが更新されます。このファイルは次のセッションのためのコンパクトで機械可読の変更履歴となります。

すべてのループはGitコミットで終了します。このハーネスはGitを単なる付随的なものではなく、コアメモリの基盤として扱います:差分は次のCoding Agentインスタンスに何が変わったかを正確に知らせ、コミットメッセージは意図を要約し、履歴は重大なミスから守ります。進捗ファイルと組み合わせることで、これらのコミットは全く新しいコンテキストウィンドウに18時間の作業を「記憶」させ、コードベース全体を再読することなく保持します。

CLIを超えて:SDKの力

Claude Codeのようなコマンドラインツールは力強く感じられますが、この24時間の実験はそれを静かに回避します。CLIに出費する代わりに、ハーネスはPythonのClaude Agents SDKを通じてClaudeに直接話しかけ、このモデルを高級な端末コマンドではなく、一級のソフトウェアコンポーネントとして扱います。

Anthropicのハーネスはエージェントを起動し、作業をスケジュールし、SDKコールを通じてgitの状態を検査します。Pythonプロセスがすべてを調整します:セッションの作成、ツールコールのストリーミング、ファイルの読み書き、さらにはエージェントが停止した際の再起動まで行います。実行が始まったら、人間が`claude code`をプロンプトに入力することは決してありません。

直接SDKアクセスにより、モデルの選択が再構築ではなく設定の詳細となります。同じハーネスが以下を呼び出すことができます: - コスト効率の良い反復のためのClaude Sonnet 4.5 - より複雑なリファクタリングのためのClaude Opus 4.5 - 互換APIを介してCode LlamaやGPTスタイルのコーダーなどのサードパーティモデル

モデルのスワッピングは、クライアント初期化子の1行の変更になるだけで、全く新しいワークフローではありません。ハーネスはすでに「クロード」を抽象として扱っています:ツール、コンテキスト、そして契約を持つコーディングエージェントです。その下では、その契約はJSONを話し、プロトコルを尊重する任意のモデルを指すことができます。

これがSDKがエージェンティックコーディングの本当の未来に見える理由です。CLIは、迅速な単発の修正やインタラクティブなデバッグには優れていますが、持続的なステート、バックグラウンドジョブ、またはエージェント間の調整が必要になると機能しなくなります。このような長期実行システムは、ログ、リトライ、メトリクス、セキュリティコントロールのためのプログラム的なフックを活用します。

Anthropicの独自の自律コーディングクイックスタート - Anthropic GitHubリポジトリは、この前提を組み込んでいます。このリポジトリはPython、プロンプト、エージェントSDKを使った配線のみで構成されており、全体的に開発ツールというよりは、ソフトウェア作成のための拡張可能なマイクロサービスのように感じられます。

24時間AIコーダーを運営する方法

自分自身の24時間稼働するClaudeコーダーを運営するには、GitHubのAnthropicのオープンソースハーネスから始めます。claude-quickstartsリポジトリにある自律コーディングのクイックスタート、特に`autonomous-coding`ディレクトリに移動し、ローカルにクローンしてください。すぐに使えるスキャフォールドが用意されています:プロンプト、エージェントの配線、長時間稼働するClaudeコーディングエージェントを起動するためのスクリプトです。

セットアップはおもちゃのデモというよりも、開発ツールチェーンの構成に近いです。依存関係(Python、Node、およびプロジェクトパッケージを `npm install` または `pnpm install` でインストール)をインストールし、環境変数を `.env` ファイルに落とし込み、ハーネスをあなたのClaudeの認証情報に向けます。このリポジトリにはClaude.aiクローンのためのサンプル構成が付属しているため、大部分を調整するだけで済み、新たに考案する必要はありません。

コスト管理が目立たない重要な機能となります。コール・メディンは動画からの重要なトリックを指摘しています:メーター制のAPIキーの代わりに、クロードのサブスクリプショントークン(ブラウザがクロードコードのために使用するものと同じ)を使用してください。これを従量課金のキーに接続し、24時間稼働させると、三桁または四桁の請求書に目覚めるリスクがあります。

プロセスを開始するには、リポジトリのルートからの単一のコマンドが必要です。例えば:

- `python main.py --app-spec=app_spec.txt`

エンターを押した後、10〜20分の間、特に興奮することは起こりません。それが、初期化エージェントが静かに200以上のテストケースを生成し、プロジェクトのスキャフォールディングを行い、初期化スクリプトを書き、可視のUIが表示される前にGitリポジトリをブートストラップしているからです。

すべてはあなたのアプリ仕様ファイルに依存しています。Anthropicのハーネスは、ページ、フロー、エッジケース、役割、非機能要件を詳述した厳密なPRDスタイルのテキストファイルを期待しています。あいまいな「チャットアプリのクローン」という段落を渡せば、あいまいな製品が生まれます。

Claude.aiクローンの強力なアプリ仕様書は、人間のチームに渡すような内容になります:URL構造、会話ステート、ファイルアップロード制限、アーティファクトの動作、キーボードショートカット、エラーコピー、さらには空の状態デザインまで含まれます。初期化エージェントはこれを詳細なテストに展開し、仕様書内のあいまいな文は12時間後にはあいまいまたは欠落した機能へと変わります。

ガントレットが始まる:クロードが解き放たれる

イラスト: ガントレットの始まり: クロードの解放
イラスト: ガントレットの始まり: クロードの解放

真夜中が訪れ、コマンドが実行され、ハーネスは静かにセットアップから実行に切り替わる。イニシャライザーエージェントは最初のセッションを立ち上げ、アプリ仕様を取り込み、約200の詳細なテストケースを含む広範なfeature_list.jsonを生成し、初期のNext.jsスタイルのスキャフォールディングと新しいgitリポジトリを接続する。そのアーティファクトを書き込むと、制御は作業馬であるコーディングエージェントループに引き渡される。

あなたのターミナルは普通の開発コンソールのようには見えなくなり、エイリアンのペアプログラマーからのライブシステムログのように読み込まれ始めます。ツールコールが数秒ごとにストリームされます:`read_file`、`write_file`、`run_tests`、`git diff`、`git commit`。あなたは `app/`、`components/`、および `lib/` というディレクトリが、最初の `npm start` の後、あなたからのプロンプトなしにClaudeによって書かれたTypeScript、Reactコンポーネント、APIルートハンドラーで満たされていくのを見守ります。

出力ラインは人間が維持できないペースで積み重なります。ある瞬間、エージェントはプロジェクト用のサイドバーを構築し、次の瞬間には会話のスレッドを接続し、その後はアーティファクトパネルで不安定なテストを修正します。ハーネスはセッションを小さく保ち、コンテキストを回転させ、新しいコーディングエージェントの実行を立ち上げながら、ファイルシステム、git履歴、機能リストのJSONを通じて状態を保持します。

手は設計上キーボードから離れている。承認ボタンはなく、手動での再試行もなく、途中のプロンプトの調整もない。`node run_harness.mjs`を開始すると、システムは次の24時間を管理する:計画、コーディング、テストの実行、コードのコミット。人間の活動は、スクロールを見守り、機械が壊れないようにシステムのメトリクスを時折確認することだけである。

ほとんどすべてのアクションにおいてセキュリティと検証が重要です。このハーネスはシェルコマンドをラップし、危険なものをブロックし、ファイルの書き込みをプロジェクトディレクトリに制限し、PuppeteerをMCPサーバー経由で使用して、ヘッドレスブラウザでClaude.aiクローンを視覚的に確認します。エージェントは次のことができます:

  • 1開発サーバーを起動する
  • 2Chromiumでローカルホストを開く
  • 3プロジェクト、会話、ファイルアップロードをクリックして参照する
  • 4レンダリングされたUIをその仕様およびテスト期待と比較してください。

各Puppeteerパスはループに戻り、別の信号となります:アプリは実際に正しく動作したのか、それとも次のコミットでUIの半分を取り除いて書き直す必要があるのか?

最終判決:AIが24時間で構築するもの

24時間と数百のエージェントサイクル後、クロードは何かリアルなものを持って現れた:動作するフルスタックの Claude.aiスタイル ウェブアプリ。おもちゃでも静的なモックアップでもなく、Reactのフロントエンド、APIバックエンド、そしてビルドを駆動する同じハーネスに接続されたテストスイートが含まれている。コール・メディンは、それを通常のSaaS製品のようにビデオでスクロールして見せている。機能的には、それと同じものなのだ。

視覚的には、クローンは驚くほど近くに着地します。サイドバーのレイアウト、チャットスレッド、プロジェクトリスト、そして全体的なClaudeの美学がすべて現れています:明るく、クリーンで、親しみやすいです。会話を開始したり、名前を変更したり、常に表示される履歴パネルにそれらが表示される様子を見ることができます。

コアインタラクションも機能します。アプリはクロードにメッセージを送り、応答をストリーミングし、会話の中でコンテキストを保持します。ファイルアップロードは基本的な使用ケースに対応しており、チャットにドキュメントを添付したり、UIに表示したりしますが、大きなファイルや異常なファイルに関するエッジケースではまだ問題が発生します。

アーティファクト、クロードの特徴的な「インラインアプリ」機能が部分的に登場します。クローンはシンプルなアーティファクトをレンダリングし、専用のパネルに表示し、会話にリンクさせておくことができます。しかし、より高度なフロー—複数アーティファクトのセッションや、複雑な状態管理ツール、アーティファクトのその場での編集—は静かに失敗するか、一貫性を欠いた動作をします。

プロジェクト管理は中間の位置にあります。ハーネス駆動エージェントは次のことを実行します: - プロジェクトの作成と削除 - プロジェクトへの会話の割り当て - プロジェクトごとのチャットの基本的なフィルタリング

しかし、バルク操作、堅牢な検索、およびプロジェクト間のビューは依然として不安定であったり、欠如しており、しばしば未実装のボタンや機能しないUI状態として現れます。

内部では、テスト駆動戦略が成果を上げています。約200件以上生成されたテストケースの大部分は、24時間の終わりまでに通過し、失敗は主に高度なUXの調整や難解なエラーハンドリングに集中しています。ハーネスは、進捗が停滞するまで循環し続け、クロードが「疲れた」ときや終了を決定したときではありません。

メディンはこのハーネスを「本物」とカメラの前で語り、その言葉は誇張のようには感じられない。彼は、これはまだ生産グレードのエンジニアリングではないと強調しつつも、エージェントによるコーディングが複雑で多機能なウェブアプリを1日で自律的に構築できることの証明として、デモは強いインパクトを持っている。アンスロピックの長期エージェントや、Introducing Claude Opus 4.5 - Anthropicで詳述されたクロード・オーパス4.5の進展と組み合わせると、得られる結論は明確である:このワークフローは初期段階だが、すでに機能している。

あなたの新しいAI同僚が明日出社します。

あなたの現在の「AIペアプログラマー」は、すぐに古臭く感じるでしょう。Anthropicのオープンソースエージェントハーネスのような長期間運用されているハーネスは、Claudeのようなモデルを、おしゃべりなアシスタントから、リファクタリングの途中で話が脱線することなく、24時間以上バックログを静かに処理する背景作業者に変えます。

プロンプトウィンドウを監視する代わりに、エージェントにPRD、リポジトリ、テストスイートを渡し、その後、動作するプロトタイプに戻ることができます。コール・メディンのClaude実験はこれを具体的に示しています:ハーネスで調整されたClaude CodeインスタンスがClaude.aiスタイルのインターフェースを構築し、プロジェクトや会話を接続し、1日を通じて数百のテストを繰り返します。

開発者にとって、これは珍しいものとは言えず、新たなインフラの階層のように見えます。エージェントを以下のように考えてみてください: - 一晩でプロトタイプを構築するビルダー - 継続的にリファクタリングを行うデーモン - テスト生成とカバレッジを行うボット - ドキュメント作成と移行を手助けするアシスタント

これらのシステムの1つに24時間と200以上のケースの機能リストを与えれば、あなたが眠っている間に忠実にグリーンチェックを追いかけるでしょう。

これらのどれも「本番稼働準備完了」という感じではありません。Anthropicのクイックスタートリポジトリにあるハーネスは実験的で、信頼性のないテストに対して脆弱であり、他のLLMと同様に幻覚を引き起こす可能性があります。しかし、それがエンコードしている戦略—テスト駆動のプロンプト、厳格な成功基準、真実の源としてのGit、マルチエージェントの調整—は、実際のAIシステムを強化する方法に直接結びついています。

これらのパターンをすでにスタックに取り込むことができます。初期化エージェントを使用して仕様、スキャフォールディング、およびテストを生成し、コーディングエージェントを特定のディレクトリのみを変更するように制約し、CIを接続してマージ前に同じハーネス駆動のチェックを実行するようにします。各ステップは、あなたのAIヘルパーをオートコンプリートのようなものから、あなたのパイプラインに付随する決定論的な作業者のように変えていきます。

エージェント工学は「ソフトウェアを書く」という意味を変えてしまうでしょう。人間のエンジニアはアーキテクチャ、制約、レビューゲートを定義し、特化したエージェントたちの群れが実装、テスト、統合を何十時間にもわたってこなします。Claudeクローン実験は、その未来の粗いスケッチです。コードベースはキーストロークによってではなく、疲れを知らず、テストに執着する協力者たちの大軍を orchestration することによって形成されていくのです。

よくある質問

長期稼働エージェントのためのアンソロピックハーネスとは何ですか?

それはオープンソースのコーディネーションレイヤーであり、AIコーディングエージェントが複雑なタスクに対して長時間(数時間または数日)作業できるように、コンテキストウィンドウを管理し、作業をより小さくテスト可能なチャンクに分割します。

このハーネスは、クロード以外のモデルでも使用できますか?

はい。このハーネスはモデルに依存しません。プロンプトとアーティファイルのシステムであるため、クライアントSDKを調整することでClaude CodeをOpenAIやオープンソースの代替モデルに置き換えることができます。

この自律コーディングシステムは、商用利用の準備が整っていますか?

いいえ、これはまだ非常に実験的です。実際のアプリケーションを構築するためというよりは、迅速なプロトタイピング、概念実証の生成、エージェント技術の未来を探ることに最適です。

ハーネスはどのようにコンテキストウィンドウの制限を回避しますか?

各コーディングエージェントセッションのために、新しく新鮮なコンテキストウィンドウを作成します。エージェントは、進捗概要、機能リスト、既存のコードベースなどのコアアーティファクトファイルを読むことで進捗を把握し、次の詳細なタスクに必要な関連コンテキストのみを取得することを確実にします。

🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts