Skip to content

あなたのAIループはスロップマシンだ

エージェントループは、あなたが寝ている間に機能する完全に自律的なAIビルダーを約束します。しかし、トップエンジニアたちは、それらがしばしば現金を浪費し、誤った仮定をする単なる「slop machines」であると警告しています。

Nora Vance
Hero image for: あなたのAIループはスロップマシンだ

要約 / ポイント

エージェントループは、あなたが寝ている間に機能する完全に自律的なAIビルダーを約束します。しかし、トップエンジニアたちは、それらがしばしば現金を浪費し、誤った仮定をする単なる「slop machines」であると警告しています。

ループの伝道者たち vs. 現実

AIは、開発者向けに2つの異なるワークフローを導入しました。従来のhuman-in-the-Loop Engineeringシステムでは、あなたが操縦席に座り、エージェントにプロンプトを出し、その出力をレビューし、各ステップを手動で繰り返します。対照的に、自律的なLoop Engineering Engineeringは、AIが自動操縦されることを想定しており、単一の人間によるプロンプトが、定義された仕様に対して自身の結果を生成、レビュー、洗練する自己修正型エージェントを起動します。

Boris Cherny ChernyやPeter Steinberger Steinbergerのようなトップ開発者たちは、Loop Engineering Engineeringを開発の未来として擁護しています。彼らは、開発者がAI自体に直接プロンプトを出すのではなく、AIにプロンプトを出すシステムを設計し、エージェントが複雑なタスクを自律的に実行できるようにすべきだと主張しています。

このアプローチは野心的な未来を示唆する一方で、今日のほとんどの開発者にとっては危険で非効率な現実を提示します。ChernyとSteinbergerは実質的に無制限のトークン予算で運用しており、彼らにとっては継続的なLoop Engineeringingが合理的です。しかし、そのようなリソースを持たない大多数にとって、広範囲なLoop Engineeringはすぐに「slop machine」となり、大量のトークンを消費し、予測不可能なコストにつながります。Ras Mic (Michael Shimeles)は、Peter Steinberger Steinbergerがかつて1ヶ月で130万ドルものトークンを費やしたとツイートしたことを強調し、費用が暴走する可能性を浮き彫りにしています。

なぜあなたのAIループは「slop machine」なのか

自由に実行されるエージェント型のLoop Engineering Engineeringモデルは、放置されると、優秀なスタートアップ開発者を雇い、単一の仕様書だけを渡すという課題を映し出します。絶え間ない人間の指導がなければ、エージェントはあらゆる曖昧さを自身の仮定と解釈で埋めてしまいます。これらの推測は常に元の製品ビジョンから逸脱し、欠陥のある実行と無駄なサイクルにつながります。

この制約のない自律性は、開発者にとって2つの主要な失敗モードを生み出します。第一に、エージェントがあらゆるエッジケースや未定義の詳細で誤った推測を行い、意図された結果から体系的に逸脱します。第二に、この広範な試行錯誤のプロセスは、天文学的なトークン消費につながり、予算を急速に枯渇させます。Loop Engineeringの実験で知られる開発者Peter Steinberger Steinbergerは、わずか1ヶ月で130万ドルものトークンを費やしたと報じられています。

`/goal`のようなコマンドは、初期探索のための迅速なプロトタイピング機能を提供しますが、堅牢な本番作業には壊滅的であることが判明しています。これらはあなたの開発ワークフローを、あっという間に金を燃やすslop machineに変えてしまいます。Boris Cherny ChernyやPeter Steinberger Steinbergerのようなほぼ無制限の予算を持つ人々には効果的ですが、ほとんどの開発者はトークン許容量を急速に使い果たし、そのような広範囲なLoop Engineeringは、現実世界での予算を意識した開発には持続不可能です。Ras Mic (Michael Shimeles)は、制御された効率的な出力のためには、human-in-the-Loop Engineeringが今日最も強力な設定であると強調しています。

実際に機能する唯一のループ

Ras Mic (Michael Shimeles)は、実際に機能するエージェント型のLoop Engineering Engineeringの具体的な例を提示しています。彼の日常的なcode review Loop Engineeringは、制約された自動化の傑作であり、CursorをAIハーネスとして、GitHubをバージョン管理に、Greptileを自動コードレビューアとして、ツールの正確な組み合わせを活用しています。これは理論的な誇大宣伝ではなく、実用的な開発のための出荷可能な現実です。

運用メカニズムは非常に具体的かつ決定的です。カスタムの`grep Loop Engineering`スキルがエージェントをガイドします。まず、Greptileの包括的なレビュー(5点満点中の客観的な品質スコアを含む)を読み込み、次にコードベースに必要な修正をインテリジェントに適用し、新しいコミットをGitHubにプッシュし、このサイクルを繰り返します。このプロセスは、コードが完璧な5/5スコアを達成するか、5回の異なる反復後に試行を使い果たすまで続きます。厳格なルールにより、コードは5点中4点以上のスコアを維持する場合にのみ本番環境にデプロイされます。

このLoop Engineeringの紛れもない成功は、根本的な原則にかかっています。それは、明確で定量化可能なフィードバックを持つ非常に限定された空間内で動作することです。広範なアプリケーション開発とは異なり、コードレビューは完了度と品質に対する曖昧さのない客観的な指標を提供します。この正確なフィードバックメカニズムにより、AIが広範な仮定を立てたり、「スロップマシン」の領域に迷い込んだりするのを防ぎます。Peter Steinberger SteinbergerやBoris Cherny Chernyのような先見の明のある人々がエージェントシステムが持つ広大な可能性を強調する一方で、Ras Ras Mic (Michael Shimeles)の実装は、それらが現在真に優れている特定の、実践的な条件を示しています。

ループリトマス試験:いつハンドルを握るべきか

Loop Engineeringがその地位を確立するのはいつでしょうか?Ras Ras Mic (Michael Shimeles)は明確な線引きをしています。Loop Engineeringは、固定された、バイナリ、または定量化可能なフィードバックを伴う限定されたタスクで優れています。Cursor、GitHub、Greptileを活用して5/5スコアを追求する彼の成功したコードレビューLoop Engineeringは、この精度を例証しています。構造化されたSEOページの生成もこのモデルに適合し、成功指標が明確です。

これを、フルアプリケーション開発という不定形な課題と対比させてみましょう。ここでは、製品ビジョンは微妙で進化する実体であり、しばしば人間の直感の一部に宿っています。自律エージェントは、放置されると、あらゆるギャップを仮定で埋め、意図された製品ビジョンから急速に逸脱し、トークンを消費します。これは、Boris Cherny ChernyとPeter Steinberger Steinbergerの経験が、無制限の予算を持たない人々にとって示唆していることです。

Ras Ras Mic (Michael Shimeles)は、彼の堅牢なコードレビューLoop Engineeringでさえ、1,000行を超えるコードで限界に達し、作業を複数のプルリクエストに分割するために人間の介入が必要になると述べています。タスクが主観的な判断、創造的な問題解決、または曖昧さのナビゲートを要求する瞬間、人間の直感と監視は不可欠になります。

最終的に、未来は確かに完全に自律的なシステムに属するかもしれません。しかし、今日現在、複雑なものを構築するためには、human-in-the-Loop Engineeringがより賢明で、より安全で、より費用対効果の高いワークフローであり続けています。あなたがハンドルを握ることで、「スロップマシン」が暴走するのを防ぎ、ビジョンと予算との整合性を確保します。

よくある質問

AIにおけるエージェントループとは何ですか?

エージェントループとは、AIエージェントが結果を生成し、自身の出力をレビューし、それをフィードバックとして利用して、各ステップで直接的な人間の介入なしに構築を続ける自律的なプロセスです。

エージェントループとヒューマン・イン・ザ・ループの違いは何ですか?

ヒューマン・イン・ザ・ループシステムでは、人間がAIが行う各ステップを指示、レビュー、承認します。エージェントループでは、人間がプロセスを一度開始すると、AIが反復的なレビューと構築サイクルを独自に処理します。

なぜオープンエンドのエージェントループはそれほど高価なのですか?

AIが指示の隙間を埋めるために仮定を立てるため、彼らはトークンを急速に消費します。これらの仮定はしばしば欠陥のある出力につながり、修正のためにより多くのサイクルとトークンを必要とし、コストのかかるフィードバックループを生み出します。

エージェンティックループの良いユースケースは何ですか?

明確で客観的なフィードバックを持つ、範囲が限定されたタスクが理想的です。例えば、エージェントが別のツールからの品質スコアに基づいて、目標に達するまでコードを修正するコードレビューのループは非常に効果的です。

Found this useful? Share it.

One short daily email of tools worth shipping. No drip funnel.

one email a day · unsubscribe in two clicks · no third-party tracking

🚀もっと見る

AI最前線をキャッチアップ

Stork.AIが厳選したAIツール、エージェント、MCPサーバーをご覧ください。

P.S. 使えるものを作りましたか? Storkに掲載