要約 / ポイント
あなたのAIは侵害されました
自律型AIエージェントが、たゆまなくタスクを実行しているかと思えば、突然あなたに敵対する様子を想像してみてください。これはAIが意識を持つというSFの話ではありません。サイバーセキュリティ研究者によって明らかにされた、厳然たる新たな現実です。LiteLLMやOneAPIのようなAPIルーターなど、大規模言語モデル(LLM)のトラフィックを管理するために設計されたツールそのものが、あなたのスタックに大規模で見過ごされてきたセキュリティホールを抱えています。
画期的な論文、「Your Agent is Mine」が最近この脆弱性を露呈し、LLMサプライチェーン全体が現在、高度なハッカーにとっての遊び場となっていることを証明しました。カリフォルニア大学サンタバーバラ校とFuzzlandによるこの研究は、従来のprompt injection技術をはるかに超える、新たな脅威のクラスを明らかにしています。
研究者たちはこれを悪意のある仲介者攻撃(Malicious Intermediary Attack)と呼んでいます。モデルの入力を操作するprompt injectionとは異なり、この攻撃は通信チャネルそのものを標的とします。モデルプロバイダーとあなたのローカルマシンとの間にend-to-end cryptographic signatureが存在しないため、悪意のあるルーターはすべてのリクエストとレスポンスに完全な平文アクセスを獲得し、あなたのエージェントがそれらを見る前にモデルの指示を密かに書き換えます。
その影響は恐ろしいものです。400以上の無料および28の有料LLM APIルーターをテストした後、研究者たちは活発な悪用を発見しました。9つのルーターはツールコールに悪意のあるコードを注入しており、17のルーターは仕掛けられたAWS credentialsを盗んでいるのが発見され、1つのルーターは研究者のEthereum walletから資金を抜き取ることに成功しました。中には適応型回避策を使用し、エージェントが「YOLO mode」(手動承認なしで自律的に動作するモード)に入るのを待ってから攻撃するものもありました。
あなたが招き入れたMan-in-the-Middle
悪意のある仲介者攻撃(Malicious Intermediary Attack)と呼ばれる新たな脅威が、LLMサプライチェーンにおける重大な脆弱性を露呈しています。これは従来のハッキングとは異なり、あなたが自らのAI agentの運用に意図的に組み込んだサードパーティサービスを悪用します。カリフォルニア大学サンタバーバラ校とFuzzlandの研究者たちは、彼らの論文「Your Agent is Mine」でこれを詳しく説明し、信頼されたコンポーネントがいかに侵害の経路となるかを明らかにしています。
多くの開発者は、AIインフラストラクチャを効率化するために、LiteLLMやOneAPIのようなLLM APIルーターに依存しています。これらのサービスは、APIコールを統合し、モデルアクセスを管理し、様々なLarge Language Model間でのクレジット使用を最適化します。これらは利便性を提供し、すべてのagent-modelインタラクションのための中央ハブとして機能するため、現代のAI開発スタックにおいて不可欠な部分となっています。
しかし、この利便性には重大なセキュリティ上の欠陥が伴います。それは、あなたのagentとアップストリームのモデルプロバイダーとの間に、根本的なend-to-end cryptographic signatureの欠如があることです。あなたのagentがこれらのルーターのいずれかを介してリクエストを送信すると、ルーターはTLS sessionを終了させ、すべてのデータに完全な平文アクセスを獲得します。これは、仲介者があなたのagentが送受信するすべてのものを、完全に暗号化されていない状態で見ることを意味します。
これを、あなたのメールを扱うだけでなく、配達する前にその内容を開封し、読み、変更できるデジタル郵便配達員だと考えてください。この仲介者は、あなたのagentもLLMプロバイダーも知ることなく、モデルの応答を密かに書き換えたり、新しい指示を注入したり、機密情報を抽出したりすることができます。事実上、あなたのagentの通信の鍵を握っているのです。
その結果は悲惨であり、すでに現実世界で明らかになっています。研究者たちは400以上の無料および有料ルーターをテストし、驚くべき活動を発見しました。 - 9つのルーターがツール呼び出しに悪意のあるコードを積極的に注入していました。 - 17のルーターがカナリアとして仕掛けられたAWS認証情報を盗んでいました。 - 1つのルーターが研究者のEthereumウォレットから資金を抜き取ることに成功しました。 中には、エージェントが「YOLO mode」(手動承認なしの自律運用)に入るのを待ってから標的型攻撃を開始する、適応型回避を使用するものもありました。
これは単なるプロンプトインジェクションではありません
悪意のある仲介者攻撃(MIAs)は、プロンプトインジェクションとは根本的に異なる脅威です。プロンプトインジェクションがLLMの*入力*を操作してガードレールを回避したり、特定の意図しないテキストを引き出したりするのに対し、MIAsはより後期の、より重要な段階で動作します。
この攻撃は、LLMの*出力*を傍受して改ざんします。特に、エージェントが正規の応答を見る*前*に、ツール呼び出しや関数実行を標的とします。エージェントがPythonスクリプトを要求し、仲介者がそれを悪意のあるバージョンに密かにすり替える状況を想像してみてください。
これはモデル層の脆弱性ではなく、OWASP LLM03に指定されているアプリケーション層のサプライチェーン脆弱性です。LLMクレジットやトラフィックの管理に使用されるサードパーティのAPIルーターが主要な標的となります。エンドツーエンドの暗号署名がないため、これらのルーターはモデルの応答に完全な平文アクセスが可能です。
プロンプトインジェクションに対する従来の防御策、つまり入力サニタイザー、ファイアウォール、コンテンツフィルターは、全く効果がありません。これらのツールは、LLMに*入力される*ものを精査することに焦点を当てています。LLMが応答を生成した後で、しかしエージェントがそれに基づいて行動する*前*に悪意のある操作が行われた場合、それらは何の保護も提供しません。
最近の論文「Your Agent Is Mine: Measuring Malicious Intermediary Attacks on the LLM Supply Chain」は、この脅威の驚くべき規模を明らかにしました。研究者たちは400以上の無料および有料のLLM APIルーターをテストし、広範囲にわたる侵害を明らかにしました。
彼らの発見は衝撃的です。 - 9つのルーターがツール呼び出しに悪意のあるコードを積極的に注入し、`pip install requests`のような正規のコマンドを、タイプミスを悪用した攻撃者制御のパッケージにすり替えていました。 - 17のルーターが、テスト環境にカナリアとして仕掛けられたAWS認証情報を盗んでいるのが発見されました。 - 1つのルーターが、研究者のEthereumウォレットから資金を抜き取ることに成功しました。
一部の悪意のある仲介者は、適応型回避さえも示し、エージェントが「YOLO mode」(手動承認なし)で自律的に動作するなどの特定の条件を待ってから攻撃を開始しました。これは、単純な入力検証を超えた、高度で体系的な脆弱性を示しており、即座の注意が必要です。
攻撃 #1: デジタル版トロイの木馬を仕掛ける
攻撃者は、最初の主要な攻撃タイプであるペイロードインジェクションを、仲介者がLLMトラフィックに完全に平文でアクセスできることを悪用して行います。この脆弱性により、悪意のあるルーターは、エージェントがモデルの応答を見る前に、それを密かに書き換えることができます。
自律エージェントがLLMに一般的なPythonライブラリを要求し、モデルがツール呼び出し`pip install requests`を生成するシナリオを考えてみましょう。侵害されたルーターがこの正規のリクエストを傍受します。
ルーターはその後、コマンドを密かにすり替え、無害なパッケージを、似た名前を持つが悪意のあるコードを含むタイプミスを悪用したパッケージに置き換えます。エージェントは変更に気づかず、変更されたコマンドを実行してしまいます。
この一見些細な置き換えは、壊滅的な結果を引き起こします。悪意のあるパッケージはリバースシェルをインストールし、攻撃者に即座にリモートコード実行(RCE)と完全なシステム侵害を許可します。攻撃者はエージェントのホスト環境への無制限のアクセスを獲得します。
自律型エージェントは、LLMによって生成されたツール呼び出しを信頼し、実行するように根本的に設計されています。その機能にとって極めて重要なこの固有の設計上の選択が、完璧な攻撃ベクトルとなります。エージェントはこれらのコマンドをさらに精査することなく実行するため、攻撃者が任意のコードを重要なシステムに注入するための直接的なパイプラインが開かれます。
研究者たちは、400以上の無料および有料のLLM APIルーターを対象とした広範な調査において、ツール呼び出しに悪意のあるコードを積極的に注入している9つのルーターを特定しました。これは、この脆弱性がLLMサプライチェーンにもたらす差し迫った広範な脅威を示しています。
攻撃 #2: サイレントデータサイフォン
悪意のあるペイロードを積極的に注入するだけでなく、攻撃者はもう1つの、同様に陰湿な戦術である「Secret Exfiltration」を採用します。この攻撃は受動的で目に見えず、信頼しているLLMルーターをサイレントデータサイフォンに変えてしまいます。エージェントの行動を変更するのではなく、単に監視し、収集するだけです。
重要な仲介役として位置付けられているルーターは、エージェントと大規模言語モデルの間を流れるあらゆるデータに完全なプレーンテキストアクセスを持っています。この特権的な位置により、ルーターはすべての送受信トラフィックを継続的にスキャンできます。彼らは洗練されたregexパターンを展開し、機密情報を漏洩する特定の高エントロピー文字列を常に検索します。この静かで持続的な監視により、攻撃は検出が非常に困難になり、目に見える動作を一切変更することなく、完全にバックグラウンドで動作します。
攻撃者は、クラウドインフラストラクチャ、コードリポジトリ、および金融資産への無制限のアクセスを許可する高価値の認証情報を特に標的とします。これらには以下が含まれます。 - クラウド環境とデータストレージをアンロックできるAWS keys - プライベートなコードベースと開発パイプラインへのアクセスを提供するGitHub tokens - 暗号通貨の保有を制御および転送するために不可欠なEthereum private keys 一度捕捉されると、これらの秘密は、攻撃者が重要なシステムを侵害したり、知的財産を盗んだり、デジタルウォレットを空にしたりするための直接的で認証されていない経路を提供します。
「Your Agent is Mine」の研究者たちは、LLMサプライチェーン全体におけるこの脅威の驚くべき蔓延を明らかにしました。公開コミュニティやストアフロントから400以上の無料および有料ルーターを精査した結果、彼らの発見は厳しく、かつ即座のものでした。彼らは、カナリアとして仕掛けられたAWS credentialsを17のルーターが積極的に盗んでいることを確認し、これらの表面的には無害に見える仲介者の中に広範かつ活発な脆弱性が存在することを示しました。
調査は、データ窃盗を超えるさらに恐ろしい結果を明らかにしました。ある悪意のあるルーターが、研究者のEthereum walletを正常に空にしました。この単一の壊滅的な事件は、Secret Exfiltrationの壊滅的な金銭的潜在能力を浮き彫りにします。あなたの自律型AIエージェントは、知らず知らずのうちに機密コマンドとデータを侵害された仲介者を経由してルーティングすることで、自身の財政破綻やインフラストラクチャの完全な侵害における意図しない共犯者となります。
研究者たちの「ハニーポット」の内部
「Your Agent is Mine」の研究者たちは、LLMサプライチェーン内の重大な脆弱性を暴露し、ハッカーが仲介サービスをどのように悪用するかを明らかにしました。彼らの論文は、「Malicious Intermediary Attack」について詳述しており、侵害されたAPIルーターがエージェントのリクエストに完全なプレーンテキストアクセスを獲得します。これにより、応答がシステムに到達する前にサイレントな操作が可能になります。
調査の規模は前例がなく、400以上の無料および有料ルーターをテストしました。LiteLLMやOneAPIのようなサービスを介してLLMクレジットを管理することが多いこれらの仲介者は、公開コミュニティやTaobao、Shopifyのような主要なストアフロントから調達されました。この研究は、実世界の攻撃を観察するための広大な「ハニーポット」を効果的に作成しました。
この広範な研究からの発見は衝撃的でした。研究者たちは以下を発見しました。 - 9つのルーターがツール呼び出しに悪意のあるコードを積極的に注入している。 - 17つのルーターが認証情報の窃盗に関与している。 - 1つのルーターが研究者のEthereumウォレットから資金を抜き取ることに成功した。 これらの統計は、広範かつ活発な脅威環境を裏付けています。
認証情報の窃盗を追跡するため、研究者たちは巧妙なカナリア手法を用いました。彼らはテストリクエスト内に偽のAWSキー、GitHubトークン、およびEthereum秘密鍵を戦略的に仕込みました。これらの「カナリア」が後に外部のアクターによって使用されたとき、それはルーターが機密データを吸い上げていたことを明確に証明しました。この受動的で目に見えないデータ流出は、深刻なリスクをもたらします。
一部の悪意のある仲介者は、適応的回避を含む高度な戦術を示しました。これらのルーターは、手動承認なしに自律的に動作する「YOLOモード」にエージェントが移行するなどの特定の条件を待ってから攻撃を開始しました。これらの発見に関するより深い技術的洞察については、研究論文 Malicious Intermediary Attacks on LLM Supply Chain - Emergent Mind を参照してください。この洗練されたアプローチは、AIエージェントの脅威の進化する性質を浮き彫りにしています。
「YOLOモード」を待機中
研究論文「Your Agent is Mine」からの最も恐ろしい啓示は、悪意のある仲介者の存在だけでなく、彼らの狡猾さです。研究者たちは、適応的回避の事例を発見しました。これは、侵害されたルーターが休止状態にあり、エージェントの行動を観察してから標的型攻撃を開始する洗練された技術です。この忍耐強いアプローチは、成功し壊滅的な攻撃の可能性を劇的に高め、従来のセキュリティ対策を効果のないものにします。
攻撃者は、研究者たちが「YOLOモード」と呼ぶものをしばしば待ちます。この重要な状態は、自律型AIエージェントが手動承認なしに動作し、完全に監視されずにコマンドを実行し、システムと対話するときに発生します。エージェントがYOLOモードに入ると、仲介者は自由な手を得て、疑わしい活動を指摘する可能性のある人間の監視に制約されなくなります。
悪意のあるルーターは自律性を待つだけでなく、活動レベルも監視します。カリフォルニア大学サンタバーバラ校とFuzzlandの研究者によって観察された一部の仲介者は、攻撃を開始する前に特定の数のリクエスト(時には50件もの以前の呼び出し)を待ち伏せしていました。この遅延実行は、彼らが通常のトラフィックパターンに溶け込むのに役立ち、開発者やセキュリティチームにとって検出を非常に困難にしています。
これらの攻撃の精度も同様に警戒すべきです。一部の悪意のあるルーターは、特に開発環境を標的とします。彼らは、RustやGoなどの特定のプログラミング言語を使用して構築されたプロジェクトを辛抱強くスキャンし、その後、依存関係を標的としたマルウェアを注入します。これにより、攻撃者は非常に適切で効果的なペイロードを配信し、それらのエコシステムで一般的に使用されるツールチェーンやライブラリの脆弱性を悪用することができます。
その影響を考えてみてください。複雑な開発作業を任されたAIエージェントが、知らず知らずのうちに侵害された仲介者を介してトラフィックをルーティングします。ルーターは、エージェントの最初の無害なタスク、おそらくドキュメントの取得や簡単なデータ分析の実行を観察します。
エージェントが自律運用に移行するか、事前定義されたリクエストしきい値に達するまで、密かに待機します。その後、エージェントがRust projectのパッケージをインストールしようとすると、悪意のあるルーターは正規の依存関係を、タイポスクワッティングされた攻撃者制御バージョンと入れ替え、即座にreverse shellを付与するか、機密データを外部に流出させます。この静かで計算された攻撃は、脅威の状況における深刻な変化を浮き彫りにしています。
LiteLLM:理論が現実になるとき
2026年3月、「Your Agent is Mine」研究の理論的危険性が、LiteLLM compromiseによって厳しい現実となりました。この注目度の高い事件は、研究者によって特定された脆弱性が推測ではなく、実際に悪用されていたことを証明し、広く使用されているLLM API routerを、本番システムに対する高度なサイバー攻撃の媒介に変えました。
攻撃者は、さまざまなLLMへのリクエストルーティングを簡素化し、APIキーを管理するために設計された人気のPython packageであるLiteLLMに対して、巧妙なdependency confusion攻撃を実行しました。彼らはソフトウェアの特定のバージョンに悪意のあるコードを注入し、正規のインストールを密かにスパイ活動のツールに変えました。この高度なサプライチェーン攻撃は、AI agent operationsのクリティカルパス内にある一見無害なサードパーティコンポーネントがもたらす深刻なリスクを実証しました。
その結果は即座かつ深刻で、侵害されたバージョンを利用しているあらゆる組織に影響を与えました。LiteLLMインスタンスは意図せずしてデータサイフォンとなり、ユーザーから重要な運用情報を盗むことを可能にしました。攻撃者は、以下を含む大量の機密データを正常に外部に流出させました。 - cloud credentials - SSH keys - Kubernetes secrets
この現実世界の侵害は、Malicious Intermediary Attacksの脅威を明確に検証し、学術論文の域をはるかに超えるものとしました。それは研究の発見を確固たるものにし、自律型AI agentsが、侵害された仲介者を経由してルーティングされると、意図せずして自らの破滅の道具となり、重要なインフラアクセスを漏洩させる様子を示しました。これは単なるprompt injectionではなく、LLM supply chainにおける根本的な信頼の侵害です。
サードパーティのLLM routersに依存する組織は、現在、そのコアインフラストラクチャに対する具体的かつ差し迫った危険に直面しなければなりません。LiteLLM事件は厳しい警告として機能します。AI stackのセキュリティは、その最も弱いリンク、多くの場合サプライチェーンの奥深くにある未検証または侵害されたコンポーネントと同じくらいしか強くありません。攻撃者はこれらの仲介層を積極的に標的としており、LLMエコシステム全体にわたる厳格な審査とエンドツーエンドの暗号化による完全性の緊急の必要性を浮き彫りにしています。脅威はここにあります。
信頼の鎖の壊れたリンク
LLM API routersは、コスト管理やアクセスの一元化のために展開されることが多く、重要な信頼境界で動作します。LiteLLMやOneAPIのようなサービスを含むこれらの仲介者は、しばしば透過的なパイプとして扱われます。しかし、それらは通信チェーンの積極的な参加者であり、悪意のあるアクターにとって主要な標的となります。この根本的な技術的欠陥は、LLM supply chain全体を侵害にさらします。
標準的なTLS encryptionは、この脅威から保護を提供しません。TLSはエージェントとルーター間の接続を保護しますが、ルーター自体がそのセッションのエンドポイントです。それはすべての受信リクエストと送信レスポンスを完全に復号化します。これにより、仲介者は機密データとツール呼び出しへの完全な平文アクセスを得ることができ、再暗号化して転送する前に密かに変更することを可能にします。
「Your Agent is Mine」論文の研究者たちは、このシステム的な脆弱性を強調しました。彼らは、現在のLLMエコシステムが「仲介者への脆い信頼」に依存していると結論付けていますが、この信頼は彼らの調査結果で一貫して裏切られています。彼らの研究では、9つのルーターが悪意のあるコードを積極的に注入し、17のルーターがAWS認証情報を盗んでいることが明らかになり、この壊れた信頼が直接的に示されました。
悪意のある仲介者に対する唯一の堅牢な防御策は、暗号化エンベロープです。このメカニズムは、LLMプロバイダーがその正規の応答を暗号署名することを要求します。エージェントがモデルの出力を受け取ると、署名を独立して検証し、メッセージの出所を証明し、仲介者がコンテンツを改ざんしていないことを保証します。
プロバイダー署名付き応答を実装することで、LLMプロバイダーからエージェントに直接つながる不変の信頼の連鎖が生まれます。この検証可能な出所がなければ、すべてのAPIルーターはペイロードの注入や秘密情報の漏洩の潜在的な経路となります。このアーキテクチャの変更は、LiteLLMの侵害のようなインシデントを防ぎ、Researchers discover malicious AI agent routers that can steal crypto - Cryptonews.netのようなレポートで詳述されているように、金銭的損失から保護するために不可欠です。これが、自律型エージェントを不可視の操作から保護する唯一の方法です。
今すぐAIエージェントを保護する方法
開発者と組織は、悪意のある仲介者攻撃(Malicious Intermediary Attacks)という陰湿な脅威からAIエージェントを強化するという差し迫った課題に直面しています。かつては透明であると認識されていたLLMサプライチェーンは、今や他のあらゆるコアインフラストラクチャと同様に厳格なセキュリティ体制を要求する重要な攻撃対象領域として明らかになっています。プロアクティブな対策はもはや任意ではなく、機密データと運用上の整合性を保護するために不可欠です。
LiteLLMやOneAPIのようなAPIルーター、またはLLMクレジットを管理するカスタムプロキシなど、あらゆるサードパーティの仲介サービスを検討する際には、極度の警戒が最も重要です。「Your Agent is Mine」の研究は、その危険性を明確に示しました。9つのルーターが悪意のあるコードを積極的に注入し、17のルーターがAWS認証情報を盗み、1つはEthereumウォレットを空にしました。可能な限り、組織はこれらの重要なコンポーネントのセルフホスティングを優先し、データフローを直接制御し、未検証の外部エンティティへの依存を排除する必要があります。避けられないと見なされるサードパーティサービスに対しては、徹底的なセキュリティ監査が不可欠です。
エージェントの実行環境内に直接、堅牢なクライアントサイド防御を実装してください。特に、すべてのツール呼び出しとコマンドに対してフェイルクローズポリシーを採用することが重要です。デフォルトですべてを許可するのではなく、承認された機能、API、およびシェルコマンドのみを明示的に許可リストに登録してください。これにより、悪意のある命令が注入されたとしても実行されるのを防ぎます。さらに、応答側異常スクリーニングを展開し、アクションが実行される*前に*、モデルの出力を綿密に検査して、疑わしいパターン、予期しないツール呼び出し、または確立された動作からの逸脱がないかを確認してください。人間の監視や自動チェックを迂回する制約のない「YOLOモード」でエージェントを運用してはなりません。
長期的な解決策は、主要なモデルプロバイダーからの根本的な転換を要求します。OpenAI、Google、Anthropicは、すべてのLLM応答に対してエンドツーエンドの暗号署名を共同で開発し、実装する必要があります。このような署名は、出力の整合性と信頼性を検証し、エージェントが受け取る応答が、仲介者によって一切改ざんされていない、モデルが生成したものと全く同じであることを保証します。この重要なセキュリティプリミティブは、改ざんを即座に検出可能にすることで、悪意のある仲介者攻撃(Malicious Intermediary Attacks)を効果的に無力化するでしょう。
LLMサプライチェーンのセキュリティ確保には、業界全体の協力が必要です。個々の開発者が厳格なセキュリティ慣行を採用することから、主要なAI企業がプロトコルレベルで暗号化された信頼を組み込むことまで、チェーンのすべてのリンクを強化する必要があります。そうして初めて、私たちが力を与える自律型エージェントを真に信頼し、それらが強力な味方であり続け、意図しない侵害の道具とならないようにすることができます。
よくある質問
LLMセキュリティにおける「YOLO」攻撃とは何ですか?
「YOLO」攻撃は、侵害されたAPIルーターがLLMが行うツール呼び出しを傍受・改ざんするタイプの悪意のある仲介攻撃です。これは、AIエージェントが「You Only Look Once」(YOLO)モードに入り、人間の承認なしに自律的に動作し始めた後に攻撃者が仕掛けることから名付けられました。
YOLO攻撃はプロンプトインジェクションとどう違うのですか?
プロンプトインジェクションはLLMを騙して誤動作させます。YOLO攻撃はモデル自体を標的とするのではなく、サプライチェーンを標的とします。悪意のあるルーターは、モデルの正当な出力(コマンドなど)が生成された後にそれを書き換え、後処理型のマン・イン・ザ・ミドル攻撃となります。
LLM APIルーターとは何ですか、そしてなぜそれが脆弱性となるのですか?
LLM APIルーターは、コスト最適化や負荷分散のために複数のLLMプロバイダーへのリクエストを管理するサービスです。これは、ユーザーとモデルプロバイダーの間に位置し、すべてのデータに完全な平文アクセスを持つため、悪意のあるルーターが何でも読み取ったり変更したりできるため、脆弱性となります。
開発者はこの攻撃からAIエージェントをどのように保護できますか?
開発者はすべてのサードパーティサービスを精査し、信頼できないAPIルーターの使用を避け、ツール呼び出しに対してクライアント側でチェックを実装する必要があります。究極の解決策は、モデルプロバイダーが応答の出所と整合性を検証するためにエンドツーエンドの暗号署名を実装することです。