Кратко / Главное
Ваш ИИ был скомпрометирован
Представьте, что ваш автономный ИИ-агент, неустанно выполняющий задачи, внезапно оборачивается против вас. Это не научная фантастика о том, как ИИ обретает разум; это суровая новая реальность, обнаруженная исследователями кибербезопасности. Сами инструменты, предназначенные для управления трафиком вашей большой языковой модели (LLM), такие как API-маршрутизаторы, например LiteLLM и OneAPI, скрывают огромную, упущенную из виду дыру в безопасности вашего стека.
Новаторская статья «Ваш агент — мой» недавно выявила эту уязвимость, доказав, что вся цепочка поставок LLM в настоящее время является игровой площадкой для изощренных хакеров. Это исследование, проведенное Университетом Калифорнии в Санта-Барбаре и Fuzzland, раскрывает новый класс угроз, который выходит далеко за рамки традиционных методов prompt injection.
Исследователи называют это атакой вредоносного посредника (Malicious Intermediary Attack). В отличие от prompt injection, которая манипулирует вводом модели, эта атака нацелена на сам канал связи. Поскольку между поставщиком модели и вашей локальной машиной не существует сквозной криптографической подписи, вредоносный маршрутизатор получает полный доступ к запросам и ответам в открытом виде, незаметно переписывая директивы модели до того, как ваш агент их увидит.
Последствия ужасающи. После тестирования более 400 бесплатных и 28 платных LLM API-маршрутизаторов исследователи обнаружили активную эксплуатацию. Девять маршрутизаторов внедряли вредоносный код в вызовы инструментов, 17 маршрутизаторов были пойманы на краже подброшенных учетных данных AWS, и один маршрутизатор даже успешно опустошил Ethereum-кошелек исследователя. Некоторые даже используют адаптивное уклонение, ожидая, пока агенты перейдут в «режим YOLO» — работая автономно без ручного одобрения — прежде чем нанести удар.
Человек посередине, которого вы пригласили
Новая угроза, названная атакой вредоносного посредника (Malicious Intermediary Attack), выявляет критическую уязвимость в цепочке поставок LLM. Это не традиционный взлом; вместо этого она использует сторонние сервисы, которые вы добровольно интегрируете в работу вашего ИИ-агента. Исследователи из Университета Калифорнии в Санта-Барбаре и Fuzzland подробно описали это в своей статье «Your Agent is Mine», раскрывая, как доверенные компоненты становятся каналами для компрометации.
Многие разработчики полагаются на LLM API-маршрутизаторы, такие как LiteLLM и OneAPI, для оптимизации своей ИИ-инфраструктуры. Эти сервисы объединяют вызовы API, управляют доступом к моделям и оптимизируют использование кредитов для различных больших языковых моделей. Они предлагают удобство, выступая в качестве централизованного хаба для всех взаимодействий агента с моделью, что делает их незаменимой частью современных стеков разработки ИИ.
Однако это удобство сопряжено с серьезным недостатком безопасности: фундаментальным отсутствием сквозной криптографической подписи между вашим агентом и вышестоящим поставщиком модели. Когда ваш агент отправляет запрос через один из этих маршрутизаторов, маршрутизатор завершает сеанс TLS, получая полный доступ к каждой части данных в открытом виде. Это означает, что посредник видит все, что ваш агент отправляет и получает, полностью в незашифрованном виде.
Представьте себе цифрового почтальона, который не только обрабатывает вашу почту, но также открывает, читает и может изменять ее содержимое перед доставкой. Этот посредник может незаметно переписывать ответы модели, внедрять новые инструкции или извлекать конфиденциальную информацию, при этом ни ваш агент, ни поставщик LLM никогда об этом не узнают. Он фактически держит ключи к коммуникации вашего агента.
Последствия ужасны и уже очевидны в реальных условиях. Исследователи протестировали более 400 бесплатных и платных маршрутизаторов, обнаружив тревожную активность: - 9 маршрутизаторов активно внедряли вредоносный код в вызовы инструментов. - 17 маршрутизаторов крали учетные данные AWS, подброшенные в качестве «канареек». - 1 маршрутизатор успешно опустошил Ethereum-кошелек исследователя. Некоторые даже используют адаптивное уклонение, ожидая, пока агенты перейдут в «YOLO mode» — автономный режим работы без ручного подтверждения — прежде чем запускать целенаправленные атаки.
Это Не Очередная Инъекция Промпта
Атаки через вредоносных посредников (MIAs) представляют собой принципиально иную угрозу, чем инъекция промпта. В то время как инъекция промпта манипулирует *входными данными* LLM для обхода защитных механизмов или получения конкретного, непреднамеренного текста, MIAs действуют на более позднем, более критическом этапе.
Эта атака перехватывает и изменяет *выходные данные* LLM, конкретно нацеливаясь на вызовы инструментов или выполнение функций, *прежде чем* ваш агент увидит подлинный ответ. Представьте, что ваш агент запрашивает скрипт Python, а посредник незаметно подменяет его вредоносной версией.
Это не слабость на уровне модели; это уязвимость уровня приложения, цепочки поставок, обозначенная как OWASP LLM03. Сторонние API-маршрутизаторы, используемые для управления кредитами или трафиком LLM, являются основными целями. Отсутствие сквозных криптографических подписей предоставляет этим маршрутизаторам полный доступ к ответам модели в открытом виде.
Традиционные средства защиты от инъекции промпта — санитайзеры входных данных, брандмауэры и контент-фильтры — совершенно неэффективны. Эти инструменты сосредоточены на проверке того, что *поступает* в LLM. Они не обеспечивают защиты, когда вредоносная манипуляция происходит *после* того, как LLM сгенерировал свой ответ, но *до того*, как ваш агент начнет действовать на его основе.
Недавняя статья «Your Agent Is Mine: Measuring Malicious Intermediary Attacks on the LLM Supply Chain» выявила тревожные масштабы этой угрозы. Исследователи протестировали более 400 бесплатных и платных API-маршрутизаторов LLM, обнаружив повсеместное компрометирование.
Их выводы поразительны: - 9 маршрутизаторов активно внедряли вредоносный код в вызовы инструментов, подменяя легитимные команды, такие как `pip install requests`, на пакеты с опечатками (typo-squatted), контролируемые злоумышленниками. - 17 маршрутизаторов были пойманы на краже учетных данных AWS, подброшенных в качестве «канареек» в тестовых средах. - Один маршрутизатор успешно опустошил Ethereum-кошелек исследователя.
Некоторые вредоносные посредники даже продемонстрировали адаптивное уклонение, ожидая определенных условий, таких как автономная работа агента в «YOLO mode» (без ручного подтверждения), прежде чем запускать свои атаки. Это подчеркивает сложную и системную уязвимость, требующую немедленного внимания, выходящего за рамки простой проверки входных данных.
Атака #1: Подсадка Цифрового Троянского Коня
Злоумышленники используют инъекцию полезной нагрузки (Payload Injection), первый основной тип атаки, эксплуатируя полный доступ посредника к трафику LLM в открытом виде. Эта уязвимость позволяет вредоносному маршрутизатору незаметно переписывать ответ модели до того, как его увидит агент.
Рассмотрим сценарий, когда ваш автономный агент запрашивает у LLM распространенную библиотеку Python, побуждая модель сгенерировать вызов инструмента `pip install requests`. Компрометированный маршрутизатор перехватывает этот легитимный запрос.
Затем маршрутизатор тайно подменяет команду, заменяя безвредный пакет на пакет с опечатками (typo-squatted package), который имеет похожее название, но содержит вредоносный код. Ваш агент, не подозревая об изменении, приступает к выполнению измененной команды.
Эта, казалось бы, незначительная подмена приводит к разрушительным последствиям. Вредоносный пакет устанавливает обратную оболочку (reverse shell), немедленно предоставляя злоумышленнику удаленное выполнение кода (RCE) и полный компромисс системы. Злоумышленник получает неограниченный доступ к хост-среде агента.
Автономные агенты по своей сути разработаны для доверия и выполнения вызовов инструментов, генерируемых LLM. Этот неотъемлемый выбор дизайна, имеющий решающее значение для их функциональности, становится идеальным вектором атаки. Агенты выполняют эти команды без дальнейшей проверки, открывая прямой канал для злоумышленников для внедрения произвольного кода в критические системы.
Исследователи выявили девять маршрутизаторов, активно внедряющих вредоносный код в вызовы инструментов, в ходе своего обширного исследования более 400 бесплатных и платных LLM API маршрутизаторов. Это демонстрирует непосредственную и широкомасштабную угрозу, которую эта уязвимость представляет для цепочки поставок LLM.
Атака №2: Тихий Отток Данных
Помимо активного внедрения вредоносных нагрузок, злоумышленники используют вторую, столь же коварную тактику: Тайная Эксфильтрация. Эта атака пассивна и невидима, превращая ваш доверенный LLM маршрутизатор в тихий отток данных. Она не изменяет действия вашего агента; вместо этого она просто наблюдает и собирает.
Маршрутизаторы, позиционируемые как критически важные посредники, обладают полным доступом к каждому фрагменту данных, передаваемых между вашим агентом и большой языковой моделью, в открытом виде. Это привилегированное положение позволяет им непрерывно сканировать весь входящий и исходящий трафик. Они развертывают сложные регулярные выражения, постоянно ища специфические, высокоэнтропийные строки, которые выдают конфиденциальную информацию. Эта тихая, постоянная слежка делает атаку невероятно трудной для обнаружения, работая полностью в фоновом режиме, не изменяя никакого видимого поведения.
Злоумышленники специально нацелены на высокоценные учетные данные, которые предоставляют неограниченный доступ к облачной инфраструктуре, репозиториям кода и финансовым активам. К ним относятся: - ключи AWS, которые могут разблокировать облачные среды и хранилища данных - токены GitHub, предоставляющие доступ к частным кодовым базам и конвейерам разработки - приватные ключи Ethereum, необходимые для контроля и передачи криптовалютных активов После захвата эти секреты предоставляют прямой, неаутентифицированный путь для злоумышленников для компрометации критических систем, кражи интеллектуальной собственности или опустошения цифровых кошельков.
Исследователи из исследования «Your Agent is Mine» выявили тревожную распространенность этой угрозы по всей цепочке поставок LLM. После тщательного изучения более 400 бесплатных и платных маршрутизаторов из публичных сообществ и магазинов, их выводы были резкими и незамедлительными. Они подтвердили, что 17 маршрутизаторов активно крали учетные данные AWS, подброшенные в качестве «канареек», демонстрируя широко распространенную и активную уязвимость в этих, казалось бы, безвредных посредниках.
Расследование выявило еще более ужасающий результат, который выходит за рамки кражи данных: один вредоносный маршрутизатор успешно опустошил кошелек Ethereum исследователя. Этот единственный, разрушительный инцидент подчеркивает катастрофический финансовый потенциал тайной эксфильтрации. Ваш автономный ИИ-агент, неосознанно маршрутизируя конфиденциальные команды и данные через скомпрометированного посредника, становится невольным сообщником в своем собственном финансовом крахе или полной компрометации вашей инфраструктуры.
Внутри «Медовой ловушки» Исследователей
Исследователи, стоящие за «Your Agent is Mine», выявили критическую уязвимость в цепочке поставок LLM, показав, как хакеры используют посреднические сервисы. В их статье подробно описывается «Атака вредоносного посредника», при которой скомпрометированные API маршрутизаторы получают полный доступ к запросам агентов в открытом виде. Это позволяет осуществлять скрытые манипуляции до того, как ответы достигнут вашей системы.
Масштаб их расследования был беспрецедентным: было протестировано более 400 бесплатных и платных маршрутизаторов. Эти посредники, часто управляющие кредитами LLM через такие сервисы, как LiteLLM или OneAPI, были получены из публичных сообществ и крупных торговых площадок, таких как Taobao и Shopify. Исследование эффективно создало обширную «медовую ловушку» для наблюдения за реальными атаками.
Выводы этого обширного исследования были поразительными. Исследователи обнаружили: - 9 маршрутизаторов активно внедряли вредоносный код в вызовы инструментов. - 17 маршрутизаторов занимались кражей учетных данных. - 1 маршрутизатор успешно опустошил кошелек Ethereum исследователя. Эта статистика подтверждает широко распространенную и активную среду угроз.
Для отслеживания кражи учетных данных исследователи применили хитрый метод «канарейки». Они стратегически разместили поддельные ключи AWS, токены GitHub и приватные ключи Ethereum в тестовых запросах. Когда эти «канарейки» позже использовались внешними субъектами, это однозначно доказывало, что маршрутизатор перехватил конфиденциальные данные. Эта пассивная, невидимая эксфильтрация представляет серьезный риск.
Некоторые вредоносные посредники продемонстрировали передовые тактики, включая адаптивное уклонение. Эти маршрутизаторы ждали определенных условий, например, когда агент переходил в «режим YOLO» – работая автономно без ручного одобрения – прежде чем начать свою атаку. Для получения более глубоких технических сведений об этих выводах ознакомьтесь с исследованием Malicious Intermediary Attacks on LLM Supply Chain - Emergent Mind. Этот сложный подход подчеркивает развивающуюся природу угроз со стороны ИИ-агентов.
Ожидание «режима YOLO»
Самое ужасающее открытие из исследовательской работы «Your Agent is Mine» — это не просто существование вредоносных посредников; это их хитрость. Исследователи обнаружили случаи адаптивного уклонения — сложной техники, при которой скомпрометированные маршрутизаторы находятся в спящем режиме, наблюдая за поведением агента, прежде чем нанести целенаправленный удар. Этот терпеливый подход значительно увеличивает вероятность успешной, разрушительной атаки, делая традиционные меры безопасности менее эффективными.
Злоумышленники часто ждут того, что исследователи называют «режимом YOLO». Это критическое состояние возникает, когда автономный ИИ-агент работает без ручного одобрения, выполняя команды и взаимодействуя с системами полностью без надзора. Как только агент переходит в режим YOLO, посредник получает полную свободу действий, не ограниченный человеческим надзором, который мог бы отметить подозрительную активность.
Вредоносные маршрутизаторы не просто ждут автономии; они также отслеживают уровни активности. Некоторые посредники, наблюдаемые исследователями из Калифорнийского университета в Санта-Барбаре и Fuzzland, выжидали определенное количество запросов — иногда до 50 предыдущих вызовов — прежде чем начать свою атаку. Это отложенное выполнение помогает им слиться с обычными схемами трафика, что делает обнаружение невероятно сложным для разработчиков и команд безопасности.
Точность этих атак не менее тревожна. Некоторые вредоносные маршрутизаторы специально нацелены на среды разработки. Они терпеливо сканируют проекты, созданные с использованием определенных языков программирования, таких как Rust или Go, прежде чем внедрить вредоносное ПО, нацеленное на зависимости. Это позволяет злоумышленникам доставлять очень релевантные и эффективные полезные нагрузки, используя уязвимости в цепочках инструментов или библиотеках, обычно используемых этими экосистемами.
Рассмотрим последствия: ИИ-агент, которому поручена сложная разработка, неосознанно направляет свой трафик через скомпрометированного посредника. Маршрутизатор наблюдает за первоначальными безобидными задачами агента, возможно, за получением документации или выполнением простого анализа данных.
Он безмолвно ждет, пока агент перейдет в autonomous operation или достигнет заранее определенного порога запросов. Затем, когда агент пытается установить пакет для проекта Rust, вредоносный маршрутизатор подменяет легитимную зависимость версией, контролируемой злоумышленником и использующей typo-squatting, мгновенно предоставляя reverse shell или exfiltrating sensitive data. Эта тихая, рассчитанная агрессия подчеркивает глубокий сдвиг в ландшафте угроз.
LiteLLM: Когда теория становится реальностью
Март 2026 года превратил теоретические опасности исследования «Your Agent is Mine» в суровую реальность с компрометацией LiteLLM. Этот громкий инцидент доказал, что уязвимости, выявленные исследователями, не были спекулятивными, а активно эксплуатировались в реальных условиях, превратив широко используемый LLM API router в вектор для сложных кибератак против production systems.
Злоумышленники осуществили хитрую атаку dependency confusion против LiteLLM, популярного пакета Python, предназначенного для упрощения маршрутизации запросов к различным LLM и управления API keys. Они внедрили вредоносный код в определенные версии программного обеспечения, безмолвно превращая легитимные установки в инструменты для шпионажа. Эта сложная supply chain attack продемонстрировала глубокий риск, исходящий от, казалось бы, безвредных сторонних компонентов в критическом пути операций AI agent.
Последствия были немедленными и серьезными, затронув любую организацию, использующую скомпрометированные версии. Экземпляры LiteLLM стали невольными каналами утечки данных, что позволило похищать критически важную операционную информацию у их пользователей. Злоумышленники успешно exfiltrated a trove of sensitive data, включая: - cloud credentials - SSH keys - Kubernetes secrets
Это реальное нарушение однозначно подтвердило угрозу Malicious Intermediary Attacks, выведя ее далеко за рамки академических работ. Оно закрепило выводы исследования, проиллюстрировав, как autonomous AI agents, будучи маршрутизированными через скомпрометированные посредники, непреднамеренно становятся инструментами собственного разрушения, утекая жизненно важный доступ к инфраструктуре. Это не очередная prompt injection; это фундаментальное нарушение доверия в LLM supply chain.
Организации, полагающиеся на сторонние LLM routers, теперь должны столкнуться с ощутимой и непосредственной опасностью для своей основной инфраструктуры. Инцидент с LiteLLM служит суровым предупреждением: безопасность вашего AI stack настолько сильна, насколько сильно его самое слабое звено, часто непроверенный или скомпрометированный компонент глубоко внутри supply chain. Злоумышленники активно нацеливаются на эти промежуточные слои, подчеркивая острую необходимость в строгой проверке и end-to-end cryptographic integrity во всей экосистеме LLM. Угроза здесь.
Разорванное звено в цепи доверия
LLM API routers, часто развертываемые для управления затратами или унификации доступа, работают на критической границе доверия. Эти посредники, включая такие сервисы, как LiteLLM и OneAPI, часто рассматриваются как прозрачные каналы. Однако они являются активными участниками цепочки связи, что делает их главной целью для malicious actors. Этот фундаментальный технический сбой подвергает всю LLM supply chain компрометации.
Стандартное TLS encryption не предлагает убежища от этой угрозы. Хотя TLS защищает соединение между вашим агентом и маршрутизатором, сам маршрутизатор является конечной точкой этой сессии. Он полностью расшифровывает все входящие запросы и исходящие ответы. Это предоставляет посреднику полный доступ к sensitive data и tool calls в виде открытого текста, позволяя бесшумно изменять их перед повторным шифрованием и пересылкой.
Исследователи, стоящие за статьей «Your Agent is Mine», выявили эту системную уязвимость. Они приходят к выводу, что текущая экосистема LLM полагается на «хрупкое доверие к посредникам», доверие, которое постоянно нарушалось, согласно их выводам. Их исследование показало, что 9 маршрутизаторов активно внедряли вредоносный код, а 17 были пойманы на краже учетных данных AWS, что прямо демонстрирует это нарушенное доверие.
Единственная надежная защита от вредоносных посредников включает в себя криптографические конверты. Этот механизм требует от поставщиков LLM криптографически подписывать свои канонические ответы. Когда ваш агент получает вывод модели, он независимо проверяет подпись, подтверждая происхождение сообщения и гарантируя, что ни один посредник не вмешивался в содержимое.
Внедрение ответов, подписанных поставщиком, создает неизменяемую цепочку доверия, простирающуюся от поставщика LLM непосредственно к вашему агенту. Без этого проверяемого происхождения каждый API-маршрутизатор остается потенциальным вектором для внедрения полезной нагрузки и эксфильтрации секретов. Этот архитектурный сдвиг имеет решающее значение для предотвращения инцидентов, подобных компрометации LiteLLM, и защиты от финансовых потерь, как подробно описано в отчетах, таких как Researchers discover malicious AI agent routers that can steal crypto - Cryptonews.net. Это единственный способ защитить автономных агентов от невидимых манипуляций.
Как защитить вашего AI-агента сегодня
Разработчики и организации сталкиваются с неотложной необходимостью: укрепить своих AI-агентов против коварной угрозы атак со стороны вредоносных посредников (Malicious Intermediary Attacks). Цепочка поставок LLM, когда-то воспринимавшаяся как прозрачная, теперь оказалась критической поверхностью атаки, требующей такой же строгой политики безопасности, как и любая другая основная инфраструктура. Проактивные меры больше не являются необязательными, а необходимы для защиты конфиденциальных данных и операционной целостности.
Крайняя бдительность имеет первостепенное значение при рассмотрении любой сторонней посреднической службы — будь то API-маршрутизатор, такой как LiteLLM или OneAPI, или пользовательский прокси, управляющий кредитами LLM. Исследование «Your Agent is Mine» наглядно продемонстрировало опасность: 9 маршрутизаторов активно внедряли вредоносный код, 17 украли учетные данные AWS, а один даже опустошил кошелек Ethereum. Там, где это возможно, организации должны отдавать приоритет самостоятельному размещению этих важнейших компонентов, сохраняя прямой контроль над потоком данных и исключая зависимость от непроверенных внешних сущностей. Тщательные аудиты безопасности незаменимы для любой сторонней службы, которую считают неизбежной.
Внедрите надежные клиентские средства защиты непосредственно в среде выполнения вашего агента. Крайне важно принять политику «отказа в закрытом режиме» (fail-closed policy) для всех вызовов инструментов и команд. Вместо того чтобы разрешать все по умолчанию, явно включайте в белый список только утвержденные функции, API и команды оболочки. Это предотвращает выполнение вредоносных инструкций, даже если они были внедрены. Кроме того, разверните проверку аномалий на стороне ответа (response-side anomaly screening) для тщательной проверки выходных данных модели на предмет подозрительных шаблонов, неожиданных вызовов инструментов или отклонений от установленного поведения *до* принятия каких-либо действий. Никогда не используйте агентов в неограниченном «режиме YOLO», который обходит человеческий надзор или автоматические проверки.
Долгосрочное решение требует фундаментального сдвига от основных поставщиков моделей. OpenAI, Google и Anthropic должны совместно разработать и внедрить сквозные криптографические подписи (end-to-end cryptographic signatures) для всех ответов LLM. Такие подписи будут проверять целостность и подлинность выходных данных, гарантируя, что ответ, полученный агентом, является именно тем, что сгенерировала модель, нетронутым никаким посредником. Этот критически важный примитив безопасности эффективно нейтрализует атаки вредоносных посредников, делая любое вмешательство мгновенно обнаруживаемым.
Обеспечение безопасности цепочки поставок LLM требует коллективных усилий отрасли. От отдельных разработчиков, внедряющих строгие практики безопасности, до ведущих компаний в области ИИ, встраивающих криптографическое доверие на уровне протокола, каждое звено в цепочке должно быть усилено. Только тогда мы сможем по-настоящему доверять автономным агентам, которых мы наделяем полномочиями, гарантируя, что они останутся мощными союзниками, а не невольными инструментами компрометации.
Часто задаваемые вопросы
Что такое атака 'YOLO' в безопасности LLM?
Атака 'YOLO' — это тип атаки со стороны вредоносного посредника (Malicious Intermediary Attack), при которой скомпрометированный API router перехватывает и изменяет вызовы инструментов, выполняемые LLM. Она названа так потому, что злоумышленники наносят удар после того, как агент ИИ переходит в режим 'You Only Look Once' (YOLO), работая автономно без одобрения человека.
Чем атака YOLO отличается от инъекции промпта?
Инъекция промпта обманывает LLM, заставляя его вести себя неправильно. Атака YOLO не нацелена на саму модель; она нацелена на цепочку поставок. Вредоносный router переписывает легитимный вывод модели (например, команду) после его генерации, что делает ее атакой типа 'человек посередине' (man-in-the-middle) на этапе постобработки.
Что такое LLM API router и почему он является уязвимостью?
LLM API router — это сервис, который управляет запросами к нескольким поставщикам LLM для оптимизации затрат или балансировки нагрузки. Он становится уязвимостью, потому что находится между пользователем и поставщиком модели, имея полный доступ к данным в открытом виде, что позволяет вредоносному router читать или изменять что угодно.
Как разработчики могут защитить своих ИИ-агентов от этой атаки?
Разработчики должны проверять все сторонние сервисы, избегать использования ненадежных API router'ов и внедрять клиентские проверки вызовов инструментов. Окончательное решение требует от поставщиков моделей внедрения сквозных криптографических подписей для проверки происхождения и целостности их ответов.