O YOLO Attack: Como Hackers Sequestram LLM Tool Calls para Seus Dados

Resumo / Pontos-chave

Seu agente LLM pode estar executando código malicioso sem que você sequer saiba. Um novo ataque 'YOLO' sequestra as próprias ferramentas nas quais sua IA confia, transformando-a em uma porta dos fundos para hackers.

Sua IA Foi Comprometida

Imagine seu agente de IA autônomo, executando tarefas incansavelmente, de repente se voltando contra você. Isso não é ficção científica sobre IA ganhando senciência; é uma nova e dura realidade descoberta por pesquisadores de cibersegurança. As próprias ferramentas projetadas para gerenciar o tráfego do seu Large Language Model (LLM), como roteadores de API como LiteLLM e OneAPI, abrigam uma enorme e negligenciada falha de segurança em sua stack.

Um artigo inovador, 'Your Agent is Mine,' expôs recentemente essa vulnerabilidade, provando que toda a cadeia de suprimentos de LLM é atualmente um playground para hackers sofisticados. Esta pesquisa, da University of California, Santa Barbara, e da Fuzzland, revela uma nova classe de ameaça que se estende muito além das técnicas tradicionais de prompt injection.

Pesquisadores chamam isso de Ataque de Intermediário Malicioso. Ao contrário da prompt injection, que manipula a entrada do modelo, este ataque visa o próprio canal de comunicação. Como não existe uma assinatura criptográfica de ponta a ponta entre o provedor do modelo e sua máquina local, um roteador malicioso obtém acesso completo em texto simples a todas as solicitações e respostas, reescrevendo silenciosamente as diretrizes do modelo antes que seu agente as veja.

As implicações são aterrorizantes. Após testar mais de 400 roteadores de API LLM gratuitos e 28 pagos, os pesquisadores encontraram exploração ativa. Nove roteadores estavam injetando código malicioso em chamadas de ferramentas, 17 roteadores foram pegos roubando credenciais AWS plantadas, e um roteador até mesmo esvaziou com sucesso a carteira Ethereum de um pesquisador. Alguns até usam evasão adaptativa, esperando que os agentes entrem no 'modo YOLO' — operando autonomamente sem aprovação manual — antes de atacar.

O Man-in-the-Middle Que Você Convidou

Uma nova ameaça, apelidada de Ataque de Intermediário Malicioso, expõe uma vulnerabilidade crítica na cadeia de suprimentos de LLM. Este não é um hack tradicional; em vez disso, ele explora serviços de terceiros que você integra voluntariamente nas operações do seu agente de IA. Pesquisadores da University of California, Santa Barbara, e da Fuzzland detalharam isso em seu artigo "Your Agent is Mine," revelando como componentes confiáveis se tornam condutos para comprometimento.

Muitos desenvolvedores confiam em roteadores de API LLM como LiteLLM e OneAPI para otimizar sua infraestrutura de IA. Esses serviços consolidam chamadas de API, gerenciam o acesso a modelos e otimizam o uso de créditos em vários grandes modelos de linguagem. Eles oferecem conveniência, atuando como um hub centralizado para todas as interações agente-modelo, tornando-os uma parte indispensável das stacks de desenvolvimento de IA modernas.

No entanto, essa conveniência vem com uma falha de segurança profunda: uma fundamental falta de assinatura criptográfica de ponta a ponta entre seu agente e o provedor de modelo upstream. Quando seu agente envia uma solicitação através de um desses roteadores, o roteador encerra a sessão TLS, obtendo acesso completo em texto simples a cada pedaço de dado. Isso significa que o intermediário vê tudo o que seu agente envia e recebe, completamente sem criptografia.

Considere isso como um carteiro digital que não apenas lida com sua correspondência, mas também a abre, lê e pode alterar seu conteúdo antes de entregá-la. Este intermediário pode reescrever silenciosamente as respostas do modelo, injetar novas instruções ou extrair informações sensíveis sem que seu agente ou o provedor de LLM jamais saibam. Ele detém efetivamente as chaves da comunicação do seu agente.

As consequências são terríveis e já evidentes na natureza. Pesquisadores testaram mais de 400 roteadores gratuitos e pagos, descobrindo atividades alarmantes: - 9 roteadores injetando ativamente código malicioso em tool calls. - 17 roteadores roubando AWS credentials plantadas como canários. - 1 roteador drenou com sucesso a Ethereum wallet de um pesquisador. Alguns até usam evasão adaptativa, esperando que os agentes entrem no "YOLO mode"—operação autônoma sem aprovação manual—antes de lançar ataques direcionados.

Isto Não É Outra Prompt Injection

Malicious Intermediary Attacks (MIAs) representam uma ameaça fundamentalmente diferente da prompt injection. Enquanto a prompt injection manipula a entrada de um LLM para contornar guardrails ou obter texto específico e não intencional, os MIAs operam em uma fase posterior e mais crítica.

Este ataque intercepta e altera a saída do LLM, visando especificamente tool calls ou execuções de funções, antes que seu agente veja a resposta autêntica. Imagine seu agente pedindo um Python script, e um intermediário o troca silenciosamente por uma versão maliciosa.

Esta não é uma fraqueza da camada do modelo; é uma vulnerabilidade da camada de aplicação, da cadeia de suprimentos, designada OWASP LLM03. API routers de terceiros, usados para gerenciar LLM credits ou traffic, são alvos principais. A falta de assinaturas criptográficas de ponta a ponta permite que esses roteadores tenham acesso completo em texto simples às respostas do modelo.

Defesas tradicionais contra prompt injection – sanitizadores de entrada, firewalls e filtros de conteúdo – são totalmente ineficazes. Essas ferramentas se concentram em examinar o que entra no LLM. Elas não oferecem proteção quando a manipulação maliciosa ocorre depois que o LLM gerou sua resposta, mas antes que seu agente aja sobre ela.

Um artigo recente, "Your Agent Is Mine: Measuring Malicious Intermediary Attacks on the LLM Supply Chain," revelou a escala alarmante desta ameaça. Pesquisadores testaram mais de 400 LLM API routers gratuitos e pagos, revelando comprometimento generalizado.

Suas descobertas são claras: - 9 roteadores injetaram ativamente código malicioso em tool calls, trocando comandos legítimos como `pip install requests` por pacotes typo-squatted controlados por atacantes. - 17 roteadores foram pegos roubando AWS credentials, plantadas como canários em ambientes de teste. - Um roteador drenou com sucesso a Ethereum wallet de um pesquisador.

Alguns intermediários maliciosos até demonstraram evasão adaptativa, esperando por condições específicas, como um agente operando autonomamente em "YOLO mode" (sem aprovação manual), antes de lançar seus ataques. Isso destaca uma vulnerabilidade sofisticada e sistêmica, exigindo atenção imediata além da simples validação de entrada.

Ataque #1: Plantando um Cavalo de Troia Digital

Atacantes utilizam Payload Injection, o primeiro tipo de ataque central, explorando o acesso completo em texto simples do intermediário ao LLM traffic. Esta vulnerabilidade permite que um roteador malicioso reescreva silenciosamente a resposta de um modelo antes que um agente a veja.

Considere um cenário onde seu agente autônomo pede ao LLM uma Python library comum, levando o modelo a gerar a tool call `pip install requests`. Um roteador comprometido intercepta esta solicitação legítima.

O roteador então troca secretamente o comando, substituindo o pacote benigno por um typo-squatted package que possui um nome semelhante, mas contém código malicioso. Seu agente, sem saber da alteração, prossegue para executar o comando modificado.

Esta substituição aparentemente menor desencadeia consequências devastadoras. O pacote malicioso instala uma reverse shell, concedendo imediatamente ao atacante remote code execution (RCE) e comprometimento total do sistema. O atacante obtém acesso irrestrito ao ambiente de host do agente.

Agentes autônomos são fundamentalmente projetados para confiar e executar chamadas de ferramentas geradas pelo LLM. Essa escolha de design inerente, crucial para sua funcionalidade, torna-se o vetor de ataque perfeito. Os agentes executam esses comandos sem escrutínio adicional, abrindo um pipeline direto para que os atacantes injetem código arbitrário em sistemas críticos.

Pesquisadores identificaram nove roteadores injetando ativamente código malicioso em chamadas de ferramentas em seu extenso estudo de mais de 400 roteadores de API LLM gratuitos e pagos. Isso demonstra a ameaça imediata e generalizada que essa vulnerabilidade representa para a cadeia de suprimentos do LLM.

Ataque #2: O Sifão de Dados Silencioso

Além de injetar ativamente payloads maliciosos, os atacantes empregam uma segunda tática, igualmente insidiosa: Exfiltração Secreta. Este ataque é passivo e invisível, transformando seu roteador LLM confiável em um sifão de dados silencioso. Ele não modifica as ações do seu agente; em vez disso, ele simplesmente observa e coleta.

Roteadores, posicionados como intermediários críticos, possuem acesso total em texto simples a cada pedaço de dados fluindo entre seu agente e o grande modelo de linguagem. Essa posição privilegiada permite que eles escaneiem continuamente todo o tráfego de entrada e saída. Eles implantam padrões de regex sofisticados, procurando constantemente por strings específicas de alta entropia que denunciam informações sensíveis. Essa vigilância silenciosa e persistente torna o ataque incrivelmente difícil de detectar, operando inteiramente em segundo plano sem alterar qualquer comportamento visível.

Atacantes visam especificamente credenciais de alto valor que concedem acesso irrestrito à infraestrutura de nuvem, repositórios de código e ativos financeiros. Isso inclui: - AWS keys, que podem desbloquear ambientes de nuvem e armazenamento de dados - GitHub tokens, fornecendo acesso a bases de código privadas e pipelines de desenvolvimento - Ethereum private keys, essenciais para controlar e transferir participações em criptomoedas Uma vez capturados, esses segredos fornecem um caminho direto e não autenticado para que os atacantes comprometam sistemas críticos, roubem propriedade intelectual ou esvaziem carteiras digitais.

Pesquisadores do estudo "Your Agent is Mine" expuseram a prevalência alarmante dessa ameaça em toda a cadeia de suprimentos do LLM. Após examinar mais de 400 roteadores gratuitos e pagos de comunidades públicas e lojas, suas descobertas foram claras e imediatas. Eles confirmaram que 17 roteadores estavam roubando ativamente AWS credentials plantadas como iscas, demonstrando uma vulnerabilidade generalizada e ativa dentro desses intermediários aparentemente benignos.

A investigação revelou um resultado ainda mais aterrorizante que transcende o roubo de dados: um roteador malicioso esvaziou com sucesso a Ethereum wallet de um pesquisador. Este incidente único e devastador ressalta o potencial financeiro catastrófico da exfiltração secreta. Seu agente de IA autônomo, roteando comandos e dados sensíveis sem saber através de um intermediário comprometido, torna-se um cúmplice involuntário em sua própria ruína financeira ou no comprometimento completo de sua infraestrutura.

Dentro da 'Honeypot' dos Pesquisadores

Pesquisadores por trás de "Your Agent is Mine" expuseram uma vulnerabilidade crítica dentro da LLM supply chain, revelando como hackers exploram serviços intermediários. Seu artigo detalha um "Malicious Intermediary Attack", onde roteadores de API comprometidos obtêm acesso total em texto simples às solicitações do agente. Isso permite manipulação silenciosa antes que as respostas cheguem ao seu sistema.

A escala da investigação foi sem precedentes, testando mais de 400 roteadores gratuitos e pagos. Esses intermediários, frequentemente gerenciando créditos LLM via serviços como LiteLLM ou OneAPI, foram obtidos de comunidades públicas e grandes lojas como Taobao e Shopify. O estudo criou efetivamente um vasto "honeypot" para observar ataques no mundo real.

As descobertas desta extensa pesquisa foram contundentes. Os pesquisadores descobriram: - 9 roteadores injetando ativamente código malicioso em chamadas de ferramentas. - 17 roteadores envolvidos no roubo de credenciais. - 1 roteador drenou com sucesso a carteira Ethereum de um pesquisador. Essas estatísticas confirmam um ambiente de ameaça generalizado e ativo.

Para rastrear o roubo de credenciais, os pesquisadores empregaram um método canary inteligente. Eles plantaram estrategicamente chaves AWS falsas, tokens GitHub e chaves privadas Ethereum dentro de solicitações de teste. Quando esses "canaries" foram posteriormente usados por atores externos, provou-se inequivocamente que o roteador havia desviado os dados sensíveis. Essa exfiltração passiva e invisível representa um risco grave.

Alguns intermediários maliciosos demonstraram táticas avançadas, incluindo evasão adaptativa. Esses roteadores esperaram por condições específicas, como um agente entrando em "YOLO mode" – operando autonomamente sem aprovação manual – antes de lançar seu ataque. Para insights técnicos mais aprofundados sobre essas descobertas, explore a pesquisa Malicious Intermediary Attacks on LLM Supply Chain - Emergent Mind. Essa abordagem sofisticada destaca a natureza evolutiva das ameaças de agentes de IA.

Esperando pelo 'YOLO Mode'

A revelação mais aterrorizante do artigo de pesquisa "Your Agent is Mine" não é apenas a existência de intermediários maliciosos; é a sua astúcia. Pesquisadores descobriram instâncias de evasão adaptativa, uma técnica sofisticada onde roteadores comprometidos permanecem dormentes, observando o comportamento do agente antes de lançar um ataque direcionado. Essa abordagem paciente aumenta drasticamente a probabilidade de um ataque bem-sucedido e devastador, tornando as medidas de segurança tradicionais menos eficazes.

Os atacantes frequentemente esperam pelo que os pesquisadores chamam de "YOLO Mode". Este estado crítico ocorre quando um agente de IA autônomo opera sem aprovação manual, executando comandos e interagindo com sistemas completamente sem supervisão. Uma vez que um agente entra no YOLO Mode, o intermediário tem carta branca, sem as restrições da supervisão humana que poderia sinalizar atividades suspeitas.

Roteadores maliciosos não esperam apenas pela autonomia; eles também monitoram os níveis de atividade. Alguns intermediários observados pelos pesquisadores da University of California, Santa Barbara, e Fuzzland esperaram por um número específico de solicitações – às vezes até 50 chamadas anteriores – antes de iniciar seu ataque. Essa execução atrasada os ajuda a se misturar aos padrões de tráfego normais, tornando a detecção incrivelmente difícil para desenvolvedores e equipes de segurança.

A precisão desses ataques é igualmente alarmante. Alguns roteadores maliciosos visam especificamente ambientes de desenvolvimento. Eles escaneiam pacientemente por projetos construídos usando linguagens de programação específicas, como Rust ou Go, antes de injetar malware direcionado a dependências. Isso permite que os atacantes entreguem payloads altamente relevantes e eficazes, explorando vulnerabilidades nas toolchains ou bibliotecas comumente usadas por esses ecossistemas.

Considere as implicações: um agente de IA, encarregado de um trabalho de desenvolvimento complexo, roteia seu tráfego sem saber através de um intermediário comprometido. O roteador observa as tarefas iniciais inócuas do agente, talvez buscando documentação ou realizando uma análise de dados simples.

Ele espera silenciosamente até que o agente faça a transição para a operação autônoma ou atinja um limite de solicitação predefinido. Então, quando o agente tenta instalar um pacote para um projeto Rust, o roteador malicioso troca a dependência legítima por uma versão controlada pelo invasor, com typo-squatting, concedendo instantaneamente um reverse shell ou exfiltrando dados sensíveis. Essa agressão silenciosa e calculada destaca uma profunda mudança no cenário de ameaças.

LiteLLM: Quando a Teoria se Torna Realidade

Março de 2026 trouxe os perigos teóricos da pesquisa "Your Agent is Mine" para a dura realidade com o comprometimento do LiteLLM. Este incidente de alto perfil provou que as vulnerabilidades identificadas pelos pesquisadores não eram especulativas, mas ativamente exploradas na prática, transformando um roteador de API LLM amplamente utilizado em um vetor para ciberataques sofisticados contra sistemas de produção.

Os invasores executaram um astuto ataque de confusão de dependência contra o LiteLLM, um popular pacote Python projetado para simplificar o roteamento de solicitações para vários LLMs e gerenciar chaves de API. Eles injetaram código malicioso em versões específicas do software, transformando silenciosamente instalações legítimas em ferramentas de espionagem. Este sofisticado ataque à cadeia de suprimentos demonstrou o profundo risco representado por componentes de terceiros aparentemente inócuos no caminho crítico das operações de agentes de IA.

As consequências foram imediatas e severas, impactando qualquer organização que utilizasse as versões comprometidas. As instâncias do LiteLLM tornaram-se sifões de dados involuntários, permitindo o roubo de informações operacionais críticas de seus usuários. Os invasores exfiltraram com sucesso um tesouro de dados sensíveis, incluindo: - credenciais de nuvem - chaves SSH - segredos do Kubernetes

Esta violação no mundo real validou inequivocamente a ameaça de Ataques de Intermediários Maliciosos, levando-a muito além dos artigos acadêmicos. Ela consolidou as descobertas da pesquisa, ilustrando como agentes de IA autônomos, quando roteados através de intermediários comprometidos, inadvertidamente se tornam instrumentos para sua própria ruína, vazando acesso vital à infraestrutura. Isso não é outra injeção de prompt; é uma quebra fundamental de confiança na cadeia de suprimentos de LLM.

Organizações que dependem de roteadores LLM de terceiros devem agora confrontar um perigo tangível e imediato para sua infraestrutura central. O incidente do LiteLLM serve como um aviso severo: a segurança de sua pilha de IA é tão forte quanto seu elo mais fraco, muitas vezes um componente não verificado ou comprometido nas profundezas da cadeia de suprimentos. Os invasores estão ativamente visando essas camadas intermediárias, destacando a necessidade urgente de uma verificação rigorosa e integridade criptográfica de ponta a ponta em todo o ecossistema LLM. A ameaça está aqui.

O Elo Quebrado na Cadeia de Confiança

Roteadores de API LLM, frequentemente implantados para gerenciar custos ou unificar o acesso, operam em um limite crítico de confiança. Esses intermediários, incluindo serviços como LiteLLM e OneAPI, são frequentemente tratados como tubos transparentes. No entanto, eles são participantes ativos na cadeia de comunicação, tornando-os um alvo principal para atores maliciosos. Essa falha técnica fundamental expõe toda a cadeia de suprimentos de LLM a comprometimento.

A criptografia TLS padrão não oferece santuário contra essa ameaça. Embora o TLS proteja a conexão entre seu agente e o roteador, o próprio roteador é o ponto final dessa sessão. Ele descriptografa totalmente todas as solicitações de entrada e respostas de saída. Isso concede ao intermediário acesso completo e em texto simples a dados sensíveis e chamadas de ferramentas, permitindo modificações silenciosas antes da recriptografia e encaminhamento.

Pesquisadores por trás do artigo "Your Agent is Mine" destacaram esta vulnerabilidade sistêmica. Eles concluem que o ecossistema atual de LLM depende de 'confiança frágil em intermediários', uma confiança consistentemente traída em suas descobertas. O estudo deles revelou 9 roteadores injetando ativamente código malicioso e 17 pegos roubando credenciais AWS, demonstrando diretamente essa confiança quebrada.

A única defesa robusta contra intermediários maliciosos envolve envelopes criptográficos. Este mecanismo exige que os provedores de LLM assinem criptograficamente suas respostas canônicas. Quando seu agente recebe a saída de um modelo, ele verifica independentemente a assinatura, provando a origem da mensagem e garantindo que nenhum intermediário adulterou o conteúdo.

A implementação de respostas assinadas pelo provedor cria uma cadeia de confiança imutável, estendendo-se do provedor de LLM diretamente ao seu agente. Sem esta origem verificável, cada roteador de API permanece um vetor potencial para injeção de payload e exfiltração de segredos. Esta mudança arquitetônica é crucial para prevenir incidentes como o comprometimento do LiteLLM e proteger contra perdas financeiras, conforme detalhado em relatórios como Researchers discover malicious AI agent routers that can steal crypto - Cryptonews.net. Esta é a única maneira de proteger agentes autônomos de manipulação invisível.

Como Armar Seu Agente de IA Hoje

Desenvolvedores e organizações enfrentam um imperativo imediato: fortificar seus agentes de IA contra a ameaça insidiosa de Ataques de Intermediários Maliciosos. A cadeia de suprimentos de LLM, antes percebida como transparente, agora se revela uma superfície de ataque crítica que exige a mesma postura de segurança rigorosa que qualquer outra infraestrutura central. Medidas proativas não são mais opcionais, mas essenciais para salvaguardar dados sensíveis e a integridade operacional.

Vigilância extrema é primordial ao considerar qualquer serviço intermediário de terceiros — seja um roteador de API como LiteLLM ou OneAPI, ou um proxy personalizado gerenciando créditos de LLM. A pesquisa "Your Agent is Mine" demonstrou claramente o perigo: 9 roteadores injetaram ativamente código malicioso, 17 roubaram credenciais AWS, e um até mesmo esvaziou uma carteira Ethereum. Onde viável, as organizações devem priorizar a auto-hospedagem desses componentes cruciais, mantendo controle direto sobre o fluxo de dados e eliminando a dependência de entidades externas não verificadas. Auditorias de segurança completas são indispensáveis para qualquer serviço de terceiros considerado inevitável.

Implemente defesas robustas do lado do cliente diretamente no ambiente de execução do seu agente. Crucialmente, adote uma política de falha fechada para todas as chamadas de ferramentas e comandos. Em vez de permitir tudo por padrão, permita explicitamente apenas funções, APIs e comandos de shell aprovados. Isso impede que instruções maliciosas sejam executadas mesmo se injetadas. Além disso, implemente triagem de anomalias do lado da resposta para inspecionar meticulosamente as saídas do modelo em busca de padrões suspeitos, chamadas de ferramentas inesperadas ou desvios do comportamento estabelecido antes que qualquer ação seja tomada. Nunca opere agentes em um "modo YOLO" irrestrito que ignore a supervisão humana ou verificações automatizadas.

A solução de longo prazo exige uma mudança fundamental dos principais provedores de modelos. OpenAI, Google e Anthropic devem desenvolver e implementar colaborativamente assinaturas criptográficas de ponta a ponta para todas as respostas de LLM. Tais assinaturas verificariam a integridade e autenticidade das saídas, garantindo que a resposta recebida pelo agente é precisamente o que o modelo gerou, intocada por qualquer intermediário. Este primitivo de segurança crítico neutralizaria efetivamente os Ataques de Intermediários Maliciosos, tornando a adulteração instantaneamente detectável.

Proteger a cadeia de suprimentos de LLM exige um esforço coletivo da indústria. Desde desenvolvedores individuais adotando práticas de segurança rigorosas até empresas líderes de AI incorporando confiança criptográfica no nível do protocolo, cada elo da cadeia deve ser fortalecido. Só então poderemos realmente confiar nos agentes autônomos que capacitamos, garantindo que permaneçam aliados poderosos, e não instrumentos involuntários de comprometimento.

Perguntas Frequentes

O que é o 'YOLO' Attack na segurança de LLM?

O 'YOLO' Attack é um tipo de Malicious Intermediary Attack onde um API router comprometido intercepta e altera as tool calls que um LLM faz. Ele recebe esse nome porque os atacantes agem depois que um AI agent entra no modo 'You Only Look Once' (YOLO), operando autonomamente sem aprovação humana.

Como o YOLO Attack é diferente da prompt injection?

A prompt injection engana o LLM para que ele se comporte mal. O YOLO Attack não visa o modelo em si; ele visa a cadeia de suprimentos. Um router malicioso reescreve a saída legítima do modelo (como um comando) depois que ela foi gerada, tornando-o um ataque de pós-processamento, man-in-the-middle.

O que é um LLM API router e por que ele é uma vulnerabilidade?

Um LLM API router é um serviço que gerencia requisições para múltiplos provedores de LLM para otimização de custos ou balanceamento de carga. Ele se torna uma vulnerabilidade porque se posiciona entre o usuário e o provedor do modelo com acesso completo em texto puro a todos os dados, permitindo que um router malicioso leia ou modifique qualquer coisa.

Como os desenvolvedores podem proteger seus AI agents contra este ataque?

Os desenvolvedores devem verificar todos os serviços de terceiros, evitar o uso de API routers não confiáveis e implementar client-side checks em tool calls. A solução definitiva exige que os provedores de modelo implementem end-to-end cryptographic signatures para verificar a origem e a integridade de suas respostas.

𝕏 in ↑↗

One weekly email of tools worth shipping. No drip funnel.

one email per week · unsubscribe in two clicks · no third-party tracking

Seu Agente de IA é Secretamente um Hacker