El YOLO Attack: Cómo los hackers secuestran las LLM Tool Calls para tus datos

Resumen / Puntos clave

Tu LLM agent podría estar ejecutando código malicioso sin que lo sepas. Un nuevo ataque 'YOLO' secuestra las mismas herramientas en las que se basa tu AI, convirtiéndola en una puerta trasera para los hackers.

Tu AI Ha Sido Comprometida

Imagina tu AI agent autónomo, ejecutando tareas incansablemente, de repente volviéndose en tu contra. Esto no es ciencia ficción sobre AI adquiriendo consciencia; es una cruda nueva realidad descubierta por investigadores de ciberseguridad. Las mismas herramientas diseñadas para gestionar tu tráfico de Large Language Model (LLM), como los API routers como LiteLLM y OneAPI, albergan un enorme y pasado por alto agujero de seguridad en tu stack.

Un innovador artículo, 'Your Agent is Mine,' expuso recientemente esta vulnerabilidad, demostrando que toda la LLM supply chain es actualmente un patio de juegos para hackers sofisticados. Esta investigación, de la University of California, Santa Barbara, y Fuzzland, desvela una nueva clase de amenaza que se extiende mucho más allá de las técnicas tradicionales de prompt injection.

Los investigadores llaman a esto un Malicious Intermediary Attack. A diferencia del prompt injection, que manipula la entrada del modelo, este ataque se dirige al propio canal de comunicación. Debido a que no existe una firma criptográfica de extremo a extremo entre el proveedor del modelo y tu máquina local, un router malicioso obtiene acceso completo en texto plano a todas las solicitudes y respuestas, reescribiendo silenciosamente las directivas del modelo antes de que tu agent las vea.

Las implicaciones son aterradoras. Después de probar más de 400 LLM API routers gratuitos y 28 de pago, los investigadores encontraron explotación activa. Nueve routers estaban inyectando código malicioso en las llamadas a herramientas, 17 routers fueron sorprendidos robando AWS credentials plantadas, y un router incluso vació con éxito la Ethereum wallet de un investigador. Algunos incluso utilizan evasión adaptativa, esperando que los agents entren en 'YOLO mode' —operando de forma autónoma sin aprobación manual— antes de atacar.

El Man-in-the-Middle que Invitaste

Una nueva amenaza, denominada Malicious Intermediary Attack, expone una vulnerabilidad crítica en la LLM supply chain. Esto no es un hack tradicional; en cambio, aprovecha servicios de terceros que integras voluntariamente en las operaciones de tu AI agent. Investigadores de la University of California, Santa Barbara, y Fuzzland detallaron esto en su artículo "Your Agent is Mine," revelando cómo los componentes de confianza se convierten en conductos para el compromiso.

Muchos desarrolladores confían en LLM API routers como LiteLLM y OneAPI para optimizar su infraestructura de AI. Estos servicios consolidan las llamadas a API, gestionan el acceso a modelos y optimizan el uso de créditos en varios large language models. Ofrecen comodidad, actuando como un centro centralizado para todas las interacciones entre agent y modelo, lo que los convierte en una parte indispensable de los stacks de desarrollo de AI modernos.

Sin embargo, esta comodidad viene con una profunda falla de seguridad: una fundamental falta de firma criptográfica de extremo a extremo entre tu agent y el proveedor del modelo upstream. Cuando tu agent envía una solicitud a través de uno de estos routers, el router termina la TLS session, obteniendo acceso completo en texto plano a cada pieza de datos. Esto significa que el intermediario ve todo lo que tu agent envía y recibe, completamente sin cifrar.

Considera esto como un trabajador postal digital que no solo maneja tu correo, sino que también lo abre, lo lee y puede alterar su contenido antes de entregarlo. Este intermediario puede reescribir silenciosamente las respuestas del modelo, inyectar nuevas instrucciones o extraer información sensible sin que tu agent o el proveedor de LLM lo sepan. Efectivamente, tiene las llaves de la comunicación de tu agent.

Las consecuencias son nefastas y ya evidentes en la práctica. Investigadores probaron más de 400 routers gratuitos y de pago, descubriendo actividad alarmante: - 9 routers inyectando activamente código malicioso en llamadas a herramientas. - 17 routers robando credenciales de AWS plantadas como canarios. - 1 router vació con éxito la billetera de Ethereum de un investigador. Algunos incluso utilizan evasión adaptativa, esperando que los agentes entren en "YOLO mode" —operación autónoma sin aprobación manual— antes de lanzar ataques dirigidos.

Esto No Es Otra Inyección de Prompt

Los Ataques de Intermediario Malicioso (MIAs) representan una amenaza fundamentalmente diferente a la inyección de prompt. Mientras que la inyección de prompt manipula la entrada de un LLM para eludir las barreras de seguridad o provocar texto específico e involuntario, los MIAs operan en una etapa posterior y más crítica.

Este ataque intercepta y altera la salida del LLM, dirigiéndose específicamente a las llamadas a herramientas o ejecuciones de funciones, antes de que su agente vea la respuesta auténtica. Imagine que su agente solicita un script de Python, y un intermediario lo cambia silenciosamente por una versión maliciosa.

Esto no es una debilidad de la capa del modelo; es una vulnerabilidad de la cadena de suministro de la capa de aplicación, designada OWASP LLM03. Los routers de API de terceros, utilizados para gestionar créditos o tráfico de LLM, son objetivos principales. La falta de firmas criptográficas de extremo a extremo permite a estos routers acceso completo en texto plano a las respuestas del modelo.

Las defensas tradicionales contra la inyección de prompt – saneadores de entrada, firewalls y filtros de contenido – son completamente ineficaces. Estas herramientas se centran en escudriñar lo que entra en el LLM. No ofrecen protección cuando la manipulación maliciosa ocurre después de que el LLM ha generado su respuesta pero antes de que su agente actúe sobre ella.

Un artículo reciente, "Your Agent Is Mine: Measuring Malicious Intermediary Attacks on the LLM Supply Chain," reveló la alarmante escala de esta amenaza. Investigadores probaron más de 400 routers de API de LLM gratuitos y de pago, revelando un compromiso generalizado.

Sus hallazgos son contundentes: - 9 routers inyectaron activamente código malicioso en llamadas a herramientas, intercambiando comandos legítimos como `pip install requests` por paquetes typo-squatted controlados por el atacante. - 17 routers fueron sorprendidos robando credenciales de AWS, plantadas como canarios en entornos de prueba. - Un router vació con éxito la billetera de Ethereum de un investigador.

Algunos intermediarios maliciosos incluso demostraron evasión adaptativa, esperando condiciones específicas, como un agente operando de forma autónoma en "YOLO mode" (sin aprobación manual), antes de lanzar sus ataques. Esto resalta una vulnerabilidad sofisticada y sistémica, que exige atención inmediata más allá de la simple validación de entrada.

Ataque #1: Plantando un Caballo de Troya Digital

Los atacantes aprovechan la Inyección de Carga Útil, el primer tipo de ataque principal, explotando el acceso completo en texto plano del intermediario al tráfico del LLM. Esta vulnerabilidad permite que un router malicioso reescriba silenciosamente la respuesta de un modelo antes de que un agente la vea.

Considere un escenario en el que su agente autónomo solicita al LLM una biblioteca común de Python, lo que incita al modelo a generar la llamada a herramienta `pip install requests`. Un router comprometido intercepta esta solicitud legítima.

El router luego intercambia encubiertamente el comando, reemplazando el paquete benigno con un paquete typo-squatted que tiene un nombre similar pero contiene código malicioso. Su agente, sin darse cuenta de la alteración, procede a ejecutar el comando modificado.

Esta sustitución aparentemente menor desencadena consecuencias devastadoras. El paquete malicioso instala una reverse shell, otorgando inmediatamente al atacante ejecución remota de código (RCE) y compromiso total del sistema. El atacante obtiene acceso sin restricciones al entorno del host del agente.

Los agentes autónomos están fundamentalmente diseñados para confiar y ejecutar las llamadas a herramientas generadas por el LLM. Esta elección de diseño inherente, crucial para su funcionalidad, se convierte en el vector de ataque perfecto. Los agentes ejecutan estos comandos sin mayor escrutinio, abriendo una vía directa para que los atacantes inyecten código arbitrario en sistemas críticos.

Los investigadores identificaron nueve routers que inyectaban activamente código malicioso en las llamadas a herramientas a lo largo de su extenso estudio de más de 400 routers de API de LLM gratuitos y de pago. Esto demuestra la amenaza inmediata y generalizada que esta vulnerabilidad representa para la cadena de suministro del LLM.

Ataque #2: El Sifón Silencioso de Datos

Más allá de la inyección activa de cargas útiles maliciosas, los atacantes emplean una segunda táctica, igualmente insidiosa: la Exfiltración Secreta. Este ataque es pasivo e invisible, transformando su router de LLM de confianza en un sifón silencioso de datos. No modifica las acciones de su agente; en cambio, simplemente observa y recopila.

Los routers, posicionados como intermediarios críticos, poseen acceso completo en texto plano a cada pieza de datos que fluye entre su agente y el modelo de lenguaje grande. Esta posición privilegiada les permite escanear continuamente todo el tráfico entrante y saliente. Despliegan patrones de regex sofisticados, buscando constantemente cadenas específicas de alta entropía que delatan información sensible. Esta vigilancia silenciosa y persistente hace que el ataque sea increíblemente difícil de detectar, operando completamente en segundo plano sin alterar ningún comportamiento visible.

Los atacantes se dirigen específicamente a credenciales de alto valor que otorgan acceso sin restricciones a la infraestructura en la nube, repositorios de código y activos financieros. Estos incluyen: - Claves AWS, que pueden desbloquear entornos en la nube y almacenamiento de datos - Tokens GitHub, que proporcionan acceso a bases de código privadas y pipelines de desarrollo - Claves privadas Ethereum, esenciales para controlar y transferir tenencias de criptomonedas Una vez capturados, estos secretos proporcionan una vía directa y no autenticada para que los atacantes comprometan sistemas críticos, roben propiedad intelectual o vacíen monederos digitales.

Investigadores del estudio "Your Agent is Mine" expusieron la alarmante prevalencia de esta amenaza en toda la cadena de suministro del LLM. Después de examinar más de 400 routers gratuitos y de pago de comunidades públicas y tiendas, sus hallazgos fueron contundentes e inmediatos. Confirmaron que 17 routers estaban robando activamente credenciales AWS plantadas como canarios, lo que demuestra una vulnerabilidad generalizada y activa dentro de estos intermediarios aparentemente benignos.

La investigación reveló un resultado aún más aterrador que trasciende el robo de datos: un router malicioso vació con éxito el monedero Ethereum de un investigador. Este incidente único y devastador subraya el potencial financiero catastrófico de la exfiltración secreta. Su agente de IA autónomo, que sin saberlo enruta comandos y datos sensibles a través de un intermediario comprometido, se convierte en un cómplice involuntario de su propia ruina financiera o del compromiso total de su infraestructura.

Dentro del 'Honeypot' de los Investigadores

Investigadores detrás de "Your Agent is Mine" expusieron una vulnerabilidad crítica dentro de la cadena de suministro del LLM, revelando cómo los hackers explotan los servicios intermediarios. Su artículo detalla un "Ataque de Intermediario Malicioso", donde los routers de API comprometidos obtienen acceso completo en texto plano a las solicitudes del agente. Esto permite una manipulación silenciosa antes de que las respuestas lleguen a su sistema.

La escala de su investigación no tenía precedentes, probando más de 400 routers gratuitos y de pago. Estos intermediarios, que a menudo gestionan créditos de LLM a través de servicios como LiteLLM o OneAPI, se obtuvieron de comunidades públicas y grandes tiendas como Taobao y Shopify. El estudio creó eficazmente una vasta "honeypot" para observar ataques en el mundo real.

Los hallazgos de esta extensa investigación fueron contundentes. Los investigadores descubrieron: - 9 routers inyectando activamente código malicioso en las llamadas a herramientas. - 17 routers involucrados en el robo de credenciales. - 1 router vació con éxito la billetera Ethereum de un investigador. Estas estadísticas confirman un entorno de amenazas generalizado y activo.

Para rastrear el robo de credenciales, los investigadores emplearon un ingenioso método de canary. Plantaron estratégicamente claves falsas de AWS, tokens de GitHub y claves privadas de Ethereum dentro de las solicitudes de prueba. Cuando estos "canaries" fueron utilizados posteriormente por actores externos, se demostró inequívocamente que el router había sustraído los datos sensibles. Esta exfiltración pasiva e invisible representa un riesgo grave.

Algunos intermediarios maliciosos demostraron tácticas avanzadas, incluyendo la evasión adaptativa. Estos routers esperaron a condiciones específicas, como que un agente entrara en "YOLO mode" – operando de forma autónoma sin aprobación manual – antes de lanzar su ataque. Para obtener información técnica más profunda sobre estos hallazgos, explore la investigación Malicious Intermediary Attacks on LLM Supply Chain - Emergent Mind. Este enfoque sofisticado resalta la naturaleza evolutiva de las amenazas de los agentes de IA.

Esperando el 'YOLO Mode'

La revelación más aterradora del artículo de investigación "Your Agent is Mine" no es solo la existencia de intermediarios maliciosos; es su astucia. Los investigadores descubrieron casos de evasión adaptativa, una técnica sofisticada en la que los routers comprometidos permanecen inactivos, observando el comportamiento del agente antes de lanzar un ataque dirigido. Este enfoque paciente aumenta drásticamente la probabilidad de un ataque exitoso y devastador, haciendo que las medidas de seguridad tradicionales sean menos efectivas.

Los atacantes a menudo esperan lo que los investigadores denominan "YOLO Mode". Este estado crítico ocurre cuando un agente de IA autónomo opera sin aprobación manual, ejecutando comandos e interactuando con sistemas completamente sin supervisión. Una vez que un agente entra en YOLO Mode, el intermediario tiene vía libre, sin las restricciones de la supervisión humana que podría señalar actividad sospechosa.

Los routers maliciosos no solo esperan la autonomía; también monitorean los niveles de actividad. Algunos intermediarios observados por los investigadores de la University of California, Santa Barbara, y Fuzzland esperaron un número específico de solicitudes —a veces hasta 50 llamadas previas— antes de iniciar su ataque. Esta ejecución retrasada les ayuda a mezclarse con los patrones de tráfico normales, haciendo que la detección sea increíblemente difícil para los desarrolladores y los equipos de seguridad.

La precisión de estos ataques es igualmente alarmante. Algunos routers maliciosos se dirigen específicamente a entornos de desarrollo. Escanean pacientemente en busca de proyectos construidos utilizando lenguajes de programación específicos, como Rust o Go, antes de inyectar malware dirigido a dependencias. Esto permite a los atacantes entregar cargas útiles altamente relevantes y efectivas, explotando vulnerabilidades en las cadenas de herramientas o bibliotecas comúnmente utilizadas por esos ecosistemas.

Considere las implicaciones: un agente de IA, encargado de un trabajo de desarrollo complejo, enruta su tráfico sin saberlo a través de un intermediario comprometido. El router observa las tareas iniciales inofensivas del agente, quizás recuperando documentación o realizando un análisis de datos simple.

Espera en silencio hasta que el agente pasa a una operación autónoma o alcanza un umbral de solicitud predefinido. Luego, cuando el agente intenta instalar un paquete para un Rust project, el enrutador malicioso intercambia la dependencia legítima por una versión controlada por el atacante y con 'typo-squatting', otorgando instantáneamente un 'reverse shell' o exfiltrando datos sensibles. Esta agresión silenciosa y calculada resalta un cambio profundo en el panorama de amenazas.

LiteLLM: Cuando la teoría se convierte en realidad

Marzo de 2026 trajo los peligros teóricos de la investigación "Your Agent is Mine" a una cruda realidad con el compromiso de LiteLLM. Este incidente de alto perfil demostró que las vulnerabilidades identificadas por los investigadores no eran especulativas, sino que estaban siendo explotadas activamente en la práctica, transformando un LLM API router ampliamente utilizado en un vector para ciberataques sofisticados contra sistemas de producción.

Los atacantes ejecutaron un astuto ataque de dependency confusion contra LiteLLM, un popular Python package diseñado para simplificar el enrutamiento de solicitudes a varios LLMs y gestionar API keys. Inyectaron código malicioso en versiones específicas del software, convirtiendo silenciosamente instalaciones legítimas en herramientas de espionaje. Este sofisticado ataque a la cadena de suministro demostró el profundo riesgo que representan los componentes de terceros aparentemente inofensivos dentro de la ruta crítica de las AI agent operations.

Las consecuencias fueron inmediatas y graves, afectando a cualquier organización que utilizara las versiones comprometidas. Las instancias de LiteLLM se convirtieron en sifones de datos involuntarios, permitiendo el robo de información operativa crítica de sus usuarios. Los atacantes exfiltraron con éxito una gran cantidad de datos sensibles, incluyendo: - cloud credentials - SSH keys - Kubernetes secrets

Esta brecha en el mundo real validó inequívocamente la amenaza de los Malicious Intermediary Attacks, llevándola mucho más allá de los artículos académicos. Consolidó los hallazgos de la investigación, ilustrando cómo los autonomous AI agents, cuando se enrutan a través de intermediarios comprometidos, se convierten inadvertidamente en instrumentos de su propia perdición, filtrando acceso vital a la infraestructura. Esto no es otra prompt injection; es una brecha fundamental de confianza en la LLM supply chain.

Las organizaciones que dependen de LLM routers de terceros deben ahora enfrentar un peligro tangible e inmediato para su infraestructura central. El LiteLLM incident sirve como una dura advertencia: la seguridad de su AI stack es tan fuerte como su eslabón más débil, a menudo un componente no verificado o comprometido en lo profundo de la cadena de suministro. Los atacantes están apuntando activamente a estas capas intermedias, destacando la necesidad urgente de una verificación rigurosa y una integridad criptográfica de extremo a extremo en todo el LLM ecosystem. La amenaza está aquí.

El eslabón roto en la cadena de confianza

Los LLM API routers, a menudo desplegados para gestionar costos o unificar el acceso, operan en un límite de confianza crítico. Estos intermediarios, incluyendo servicios como LiteLLM y OneAPI, son frecuentemente tratados como tuberías transparentes. Sin embargo, son participantes activos en la cadena de comunicación, lo que los convierte en un objetivo principal para actores maliciosos. Esta falla técnica fundamental expone toda la LLM supply chain a un compromiso.

El TLS encryption estándar no ofrece refugio de esta amenaza. Si bien TLS asegura la conexión entre su agent y el router, el router mismo es el punto final de esa sesión. Desencripta completamente todas las solicitudes entrantes y las respuestas salientes. Esto otorga al intermediario acceso completo en texto plano a datos sensibles y tool calls, permitiendo una modificación silenciosa antes de la re-encriptación y el reenvío.

Investigadores detrás del artículo "Your Agent is Mine" destacaron esta vulnerabilidad sistémica. Concluyen que el ecosistema actual de LLM se basa en una 'confianza frágil en los intermediarios', una confianza consistentemente traicionada en sus hallazgos. Su estudio reveló 9 routers inyectando activamente código malicioso y 17 atrapados robando AWS credentials, demostrando directamente esta confianza rota.

La única defensa robusta contra intermediarios maliciosos implica sobres criptográficos. Este mecanismo requiere que los proveedores de LLM firmen criptográficamente sus respuestas canónicas. Cuando su agente recibe la salida de un modelo, verifica independientemente la firma, probando el origen del mensaje y asegurando que ningún intermediario ha alterado el contenido.

La implementación de respuestas firmadas por el proveedor crea una cadena de confianza inmutable, que se extiende desde el proveedor de LLM directamente hasta su agente. Sin este origen verificable, cada API router sigue siendo un vector potencial para la inyección de payloads y la exfiltración de secretos. Este cambio arquitectónico es crucial para prevenir incidentes como el compromiso de LiteLLM y salvaguardar contra pérdidas financieras, como se detalla en informes como Researchers discover malicious AI agent routers that can steal crypto - Cryptonews.net. Esta es la única forma de proteger a los agentes autónomos de la manipulación invisible.

Cómo blindar su agente de IA hoy

Desarrolladores y organizaciones se enfrentan a un imperativo inmediato: fortificar sus agentes de IA contra la insidiosa amenaza de los Ataques de Intermediarios Maliciosos. La cadena de suministro de LLM, una vez percibida como transparente, ahora se revela como una superficie de ataque crítica que exige la misma postura de seguridad rigurosa que cualquier otra infraestructura central. Las medidas proactivas ya no son opcionales, sino esenciales para salvaguardar los datos sensibles y la integridad operativa.

La vigilancia extrema es primordial al considerar cualquier servicio intermediario de terceros, ya sea un API router como LiteLLM o OneAPI, o un proxy personalizado que gestione créditos de LLM. La investigación "Your Agent is Mine" demostró claramente el peligro: 9 routers inyectaron activamente código malicioso, 17 robaron AWS credentials, y uno incluso vació un Ethereum wallet. Cuando sea factible, las organizaciones deben priorizar el autoalojamiento de estos componentes cruciales, manteniendo un control directo sobre el flujo de datos y eliminando la dependencia de entidades externas no verificadas. Las auditorías de seguridad exhaustivas son indispensables para cualquier servicio de terceros que se considere ineludible.

Implemente defensas robustas del lado del cliente directamente dentro del entorno de ejecución de su agente. Fundamentalmente, adopte una política de fail-closed para todas las llamadas a herramientas y comandos. En lugar de permitir todo por defecto, incluya explícitamente en una lista blanca solo las funciones, APIs y comandos de shell aprobados. Esto evita que se ejecuten instrucciones maliciosas incluso si son inyectadas. Además, implemente un filtrado de anomalías del lado de la respuesta para inspeccionar meticulosamente las salidas del modelo en busca de patrones sospechosos, llamadas a herramientas inesperadas o desviaciones del comportamiento establecido antes de que se realice cualquier acción. Nunca opere agentes en un "YOLO mode" sin restricciones que omita la supervisión humana o las verificaciones automatizadas.

La solución a largo plazo exige un cambio fundamental por parte de los principales proveedores de modelos. OpenAI, Google y Anthropic deben desarrollar e implementar colaborativamente firmas criptográficas de extremo a extremo para todas las respuestas de LLM. Dichas firmas verificarían la integridad y autenticidad de las salidas, garantizando que la respuesta recibida por el agente es precisamente lo que el modelo generó, sin ser alterada por ningún intermediario. Este primitivo de seguridad crítico neutralizaría eficazmente los Ataques de Intermediarios Maliciosos al hacer que la manipulación sea instantáneamente detectable.

Asegurar la cadena de suministro de LLM requiere un esfuerzo colectivo de la industria. Desde desarrolladores individuales que adoptan prácticas de seguridad rigurosas hasta empresas líderes de AI que integran la confianza criptográfica a nivel de protocolo, cada eslabón de la cadena debe fortalecerse. Solo entonces podremos confiar verdaderamente en los agentes autónomos que empoderamos, asegurando que sigan siendo aliados poderosos, no instrumentos involuntarios de compromiso.

Preguntas Frecuentes

¿Qué es el 'YOLO' Attack en la seguridad de LLM?

El 'YOLO' Attack es un tipo de Malicious Intermediary Attack donde un API router comprometido intercepta y altera las tool calls que realiza un LLM. Recibe su nombre de cuando los atacantes golpean después de que un AI agent entra en modo 'You Only Look Once' (YOLO), operando de forma autónoma sin aprobación humana.

¿En qué se diferencia el YOLO Attack de la prompt injection?

La prompt injection engaña al LLM para que se comporte mal. El YOLO Attack no ataca al modelo en sí; ataca la supply chain. Un router malicioso reescribe la salida legítima del modelo (como un comando) después de que ha sido generada, convirtiéndolo en un ataque de post-procesamiento, man-in-the-middle.

¿Qué es un LLM API router y por qué es una vulnerabilidad?

Un LLM API router es un servicio que gestiona solicitudes a múltiples proveedores de LLM para cost optimization o load balancing. Se convierte en una vulnerabilidad porque se interpone entre el usuario y el proveedor del modelo con acceso completo en plaintext a todos los datos, permitiendo que un router malicioso lea o modifique cualquier cosa.

¿Cómo pueden los desarrolladores proteger a sus AI agents de este ataque?

Los desarrolladores deben examinar todos los servicios de terceros, evitar el uso de API routers no confiables e implementar client-side checks en las tool calls. La solución definitiva requiere que los proveedores de modelos implementen end-to-end cryptographic signatures para verificar el origen y la integridad de sus respuestas.

𝕏 in ↑↗

One weekly email of tools worth shipping. No drip funnel.

one email per week · unsubscribe in two clicks · no third-party tracking

Tu AI Agent es Secretamente un Hacker