Votre agent IA est secrètement un hacker

Votre agent LLM pourrait exécuter du code malveillant à votre insu. Une nouvelle attaque 'YOLO' détourne les outils mêmes sur lesquels votre IA s'appuie, la transformant en une porte dérobée pour les hackers.

Stork.AI
Hero image for: Votre agent IA est secrètement un hacker
💡

En bref / Points clés

Votre agent LLM pourrait exécuter du code malveillant à votre insu. Une nouvelle attaque 'YOLO' détourne les outils mêmes sur lesquels votre IA s'appuie, la transformant en une porte dérobée pour les hackers.

Votre IA a été compromise

Imaginez votre agent IA autonome, exécutant inlassablement des tâches, se retournant soudainement contre vous. Ce n'est pas de la science-fiction sur l'IA acquérant la sentience ; c'est une nouvelle réalité brutale découverte par des chercheurs en cybersécurité. Les outils mêmes conçus pour gérer votre trafic de modèle de langage étendu (LLM), comme les routeurs API tels que LiteLLM et OneAPI, abritent une faille de sécurité massive et négligée dans votre pile.

Un article révolutionnaire, 'Your Agent is Mine,' a récemment exposé cette vulnérabilité, prouvant que l'ensemble de la chaîne d'approvisionnement des LLM est actuellement un terrain de jeu pour les hackers sophistiqués. Cette recherche, de l'Université de Californie, Santa Barbara, et Fuzzland, dévoile une nouvelle classe de menace qui s'étend bien au-delà des techniques traditionnelles d'injection de prompt.

Les chercheurs appellent cela une Malicious Intermediary Attack. Contrairement à l'injection de prompt, qui manipule l'entrée du modèle, cette attaque cible le canal de communication lui-même. Parce qu'aucune signature cryptographique de bout en bout n'existe entre le fournisseur de modèle et votre machine locale, un routeur malveillant obtient un accès complet en texte clair à toutes les requêtes et réponses, réécrivant silencieusement les directives du modèle avant que votre agent ne les voie.

Les implications sont terrifiantes. Après avoir testé plus de 400 routeurs API LLM gratuits et 28 payants, les chercheurs ont découvert une exploitation active. Neuf routeurs injectaient du code malveillant dans les appels d'outils, 17 routeurs ont été pris en flagrant délit de vol de crédentiels AWS plantés, et un routeur a même réussi à vider le portefeuille Ethereum d'un chercheur. Certains utilisent même l'évasion adaptative, attendant que les agents entrent en 'YOLO mode'—opérant de manière autonome sans approbation manuelle—avant de frapper.

L'homme du milieu que vous avez invité

Illustration : L'homme du milieu que vous avez invité
Illustration : L'homme du milieu que vous avez invité

Une nouvelle menace, surnommée la Malicious Intermediary Attack, expose une vulnérabilité critique dans la chaîne d'approvisionnement des LLM. Ce n'est pas un hack traditionnel ; au lieu de cela, elle exploite des services tiers que vous intégrez volontairement dans les opérations de votre agent IA. Des chercheurs de l'Université de Californie, Santa Barbara, et Fuzzland ont détaillé cela dans leur article "Your Agent is Mine," révélant comment des composants de confiance deviennent des conduits de compromission.

De nombreux développeurs s'appuient sur des routeurs API LLM comme LiteLLM et OneAPI pour rationaliser leur infrastructure IA. Ces services consolident les appels API, gèrent l'accès aux modèles et optimisent l'utilisation des crédits sur divers modèles de langage étendu. Ils offrent une commodité, agissant comme un hub centralisé pour toutes les interactions agent-modèle, ce qui en fait une partie indispensable des piles de développement IA modernes.

Cependant, cette commodité s'accompagne d'une faille de sécurité profonde : un manque fondamental de signature cryptographique de bout en bout entre votre agent et le fournisseur de modèle en amont. Lorsque votre agent envoie une requête via l'un de ces routeurs, le routeur termine la session TLS, obtenant un accès complet en texte clair à chaque élément de donnée. Cela signifie que l'intermédiaire voit tout ce que votre agent envoie et reçoit, complètement non chiffré.

Considérez cela comme un postier numérique qui non seulement gère votre courrier, mais l'ouvre, le lit et peut en modifier le contenu avant de le livrer. Cet intermédiaire peut réécrire silencieusement les réponses du modèle, injecter de nouvelles instructions ou extraire des informations sensibles sans que votre agent ou le fournisseur de LLM ne le sache jamais. Il détient effectivement les clés de la communication de votre agent.

Les conséquences sont désastreuses et déjà évidentes dans la nature. Des chercheurs ont testé plus de 400 routeurs gratuits et payants, découvrant une activité alarmante : - 9 routeurs injectant activement du code malveillant dans les appels d'outils. - 17 routeurs volant des identifiants AWS plantés comme canaris. - 1 routeur a réussi à vider le portefeuille Ethereum d'un chercheur. Certains utilisent même l'évasion adaptative, attendant que les agents entrent en « YOLO mode » — opération autonome sans approbation manuelle — avant de lancer des attaques ciblées.

Ce n'est pas une autre injection de Prompt

Les attaques par intermédiaires malveillants (MIAs) représentent une menace fondamentalement différente de l'injection de prompt. Alors que l'injection de prompt manipule l'*entrée* d'un LLM pour contourner les garde-fous ou obtenir un texte spécifique et involontaire, les MIAs opèrent à un stade ultérieur, plus critique.

Cette attaque intercepte et altère la *sortie* du LLM, ciblant spécifiquement les appels d'outils ou les exécutions de fonctions, *avant* que votre agent ne voie la réponse authentique. Imaginez votre agent demandant un script Python, et un intermédiaire le remplace silencieusement par une version malveillante.

Il ne s'agit pas d'une faiblesse de la couche modèle ; c'est une vulnérabilité de la couche application, de la chaîne d'approvisionnement, désignée OWASP LLM03. Les routeurs d'API tiers, utilisés pour gérer les crédits ou le trafic des LLM, sont des cibles privilégiées. L'absence de signatures cryptographiques de bout en bout permet à ces routeurs un accès complet en texte clair aux réponses du modèle.

Les défenses traditionnelles contre l'injection de prompt – les nettoyeurs d'entrée, les pare-feu et les filtres de contenu – sont totalement inefficaces. Ces outils se concentrent sur l'examen de ce qui *entre* dans le LLM. Ils n'offrent aucune protection lorsque la manipulation malveillante se produit *après* que le LLM a généré sa réponse mais *avant* que votre agent n'agisse en conséquence.

Un article récent, « Your Agent Is Mine: Measuring Malicious Intermediary Attacks on the LLM Supply Chain », a révélé l'ampleur alarmante de cette menace. Des chercheurs ont testé plus de 400 routeurs d'API LLM gratuits et payants, révélant une compromission généralisée.

Leurs découvertes sont frappantes : - 9 routeurs ont activement injecté du code malveillant dans les appels d'outils, échangeant des commandes légitimes comme `pip install requests` contre des paquets typo-squattés et contrôlés par l'attaquant. - 17 routeurs ont été pris en flagrant délit de vol d'identifiants AWS, plantés comme canaris dans des environnements de test. - Un routeur a réussi à vider le portefeuille Ethereum d'un chercheur.

Certains intermédiaires malveillants ont même démontré une évasion adaptative, attendant des conditions spécifiques, telles qu'un agent opérant de manière autonome en « YOLO mode » (sans approbation manuelle), avant de lancer leurs attaques. Cela met en évidence une vulnérabilité sophistiquée et systémique, exigeant une attention immédiate au-delà de la simple validation des entrées.

Attaque #1 : Implanter un cheval de Troie numérique

Les attaquants exploitent l'injection de charge utile (Payload Injection), le premier type d'attaque principal, en tirant parti de l'accès complet en texte clair de l'intermédiaire au trafic LLM. Cette vulnérabilité permet à un routeur malveillant de réécrire silencieusement la réponse d'un modèle avant qu'un agent ne la voie.

Considérez un scénario où votre agent autonome demande au LLM une bibliothèque Python courante, incitant le modèle à générer l'appel d'outil `pip install requests`. Un routeur compromis intercepte cette requête légitime.

Le routeur échange ensuite secrètement la commande, remplaçant le paquet bénin par un paquet typo-squatté qui porte un nom similaire mais contient du code malveillant. Votre agent, ignorant l'altération, procède à l'exécution de la commande modifiée.

Cette substitution apparemment mineure déclenche des conséquences dévastatrices. Le paquet malveillant installe un shell inversé, accordant immédiatement à l'attaquant l'exécution de code à distance (RCE) et une compromission complète du système. L'attaquant obtient un accès illimité à l'environnement hôte de l'agent.

Les agents autonomes sont fondamentalement conçus pour faire confiance et exécuter les appels d'outils générés par le LLM. Ce choix de conception inhérent, crucial pour leur fonctionnalité, devient le vecteur d'attaque parfait. Les agents exécutent ces commandes sans examen approfondi, ouvrant une voie directe aux attaquants pour injecter du code arbitraire dans des systèmes critiques.

Les chercheurs ont identifié neuf routeurs injectant activement du code malveillant dans les appels d'outils au cours de leur étude approfondie de plus de 400 routeurs d'API LLM gratuits et payants. Cela démontre la menace immédiate et généralisée que cette vulnérabilité représente pour la chaîne d'approvisionnement du LLM.

Attaque n°2 : Le siphon de données silencieux

Illustration : Attaque n°2 : Le siphon de données silencieux
Illustration : Attaque n°2 : Le siphon de données silencieux

Au-delà de l'injection active de charges utiles malveillantes, les attaquants emploient une deuxième tactique, tout aussi insidieuse : l'Exfiltration de Secrets. Cette attaque est passive et invisible, transformant votre routeur LLM de confiance en un siphon de données silencieux. Elle ne modifie pas les actions de votre agent ; au lieu de cela, elle se contente d'observer et de collecter.

Les routeurs, positionnés comme des intermédiaires critiques, possèdent un accès complet en texte clair à chaque élément de données circulant entre votre agent et le grand modèle linguistique. Cette position privilégiée leur permet de scanner en permanence tout le trafic entrant et sortant. Ils déploient des modèles d'expressions régulières sophistiqués, recherchant constamment des chaînes spécifiques à haute entropie qui trahissent des informations sensibles. Cette surveillance silencieuse et persistante rend l'attaque incroyablement difficile à détecter, fonctionnant entièrement en arrière-plan sans altérer aucun comportement visible.

Les attaquants ciblent spécifiquement les identifiants de grande valeur qui accordent un accès illimité à l'infrastructure cloud, aux dépôts de code et aux actifs financiers. Ceux-ci incluent : - Les clés AWS, qui peuvent déverrouiller les environnements cloud et le stockage de données - Les jetons GitHub, donnant accès aux bases de code privées et aux pipelines de développement - Les clés privées Ethereum, essentielles pour contrôler et transférer les avoirs en cryptomonnaie Une fois capturés, ces secrets offrent une voie directe et non authentifiée aux attaquants pour compromettre des systèmes critiques, voler la propriété intellectuelle ou vider des portefeuilles numériques.

Les chercheurs de l'étude « Your Agent is Mine » ont exposé la prévalence alarmante de cette menace à travers la chaîne d'approvisionnement du LLM. Après avoir examiné plus de 400 routeurs gratuits et payants provenant de communautés publiques et de magasins, leurs conclusions ont été claires et immédiates. Ils ont confirmé que 17 routeurs volaient activement des identifiants AWS placés comme des canaris, démontrant une vulnérabilité généralisée et active au sein de ces intermédiaires apparemment bénins.

L'enquête a révélé un résultat encore plus terrifiant qui transcende le vol de données : un routeur malveillant a réussi à vider le portefeuille Ethereum d'un chercheur. Cet incident unique et dévastateur souligne le potentiel financier catastrophique de l'exfiltration de secrets. Votre agent IA autonome, acheminant à son insu des commandes et des données sensibles via un intermédiaire compromis, devient un complice involontaire de sa propre ruine financière ou du compromis complet de votre infrastructure.

Dans le « Honeypot » des chercheurs

Les chercheurs derrière « Your Agent is Mine » ont exposé une vulnérabilité critique au sein de la chaîne d'approvisionnement du LLM, révélant comment les pirates exploitent les services intermédiaires. Leur article détaille une « Malicious Intermediary Attack », où les routeurs d'API compromis obtiennent un accès complet en texte clair aux requêtes des agents. Cela permet une manipulation silencieuse avant que les réponses n'atteignent votre système.

L'ampleur de leur enquête était sans précédent, testant plus de 400 routeurs gratuits et payants. Ces intermédiaires, gérant souvent des crédits LLM via des services comme LiteLLM ou OneAPI, provenaient de communautés publiques et de grandes plateformes de vente comme Taobao et Shopify. L'étude a effectivement créé un vaste « honeypot » pour observer les attaques réelles.

Les conclusions de cette recherche approfondie étaient frappantes. Les chercheurs ont découvert : - 9 routeurs injectant activement du code malveillant dans les appels d'outils. - 17 routeurs impliqués dans le vol d'identifiants. - 1 routeur a réussi à vider le portefeuille Ethereum d'un chercheur. Ces statistiques confirment un environnement de menace généralisé et actif.

Pour suivre le vol d'identifiants, les chercheurs ont employé une méthode astucieuse de canary. Ils ont stratégiquement placé de fausses clés AWS, des jetons GitHub et des clés privées Ethereum dans les requêtes de test. Lorsque ces « canaries » ont ensuite été utilisées par des acteurs externes, cela a prouvé sans équivoque que le routeur avait siphonné les données sensibles. Cette exfiltration passive et invisible pose un risque grave.

Certains intermédiaires malveillants ont démontré des tactiques avancées, y compris l'évasion adaptative. Ces routeurs attendaient des conditions spécifiques, comme un agent entrant en « YOLO mode » – fonctionnant de manière autonome sans approbation manuelle – avant de lancer leur attaque. Pour des informations techniques plus approfondies sur ces découvertes, explorez la recherche Malicious Intermediary Attacks on LLM Supply Chain - Emergent Mind. Cette approche sophistiquée souligne la nature évolutive des menaces des agents IA.

En attente du 'YOLO Mode'

La révélation la plus terrifiante du document de recherche « Your Agent is Mine » n'est pas seulement l'existence d'intermédiaires malveillants ; c'est leur ruse. Les chercheurs ont découvert des cas d'évasion adaptative, une technique sophistiquée où les routeurs compromis restent inactifs, observant le comportement de l'agent avant de lancer une attaque ciblée. Cette approche patiente augmente considérablement la probabilité d'une attaque réussie et dévastatrice, rendant les mesures de sécurité traditionnelles moins efficaces.

Les attaquants attendent souvent ce que les chercheurs appellent le « YOLO Mode ». Cet état critique se produit lorsqu'un agent IA autonome fonctionne sans approbation manuelle, exécutant des commandes et interagissant avec des systèmes de manière totalement non supervisée. Une fois qu'un agent entre en YOLO Mode, l'intermédiaire a carte blanche, non contraint par une surveillance humaine qui pourrait signaler une activité suspecte.

Les routeurs malveillants n'attendent pas seulement l'autonomie ; ils surveillent également les niveaux d'activité. Certains intermédiaires observés par les chercheurs de l'University of California, Santa Barbara, et de Fuzzland attendaient un nombre spécifique de requêtes — parfois jusqu'à 50 appels précédents — avant de lancer leur attaque. Cette exécution retardée les aide à se fondre dans les schémas de trafic normaux, rendant la détection incroyablement difficile pour les développeurs et les équipes de sécurité.

La précision de ces attaques est tout aussi alarmante. Certains routeurs malveillants ciblent spécifiquement les environnements de développement. Ils recherchent patiemment les projets construits à l'aide de langages de programmation spécifiques, tels que Rust ou Go, avant d'injecter des logiciels malveillants ciblant les dépendances. Cela permet aux attaquants de livrer des charges utiles très pertinentes et efficaces, exploitant les vulnérabilités dans les chaînes d'outils ou les bibliothèques couramment utilisées par ces écosystèmes.

Considérez les implications : un agent IA, chargé de travaux de développement complexes, achemine sans le savoir son trafic via un intermédiaire compromis. Le routeur observe les tâches initiales inoffensives de l'agent, peut-être la récupération de documentation ou l'exécution d'une simple analyse de données.

Il attend silencieusement que l'agent passe en mode autonome ou atteigne un seuil de requête prédéfini. Ensuite, lorsque l'agent tente d'installer un package pour un Rust project, le routeur malveillant échange la dépendance légitime avec une version typo-squattée et contrôlée par l'attaquant, accordant instantanément un reverse shell ou exfiltrant des données sensibles. Cette agression silencieuse et calculée souligne un profond changement dans le paysage des menaces.

LiteLLM : Quand la théorie devient réalité

Illustration : LiteLLM : Quand la théorie devient réalité
Illustration : LiteLLM : Quand la théorie devient réalité

Mars 2026 a transformé les dangers théoriques de la recherche « Your Agent is Mine » en une réalité frappante avec la compromission de LiteLLM. Cet incident très médiatisé a prouvé que les vulnérabilités identifiées par les chercheurs n'étaient pas spéculatives, mais activement exploitées dans la nature, transformant un routeur d'API LLM largement utilisé en un vecteur de cyberattaques sophistiquées contre les systèmes de production.

Les attaquants ont exécuté une astucieuse attaque de dependency confusion contre LiteLLM, un package Python populaire conçu pour simplifier le routage des requêtes vers divers LLM et gérer les API keys. Ils ont injecté du code malveillant dans des versions spécifiques du logiciel, transformant silencieusement des installations légitimes en outils d'espionnage. Cette attaque sophistiquée de la chaîne d'approvisionnement a démontré le risque profond posé par des composants tiers apparemment inoffensifs dans le chemin critique des opérations des agents d'IA.

Les conséquences ont été immédiates et graves, affectant toute organisation utilisant les versions compromises. Les instances LiteLLM sont devenues des siphons de données involontaires, permettant le vol d'informations opérationnelles critiques de leurs utilisateurs. Les attaquants ont réussi à exfiltrer une mine de données sensibles, y compris : - cloud credentials - SSH keys - Kubernetes secrets

Cette violation réelle a validé sans équivoque la menace des attaques par intermédiaire malveillant, la faisant passer bien au-delà des articles universitaires. Elle a consolidé les conclusions de la recherche, illustrant comment les agents d'IA autonomes, lorsqu'ils sont acheminés via des intermédiaires compromis, deviennent par inadvertance des instruments de leur propre perte, divulguant un accès vital à l'infrastructure. Ce n'est pas une autre injection de prompt ; c'est une rupture fondamentale de confiance dans la chaîne d'approvisionnement des LLM.

Les organisations qui dépendent de routeurs LLM tiers doivent désormais faire face à un danger tangible et immédiat pour leur infrastructure principale. L'incident LiteLLM sert d'avertissement sévère : la sécurité de votre pile d'IA n'est aussi forte que son maillon le plus faible, souvent un composant non vérifié ou compromis au plus profond de la chaîne d'approvisionnement. Les attaquants ciblent activement ces couches intermédiaires, soulignant le besoin urgent d'une vérification rigoureuse et d'une intégrité cryptographique de bout en bout sur l'ensemble de l'écosystème LLM. La menace est là.

Le maillon brisé de la chaîne de confiance

Les routeurs d'API LLM, souvent déployés pour gérer les coûts ou unifier l'accès, opèrent sur une limite de confiance critique. Ces intermédiaires, y compris des services comme LiteLLM et OneAPI, sont fréquemment traités comme des tuyaux transparents. Cependant, ils sont des participants actifs dans la chaîne de communication, ce qui en fait une cible privilégiée pour les acteurs malveillants. Cette défaillance technique fondamentale expose l'ensemble de la chaîne d'approvisionnement des LLM à la compromission.

Le chiffrement TLS standard n'offre aucun refuge contre cette menace. Bien que TLS sécurise la connexion entre votre agent et le routeur, le routeur lui-même est le point d'extrémité de cette session. Il déchiffre entièrement toutes les requêtes entrantes et les réponses sortantes. Cela accorde à l'intermédiaire un accès complet en texte clair aux données sensibles et aux appels d'outils, permettant une modification silencieuse avant le rechiffrement et le transfert.

Les chercheurs à l'origine de l'article « Your Agent is Mine » ont mis en évidence cette vulnérabilité systémique. Ils concluent que l'écosystème actuel des LLM repose sur une « confiance fragile envers les intermédiaires », une confiance constamment trahie par leurs découvertes. Leur étude a révélé que 9 routeurs injectaient activement du code malveillant et que 17 ont été pris en flagrant délit de vol de AWS credentials, démontrant directement cette confiance brisée.

La seule défense robuste contre les intermédiaires malveillants implique les enveloppes cryptographiques. Ce mécanisme exige des fournisseurs de LLM qu'ils signent cryptographiquement leurs réponses canoniques. Lorsque votre agent reçoit la sortie d'un modèle, il vérifie indépendamment la signature, prouvant l'origine du message et garantissant qu'aucun intermédiaire n'a altéré le contenu.

L'implémentation de réponses signées par le fournisseur crée une chaîne de confiance immuable, s'étendant directement du fournisseur de LLM à votre agent. Sans cette origine vérifiable, chaque routeur API reste un vecteur potentiel d'injection de charge utile et d'exfiltration de secrets. Ce changement architectural est crucial pour prévenir des incidents comme la compromission de LiteLLM et se prémunir contre les pertes financières, comme détaillé dans des rapports tels que Researchers discover malicious AI agent routers that can steal crypto - Cryptonews.net. C'est le seul moyen de sécuriser les agents autonomes contre la manipulation invisible.

Comment blinder votre agent IA aujourd'hui

Les développeurs et les organisations font face à un impératif immédiat : fortifier vos agents IA contre la menace insidieuse des attaques par intermédiaires malveillants (Malicious Intermediary Attacks). La chaîne d'approvisionnement des LLM, autrefois perçue comme transparente, se révèle désormais être une surface d'attaque critique exigeant la même posture de sécurité rigoureuse que toute autre infrastructure essentielle. Les mesures proactives ne sont plus facultatives mais essentielles pour la protection des données sensibles et l'intégrité opérationnelle.

Une vigilance extrême est primordiale lors de l'examen de tout service intermédiaire tiers, qu'il s'agisse d'un routeur API comme LiteLLM ou OneAPI, ou d'un proxy personnalisé gérant les crédits LLM. La recherche « Your Agent is Mine » a clairement démontré le danger : 9 routeurs ont activement injecté du code malveillant, 17 ont volé des AWS credentials, et l'un a même vidé un portefeuille Ethereum. Lorsque cela est faisable, les organisations doivent privilégier l'auto-hébergement de ces composants cruciaux, en maintenant un contrôle direct sur le flux de données et en éliminant la dépendance à l'égard d'entités externes non vérifiées. Des audits de sécurité approfondis sont indispensables pour tout service tiers jugé inévitable.

Implémentez des défenses robustes côté client directement dans l'environnement d'exécution de votre agent. De manière cruciale, adoptez une politique de fermeture en cas d'échec (fail-closed policy) pour tous les appels d'outils et commandes. Au lieu de tout autoriser par défaut, autorisez explicitement uniquement les fonctions, API et commandes shell approuvées. Cela empêche l'exécution d'instructions malveillantes même si elles sont injectées. De plus, déployez un filtrage des anomalies côté réponse (response-side anomaly screening) pour inspecter méticuleusement les sorties du modèle à la recherche de schémas suspects, d'appels d'outils inattendus ou de déviations par rapport au comportement établi *avant* toute action. N'opérez jamais les agents en mode « YOLO » non contraint qui contourne la surveillance humaine ou les vérifications automatisées.

La solution à long terme exige un changement fondamental de la part des principaux fournisseurs de modèles. OpenAI, Google et Anthropic doivent développer et implémenter collaborativement des signatures cryptographiques de bout en bout (end-to-end cryptographic signatures) pour toutes les réponses des LLM. De telles signatures vérifieraient l'intégrité et l'authenticité des sorties, garantissant que la réponse reçue par l'agent est précisément ce que le modèle a généré, intacte par tout intermédiaire. Ce primitif de sécurité critique neutraliserait efficacement les attaques par intermédiaires malveillants (Malicious Intermediary Attacks) en rendant toute altération instantanément détectable.

Sécuriser la chaîne d'approvisionnement des LLM nécessite un effort collectif de l'industrie. Des développeurs individuels adoptant des pratiques de sécurité rigoureuses aux entreprises d'AI de premier plan intégrant la confiance cryptographique au niveau du protocole, chaque maillon de la chaîne doit être renforcé. Ce n'est qu'alors que nous pourrons véritablement faire confiance aux agents autonomes que nous habilitons, en veillant à ce qu'ils restent de puissants alliés, et non des instruments de compromission involontaires.

Foire aux questions

Qu'est-ce que l'attaque 'YOLO' dans la sécurité des LLM ?

L'attaque 'YOLO' est un type de Malicious Intermediary Attack où un API router compromis intercepte et altère les tool calls qu'un LLM effectue. Elle est nommée ainsi car les attaquants frappent après qu'un agent d'AI entre en mode 'You Only Look Once' (YOLO), fonctionnant de manière autonome sans approbation humaine.

En quoi l'attaque YOLO est-elle différente de l'injection de prompt ?

Prompt injection trompe le LLM pour qu'il se comporte mal. L'attaque YOLO ne cible pas le modèle lui-même ; elle cible la supply chain. Un router malveillant réécrit l'output légitime du modèle (comme une commande) après qu'elle a été générée, ce qui en fait une attaque de post-traitement, de type man-in-the-middle.

Qu'est-ce qu'un LLM API router et pourquoi est-ce une vulnérabilité ?

Un LLM API router est un service qui gère les requêtes vers plusieurs LLM providers pour l'optimisation des coûts ou le load balancing. Il devient une vulnérabilité car il se situe entre l'utilisateur et le model provider avec un accès complet en plaintext à toutes les données, permettant à un router malveillant de lire ou de modifier n'importe quoi.

Comment les développeurs peuvent-ils protéger leurs AI agents de cette attaque ?

Les développeurs devraient vérifier tous les third-party services, éviter d'utiliser des API routers non fiables et implémenter des checks côté client sur les tool calls. La solution ultime exige que les model providers implémentent des signatures cryptographiques de bout en bout pour vérifier l'origine et l'intégrité de leurs responses.

Questions fréquentes

Qu'est-ce que l'attaque 'YOLO' dans la sécurité des LLM ?
L'attaque 'YOLO' est un type de Malicious Intermediary Attack où un API router compromis intercepte et altère les tool calls qu'un LLM effectue. Elle est nommée ainsi car les attaquants frappent après qu'un agent d'AI entre en mode 'You Only Look Once' , fonctionnant de manière autonome sans approbation humaine.
En quoi l'attaque YOLO est-elle différente de l'injection de prompt ?
Prompt injection trompe le LLM pour qu'il se comporte mal. L'attaque YOLO ne cible pas le modèle lui-même ; elle cible la supply chain. Un router malveillant réécrit l'output légitime du modèle après qu'elle a été générée, ce qui en fait une attaque de post-traitement, de type man-in-the-middle.
Qu'est-ce qu'un LLM API router et pourquoi est-ce une vulnérabilité ?
Un LLM API router est un service qui gère les requêtes vers plusieurs LLM providers pour l'optimisation des coûts ou le load balancing. Il devient une vulnérabilité car il se situe entre l'utilisateur et le model provider avec un accès complet en plaintext à toutes les données, permettant à un router malveillant de lire ou de modifier n'importe quoi.
Comment les développeurs peuvent-ils protéger leurs AI agents de cette attaque ?
Les développeurs devraient vérifier tous les third-party services, éviter d'utiliser des API routers non fiables et implémenter des checks côté client sur les tool calls. La solution ultime exige que les model providers implémentent des signatures cryptographiques de bout en bout pour vérifier l'origine et l'intégrité de leurs responses.
🚀En savoir plus

Gardez une longueur d'avance en IA

Découvrez les meilleurs outils IA, agents et serveurs MCP sélectionnés par Stork.AI.

Retour à tous les articles