Page d'accueilCentre d'actualités LBank
Les agents IA n'arrivent toujours pas à empêcher les attaques par injection de prompt, mettent en garde les chercheurs
ai-agents-prompt-injection-attacks-research
Les agents IA n'arrivent toujours pas à empêcher les attaques par injection de prompt, mettent en garde les chercheurs
Une nouvelle étude comparative a révélé que les agents d'IA demeurent vulnérables aux attaques par injection de prompt, alors que les entreprises déploient de plus en plus cette technologie auprès du public.
2026-06-12 Source:decrypt.co

En bref

  • Les chercheurs ont découvert que les agents IA basés sur GPT-5 et Gemini ne pouvaient pas résister aux attaques par injection de prompt.
  • Les attaques directes ont réussi dans plus de 79 % des cas, tandis que les attaques cachées intégrées dans le contenu web manipulaient fréquemment le comportement des agents.
  • Ces découvertes suggèrent que l'injection de prompt reste un problème de sécurité plus vaste à mesure que les agents IA se généralisent.

Alors que les développeurs s'empressent de déployer des agents IA capables de naviguer sur Internet, de mener des recherches, de faire des achats en ligne et de négocier des cryptomonnaies de manière autonome, de nouvelles recherches suggèrent que ces systèmes restent très vulnérables aux attaques par injection de prompt.

Dans une nouvelle étude publiée jeudi, des chercheurs de l'Université Technologique de Nanyang, de ST Engineering, d'IBM Research et de l'Université de l'Illinois Urbana-Champaign ont constaté qu'aucun des agents IA qu'ils ont testés n'a résisté de manière constante aux attaques par injection de prompt.

« Les benchmarks de sécurité existants adoptent une perspective centrée sur l'attaque, se concentrant sur la faisabilité technique des injections tout en négligeant la distribution nuancée des préjudices qui en résultent », ont écrit les chercheurs. « En pratique, cependant, le risque d'injection de prompt dépend de la victime : un seul exploit peut produire des conséquences asymétriques pour différentes parties prenantes, et le même modèle d'attaque peut présenter une efficacité substantiellement différente selon la cible. »

L'injection de prompt se produit lorsque des attaquants intègrent des instructions cachées dans un contenu que rencontre un agent IA, le poussant à suivre les directives de l'attaquant au lieu de celles de l'utilisateur. Pour combler les lacunes des évaluations existantes des agents IA, les chercheurs ont développé StakeBench, un benchmark qui teste la manière dont les agents IA réagissent aux attaques par injection de prompt dans des environnements en ligne réalistes.

« Nous utilisons maintenant StakeBench pour caractériser les conditions dans lesquelles cette vulnérabilité est amplifiée ou supprimée, en nous concentrant sur [l'injection indirecte de prompt] comme canal principal pertinent pour le déploiement », ont écrit les chercheurs. « StakeBench sonde trois de ces facteurs : la distance sémantique entre l'objectif injecté et l'intention originale de l'utilisateur, la cohérence des indices environnementaux environnants, et la position le long de la trajectoire d'exécution de l'agent à laquelle le benchmark l'expose pour la première fois au contenu injecté. »

L'équipe a mené 3 168 simulations d'attaques en utilisant NanoBrowser et BrowserUse avec GPT-5 et Gemini 2.5-Flash. Les chercheurs ont découvert que les attaques directes par injection de prompt réussissaient dans plus de 79 % des cas sur toutes les configurations testées, et que les attaques indirectes atteignaient des taux de réussite de 41,67 % à 68,16 %.

L'étude intervient alors que les attaques par injection de prompt deviennent de plus en plus courantes et que les agents IA prolifèrent.

En février, des chercheurs de Microsoft ont averti que des instructions cachées intégrées dans des liens de résumé d'IA pouvaient influencer le comportement des chatbots. En avril, Google a documenté des attaques par injection de prompt cachées dans des pages web qui tentaient de manipuler des agents IA pour qu'ils divulguent des identifiants ou envoient des paiements. Plus récemment, Microsoft a révélé une faille d'injection de prompt dans l'action Claude Code GitHub d'Anthropic qui aurait pu exposer les identifiants des utilisateurs.

L'étude a également identifié ce que les chercheurs ont appelé le « parasitisme furtif », où un agent IA accomplit une tâche de l'utilisateur tout en faisant avancer simultanément l'objectif d'un attaquant. Par exemple, un parasitisme furtif causé par une attaque par injection de prompt pourrait subtilement influencer les recommandations de produits, orientant les utilisateurs vers un article particulier sans aucun signe évident que le système a été compromis.

« Ces résultats indiquent que la sécurité de l'injection de prompt dans les agents web déployables n'est pas une propriété scalaire du modèle de base, mais une distribution de préjudice dont la réalisation est déterminée conjointement par la partie prenante affectée, l'alignement sémantique entre l'objectif injecté et la tâche de l'utilisateur, et le contexte architectural dans lequel le modèle de base est déployé », ont-ils écrit.