
Des chercheurs universitaires en Chine ont découvert un moyen de modifier le comportement des modèles vocaux d'IA en intégrant des commandes cachées dans des clips audio inaudibles pour les humains. L'attaque a un taux de succès allant jusqu'à 96 %, selon les recherches de l'Université du Zhejiang.
La méthode d'attaque, présentée lors du 47e IEEE Symposium on Security and Privacy à San Francisco, cible les grands modèles audio-langage, ou LALMs, qui peuvent traiter des commandes vocales et interagir avec des outils et applications externes.
« Il ne faut qu'une demi-heure pour entraîner ce signal, et ensuite, parce que ce signal est agnostique au contexte, vous pouvez l'utiliser pour attaquer le modèle cible quand vous le souhaitez, peu importe ce que dit l'utilisateur », a déclaré dans un communiqué l'auteur principal Meng Chen, doctorant à l'Université du Zhejiang.
L'attaque fonctionne en modifiant les valeurs numériques à l'intérieur d'une forme d'onde audio numérique de manière imperceptible pour les auditeurs humains, mais qui affecte la façon dont les modèles d'IA interprètent le signal. Les chercheurs ont déclaré que l'audio manipulé peut outrepasser ou rediriger le comportement d'un modèle même lorsque des instructions légitimes de l'utilisateur sont incluses dans le clip.
AudioHijack diffère des attaques traditionnelles par injection de prompt car il ne manipule pas ce que l'utilisateur dit à l'IA. Au lieu de cela, il altère le signal audio lui-même, en intégrant des instructions cachées dans des sons que les humains ne peuvent pas entendre. Les chercheurs ont déclaré que cela rend l'attaque plus difficile à contrer car elle contourne les mesures de sécurité conçues pour détecter les prompts textuels suspects.
Les chercheurs ont testé AudioHijack sur 13 modèles vocaux d'IA open-source et ont découvert qu'il pouvait les faire refuser des requêtes, diffuser de fausses informations, insérer des liens malveillants, changer de personnalité ou effectuer des actions non demandées par l'utilisateur, y compris des recherches web, des téléchargements de fichiers et des e-mails contenant des données personnelles. Les attaques ont également fonctionné sur les systèmes d'IA vocale commerciaux de Microsoft et Mistral qui utilisent une technologie similaire.
« De nombreuses attaques précédentes sur les modèles génératifs exigeaient que l'attaquant ait un contrôle complet sur l'entrée audio finale et les instructions originales données au modèle, agissant essentiellement comme l'utilisateur », indique l'étude. « Ici, l'attaquant manipule uniquement les données audio traitées par le modèle, ce qui permet d'attaquer un modèle pendant qu'il est utilisé par quelqu'un d'autre. »
Selon l'étude, les méthodes de diffusion possibles incluent les vidéos en ligne, les clips musicaux, les notes vocales ou l'audio provenant d'appels Zoom téléchargés vers des services de transcription d'IA. L'équipe a également déclaré que des travaux de suivi non publiés ont démontré des attaques similaires dans des chats vocaux IA en direct.
Les chercheurs ont déclaré que la surveillance des mécanismes d'attention internes d'un modèle était la défense la plus efficace qu'ils aient testée. Cependant, ils ont également constaté que les attaquants conscients de la défense pouvaient réduire la force de la manipulation tout en maintenant une grande partie de l'efficacité de l'attaque.
« Ces défenses à point unique ont du mal à résister à notre attaque car nous avons constaté qu'il est très difficile pour ces modèles de distinguer l'intention normale de l'utilisateur et notre attaque adverse », a déclaré Chen.