Agrégation des actualités crypto et contenu thématique

inaudible-audio-attacks-hijack-ai-voice-models

Des attaques audio inaudibles peuvent détourner les modèles vocaux d'IA, selon une étude

Des chercheurs ont réussi à intégrer des signaux cachés dans des clips audio qui détournent silencieusement le comportement des modèles d'IA.

2026-05-26 Source:decrypt.co

Sécurité IA

En bref

Des chercheurs de l'Université du Zhejiang ont développé AudioHijack, qui cache des commandes imperceptibles dans l'audio pour manipuler de grands modèles audio-langage avec un taux de succès de 79 à 96 %.
L'attaque s'est propagée des modèles ouverts à l'IA vocale commerciale de Microsoft et Mistral ; la plupart des défenses standard n'ont arrêté qu'une petite fraction des tentatives.
L'équipe étudie maintenant si cette technique peut atteindre les modèles fermés d'OpenAI et d'Anthropic via des composants audio open-source partagés.

Des chercheurs universitaires en Chine ont découvert un moyen de modifier le comportement des modèles vocaux d'IA en intégrant des commandes cachées dans des clips audio inaudibles pour les humains. L'attaque a un taux de succès allant jusqu'à 96 %, selon les recherches de l'Université du Zhejiang.

La méthode d'attaque, présentée lors du 47e IEEE Symposium on Security and Privacy à San Francisco, cible les grands modèles audio-langage, ou LALMs, qui peuvent traiter des commandes vocales et interagir avec des outils et applications externes.

« Il ne faut qu'une demi-heure pour entraîner ce signal, et ensuite, parce que ce signal est agnostique au contexte, vous pouvez l'utiliser pour attaquer le modèle cible quand vous le souhaitez, peu importe ce que dit l'utilisateur », a déclaré dans un communiqué l'auteur principal Meng Chen, doctorant à l'Université du Zhejiang.

L'attaque fonctionne en modifiant les valeurs numériques à l'intérieur d'une forme d'onde audio numérique de manière imperceptible pour les auditeurs humains, mais qui affecte la façon dont les modèles d'IA interprètent le signal. Les chercheurs ont déclaré que l'audio manipulé peut outrepasser ou rediriger le comportement d'un modèle même lorsque des instructions légitimes de l'utilisateur sont incluses dans le clip.

AudioHijack diffère des attaques traditionnelles par injection de prompt car il ne manipule pas ce que l'utilisateur dit à l'IA. Au lieu de cela, il altère le signal audio lui-même, en intégrant des instructions cachées dans des sons que les humains ne peuvent pas entendre. Les chercheurs ont déclaré que cela rend l'attaque plus difficile à contrer car elle contourne les mesures de sécurité conçues pour détecter les prompts textuels suspects.

Les chercheurs ont testé AudioHijack sur 13 modèles vocaux d'IA open-source et ont découvert qu'il pouvait les faire refuser des requêtes, diffuser de fausses informations, insérer des liens malveillants, changer de personnalité ou effectuer des actions non demandées par l'utilisateur, y compris des recherches web, des téléchargements de fichiers et des e-mails contenant des données personnelles. Les attaques ont également fonctionné sur les systèmes d'IA vocale commerciaux de Microsoft et Mistral qui utilisent une technologie similaire.

« De nombreuses attaques précédentes sur les modèles génératifs exigeaient que l'attaquant ait un contrôle complet sur l'entrée audio finale et les instructions originales données au modèle, agissant essentiellement comme l'utilisateur », indique l'étude. « Ici, l'attaquant manipule uniquement les données audio traitées par le modèle, ce qui permet d'attaquer un modèle pendant qu'il est utilisé par quelqu'un d'autre. »

Selon l'étude, les méthodes de diffusion possibles incluent les vidéos en ligne, les clips musicaux, les notes vocales ou l'audio provenant d'appels Zoom téléchargés vers des services de transcription d'IA. L'équipe a également déclaré que des travaux de suivi non publiés ont démontré des attaques similaires dans des chats vocaux IA en direct.

Les chercheurs ont déclaré que la surveillance des mécanismes d'attention internes d'un modèle était la défense la plus efficace qu'ils aient testée. Cependant, ils ont également constaté que les attaquants conscients de la défense pouvaient réduire la force de la manipulation tout en maintenant une grande partie de l'efficacité de l'attaque.

« Ces défenses à point unique ont du mal à résister à notre attaque car nous avons constaté qu'il est très difficile pour ces modèles de distinguer l'intention normale de l'utilisateur et notre attaque adverse », a déclaré Chen.

Articles tendance

Sondages des marchés prédictifs : les électeurs américains préfèrent les règles fédérales à un patchwork étatique

Il y a 2 heures

L'essor de la Coupe du Monde fait grimper le volume de Polymarket de 300% tandis que Kalshi établit des records d'intérêt ouvert

Il y a 3 heures

Selon 21Shares, la dynamique du prix du Bitcoin post-halving « reste familière », mais la société anticipe une reprise vers les 100 000 $ d'ici la fin de l'année

Il y a 7 heures

Autres articles

Cambrian, soutenu par a16z CSX, lève 6 millions de dollars en amorçage pour construire un réseau d'oracles de données blockchain

Il y a 2 heures

Sondages des marchés prédictifs : les électeurs américains préfèrent les règles fédérales à un patchwork étatique

Il y a 2 heures