
Universitaire onderzoekers in China hebben een manier gevonden om het gedrag van AI-stemmodellen te veranderen door verborgen commando's in audiofragmenten in te bedden die voor mensen onhoorbaar zijn. De aanval heeft een succespercentage van maximaal 96%, volgens onderzoek van de Zhejiang Universiteit.
De aanvalsmethode, gepresenteerd op het 47e IEEE Symposium over Beveiliging en Privacy in San Francisco, richt zich op grote audio-taalmodellen, of LALM's, die gesproken commando's kunnen verwerken en kunnen interageren met externe tools en applicaties.
“Het duurt slechts een half uur om dit signaal te trainen, en omdat dit signaal context-agnostisch is, kun je het gebruiken om het doelmodel aan te vallen wanneer je maar wilt, ongeacht wat de gebruiker zegt,” aldus hoofdauteur Meng Chen, een Ph.D.-student aan de Zhejiang Universiteit, in een verklaring.
De aanval werkt door de numerieke waarden binnen een digitale audiogolfvorm te wijzigen op manieren die voor menselijke luisteraars niet waarneembaar zijn, maar toch van invloed zijn op hoe AI-modellen het signaal interpreteren. Onderzoekers stelden dat de gemanipuleerde audio het gedrag van een model kan overrulen of omleiden, zelfs wanneer legitieme gebruikersinstructies bij de clip zijn inbegrepen.
AudioHijack verschilt van traditionele prompt-injectieaanvallen omdat het niet manipuleert wat de gebruiker tegen de AI zegt. In plaats daarvan verandert het het audiosignaal zelf, waarbij verborgen instructies worden ingebed in geluiden die mensen niet kunnen horen. Onderzoekers zeiden dat dit de aanval moeilijker te verdedigen maakt, omdat het veiligheidsmechanismen om verdachte tekstprompts te detecteren omzeilt.
De onderzoekers testten AudioHijack op 13 open-source AI-stemmodellen en ontdekten dat het deze kon laten weigeren verzoeken, valse informatie verspreiden, schadelijke links invoegen, persoonlijkheid veranderen, of acties uitvoeren waar de gebruiker nooit om vroeg, waaronder webzoekopdrachten, bestandsdownloads en e-mails met persoonlijke gegevens. De aanvallen werkten ook op commerciële stem-AI-systemen van Microsoft en Mistral die vergelijkbare technologie gebruiken.
“Veel eerdere aanvallen op generatieve modellen vereisten dat de aanvaller volledige controle had over zowel de uiteindelijke audio-input als de oorspronkelijke instructies die aan het model werden gegeven, waardoor hij in wezen als de gebruiker fungeerde,” aldus de studie. “Hier manipuleert de aanvaller alleen de audiogegevens die door het model worden verwerkt, wat het mogelijk maakt om een model aan te vallen terwijl het door iemand anders wordt gebruikt.”
Volgens de studie omvatten mogelijke leveringsmethoden online video's, muziekclips, spraakmemo's of audio van Zoom-gesprekken die zijn geüpload naar AI-transcriptiediensten. Het team zei ook dat ongepubliceerd vervolgonderzoek vergelijkbare aanvallen aantoonde in live AI-stemchats.
De onderzoekers stelden dat het monitoren van de interne aandachtsmechanismen van een model de meest effectieve verdediging was die ze testten. Ze ontdekten echter ook dat aanvallers die op de hoogte waren van de verdediging de kracht van de manipulatie konden verminderen, terwijl veel van de effectiviteit van de aanval behouden bleef.
“Deze enkelpuntige verdedigingen hebben moeite om onze aanval te weerstaan, omdat we hebben ontdekt dat het voor deze modellen erg moeilijk is om het normale gebruikersintentie en onze vijandige aanval te onderscheiden,” zei Chen.