Strona głównaCentrum wiadomości LBank
Niesłyszalne ataki audio mogą przejąć kontrolę nad modelami głosowymi AI, wykazuje badanie
inaudible-audio-attacks-hijack-ai-voice-models
Niesłyszalne ataki audio mogą przejąć kontrolę nad modelami głosowymi AI, wykazuje badanie
Badacze zdołali osadzić ukryte sygnały w klipach audio, które potajemnie sterują zachowaniem modeli sztucznej inteligencji.
2026-05-26 Źródło:decrypt.co

W skrócie

  • Naukowcy z Zhejiang University opracowali AudioHijack, technikę ukrywania niedostrzegalnych poleceń w dźwięku w celu manipulowania dużymi modelami językowymi audio z 79–96% skutecznością.
  • Atak przeniesiono z modeli open source na komercyjne systemy głosowej AI firm Microsoft i Mistral; większość standardowych zabezpieczeń powstrzymała tylko niewielki ułamek prób.
  • Zespół bada obecnie, czy technika ta może dotrzeć do zamkniętych modeli OpenAI i Anthropic poprzez współdzielone komponenty audio open source.

Naukowcy uniwersyteccy w Chinach odkryli sposób na zmianę zachowania głosowych modeli AI poprzez osadzanie ukrytych poleceń w klipach audio, które są niesłyszalne dla ludzi. Według badań Uniwersytetu Zhejiang, atak ten ma skuteczność do 96%.

Metoda ataku, zaprezentowana na 47. Sympozjum IEEE poświęconym Bezpieczeństwu i Prywatności w San Francisco, celuje w duże modele językowo-audio (LALM), które są w stanie przetwarzać polecenia głosowe oraz wchodzić w interakcje z zewnętrznymi narzędziami i aplikacjami.

„Wytrenowanie tego sygnału zajmuje zaledwie pół godziny, a ponieważ jest on niezależny od kontekstu, można go użyć do ataku na model docelowy w dowolnym momencie, niezależnie od tego, co mówi użytkownik” – powiedział w oświadczeniu główny autor, Meng Chen, doktorant na Zhejiang University.

Atak działa poprzez modyfikację wartości numerycznych w cyfrowej fali dźwiękowej w sposób, który nie jest postrzegalny dla ludzkich słuchaczy, ale nadal wpływa na to, jak modele AI interpretują sygnał. Naukowcy stwierdzili, że manipulowany dźwięk może nadpisać lub przekierować zachowanie modelu, nawet gdy do klipu dołączone są legalne instrukcje użytkownika.

AudioHijack różni się od tradycyjnych ataków typu prompt injection, ponieważ nie manipuluje tym, co użytkownik mówi do AI. Zamiast tego, zmienia sam sygnał audio, osadzając ukryte instrukcje w dźwiękach, których ludzie nie słyszą. Naukowcy stwierdzili, że to sprawia, że atak jest trudniejszy do obrony, ponieważ omija zabezpieczenia zaprojektowane do wykrywania podejrzanych podpowiedzi tekstowych.

Naukowcy przetestowali AudioHijack na 13 otwartych modelach głosowych AI i odkryli, że mógł on sprawić, że odmawiały one realizacji żądań, rozpowszechniały fałszywe informacje, wstawiały szkodliwe linki, zmieniały osobowość lub wykonywały działania, o które użytkownik nigdy nie prosił, w tym wyszukiwania internetowe, pobieranie plików i wiadomości e-mail zawierające dane osobowe. Ataki działały również na komercyjnych systemach głosowej AI firm Microsoft i Mistral, które wykorzystują podobną technologię.

„Wiele wcześniejszych ataków na modele generatywne wymagało od atakującego pełnej kontroli zarówno nad końcowym wejściem audio, jak i oryginalnymi instrukcjami przekazanymi modelowi, zasadniczo działając jako użytkownik” – stwierdzono w badaniu. „Tutaj atakujący manipuluje jedynie danymi audio przetwarzanymi przez model, co umożliwia atakowanie modelu, gdy jest on używany przez kogoś innego”.

Według badania, możliwe metody dostarczania obejmują filmy online, klipy muzyczne, notatki głosowe lub dźwięk z połączeń Zoom przesyłany do usług transkrypcji AI. Zespół poinformował również, że niepublikowane prace uzupełniające wykazały podobne ataki w czatach głosowych AI na żywo.

Naukowcy stwierdzili, że monitorowanie wewnętrznych mechanizmów uwagi modelu było najskuteczniejszą obroną, jaką przetestowali. Odkryli jednak również, że atakujący świadomi obrony mogli zmniejszyć siłę manipulacji, zachowując jednocześnie dużą część skuteczności ataku.

„Te punktowe zabezpieczenia mają trudności z odpornością na nasz atak, ponieważ stwierdziliśmy, że bardzo trudno jest tym modelom odróżnić normalne intencje użytkownika od naszego wrogiego ataku” – powiedział Chen.