
Universitätsforscher in China haben einen Weg gefunden, das Verhalten von KI-Sprachmodellen zu verändern, indem sie versteckte Befehle in Audio-Clips einbetten, die für Menschen unhörbar sind. Der Angriff hat laut Forschungsergebnissen der Zhejiang Universität eine Erfolgsrate von bis zu 96%.
Die Angriffsmethode, die auf dem 47. IEEE Symposium on Security and Privacy in San Francisco vorgestellt wurde, zielt auf große Audio-Sprachmodelle (LALMs) ab, die gesprochene Befehle verarbeiten und mit externen Tools und Anwendungen interagieren können.
„Es dauert nur eine halbe Stunde, dieses Signal zu trainieren, und da dieses Signal kontextunabhängig ist, kann man es jederzeit verwenden, um das Zielmodell anzugreifen, egal was der Benutzer sagt“, sagte Hauptautor Meng Chen, ein Doktorand an der Zhejiang Universität, in einer Erklärung.
Der Angriff funktioniert, indem er die numerischen Werte innerhalb einer digitalen Audiowellenform auf eine Weise modifiziert, die für menschliche Hörer nicht wahrnehmbar ist, aber dennoch beeinflusst, wie KI-Modelle das Signal interpretieren. Forscher sagten, dass das manipulierte Audio das Verhalten eines Modells überschreiben oder umleiten kann, selbst wenn legitime Benutzeranweisungen in dem Clip enthalten sind.
AudioHijack unterscheidet sich von traditionellen Prompt-Injection-Angriffen, da es nicht manipuliert, was der Benutzer der KI sagt. Stattdessen verändert es das Audiosignal selbst und bettet versteckte Anweisungen in Geräusche ein, die Menschen nicht hören können. Forscher sagten, dass dies den Angriff schwerer zu verteidigen macht, da er Schutzmaßnahmen umgeht, die darauf ausgelegt sind, verdächtige Textaufforderungen zu erkennen.
Die Forscher testeten AudioHijack an 13 Open-Source-KI-Sprachmodellen und stellten fest, dass es sie dazu bringen konnte, Anfragen abzulehnen, falsche Informationen zu verbreiten, schädliche Links einzufügen, die Persönlichkeit zu ändern oder Aktionen auszuführen, die der Benutzer nie angefordert hatte, einschließlich Websuchen, Dateidownloads und E-Mails mit persönlichen Daten. Die Angriffe funktionierten auch bei kommerziellen Sprach-KI-Systemen von Microsoft und Mistral, die ähnliche Technologien verwenden.
„Viele frühere Angriffe auf generative Modelle erforderten, dass der Angreifer die vollständige Kontrolle über sowohl die endgültige Audioeingabe als auch die ursprünglichen Anweisungen hatte, die dem Modell gegeben wurden, im Wesentlichen als Benutzer agierend“, so die Studie. „Hier manipuliert der Angreifer nur die Audiodaten, die vom Modell verarbeitet werden, was es ermöglicht, ein Modell anzugreifen, während es von jemand anderem verwendet wird.“
Laut der Studie umfassen mögliche Übertragungswege Online-Videos, Musik-Clips, Sprachnotizen oder Audio von Zoom-Anrufen, die in KI-Transkriptionsdienste hochgeladen werden. Das Team erwähnte auch, dass unveröffentlichte Folgearbeiten ähnliche Angriffe in Live-KI-Sprachchats demonstrierten.
Die Forscher sagten, dass die Überwachung der internen Aufmerksamkeitsmechanismen eines Modells die effektivste Verteidigung war, die sie getestet haben. Sie fanden jedoch auch heraus, dass Angreifer, die von der Verteidigung wussten, die Stärke der Manipulation reduzieren konnten, während ein Großteil der Wirksamkeit des Angriffs erhalten blieb.
„Diese Einzelpunktverteidigungen haben Schwierigkeiten, unserem Angriff zu widerstehen, weil wir festgestellt haben, dass es für diese Modelle sehr schwer ist, die normale Benutzerabsicht und unseren gegnerischen Angriff zu unterscheiden“, sagte Chen.