
Para peneliti universitas di Tiongkok telah menemukan cara untuk mengubah perilaku model suara AI dengan menyematkan perintah tersembunyi di dalam klip audio yang tidak dapat didengar oleh manusia. Serangan ini memiliki tingkat keberhasilan hingga 96%, menurut penelitian dari Universitas Zhejiang.
Metode serangan ini, yang dipresentasikan pada Simposium Keamanan dan Privasi IEEE ke-47 di San Francisco, menargetkan model bahasa audio besar, atau LALM, yang dapat memproses perintah lisan dan berinteraksi dengan alat serta aplikasi eksternal.
“Hanya butuh setengah jam untuk melatih sinyal ini, dan kemudian, karena sinyal ini agnostik konteks, Anda dapat menggunakannya untuk menyerang model target kapan pun Anda mau, tidak peduli apa yang dikatakan pengguna,” kata penulis utama Meng Chen, seorang mahasiswa PhD di Universitas Zhejiang, dalam sebuah pernyataan.
Serangan ini bekerja dengan memodifikasi nilai numerik di dalam bentuk gelombang audio digital dengan cara yang tidak dapat dirasakan oleh pendengar manusia tetapi tetap memengaruhi cara model AI menafsirkan sinyal. Para peneliti mengatakan audio yang dimanipulasi dapat menimpa atau mengarahkan ulang perilaku model bahkan ketika instruksi pengguna yang sah disertakan dengan klip tersebut.
AudioHijack berbeda dari serangan injeksi prompt tradisional karena tidak memanipulasi apa yang dikatakan pengguna kepada AI. Sebaliknya, ia mengubah sinyal audio itu sendiri, menyematkan instruksi tersembunyi di dalam suara yang tidak dapat didengar manusia. Para peneliti mengatakan hal itu membuat serangan lebih sulit untuk dipertahankan karena melewati pengamanan yang dirancang untuk mendeteksi prompt teks yang mencurigakan.
Para peneliti menguji AudioHijack pada 13 model suara AI sumber terbuka, dan menemukan bahwa itu dapat membuat mereka menolak permintaan, menyebarkan informasi palsu, menyisipkan tautan berbahaya, mengubah kepribadian, atau melakukan tindakan yang tidak pernah diminta pengguna, termasuk pencarian web, unduhan file, dan email yang berisi data pribadi. Serangan itu juga berhasil pada sistem AI suara komersial dari Microsoft dan Mistral yang menggunakan teknologi serupa.
“Banyak serangan sebelumnya pada model generatif mengharuskan penyerang memiliki kendali penuh atas input audio akhir dan instruksi asli yang diberikan kepada model, pada dasarnya bertindak sebagai pengguna,” kata studi tersebut. “Di sini, penyerang hanya memanipulasi data audio yang diproses oleh model, yang memungkinkan untuk menyerang model saat sedang digunakan oleh orang lain.”
Menurut studi tersebut, kemungkinan metode pengiriman meliputi video online, klip musik, catatan suara, atau audio dari panggilan Zoom yang diunggah ke layanan transkripsi AI. Tim juga mengatakan bahwa pekerjaan lanjutan yang belum dipublikasikan menunjukkan serangan serupa dalam obrolan suara AI langsung.
Para peneliti mengatakan pemantauan mekanisme perhatian internal model adalah pertahanan paling efektif yang mereka uji. Namun, mereka juga menemukan bahwa penyerang yang menyadari pertahanan dapat mengurangi kekuatan manipulasi sambil mempertahankan sebagian besar efektivitas serangan.
“Pertahanan satu titik ini kesulitan untuk menahan serangan kami karena kami menemukan sangat sulit bagi model-model ini untuk membedakan niat pengguna normal dan serangan musuh kami,” kata Chen.