
Cercetătorii universitari din China au descoperit o modalitate de a modifica comportamentul modelelor vocale AI prin încorporarea de comenzi ascunse în clipuri audio care sunt inaudibile pentru oameni. Atacul are o rată de succes de până la 96%, conform cercetărilor de la Universitatea Zhejiang.
Metoda de atac, prezentată la al 47-lea Simpozion IEEE privind Securitatea și Confidențialitatea din San Francisco, vizează modelele lingvistice audio mari, sau LALM-uri, care pot procesa comenzi vocale și pot interacționa cu instrumente și aplicații externe.
„Durează doar o jumătate de oră pentru a antrena acest semnal, iar apoi, deoarece acest semnal este agnostic de context, îl puteți folosi pentru a ataca modelul țintă oricând doriți, indiferent ce spune utilizatorul”, a declarat într-un comunicat autorul principal Meng Chen, student doctorand la Universitatea Zhejiang.
Atacul funcționează prin modificarea valorilor numerice dintr-o formă de undă audio digitală în moduri care nu sunt perceptibile pentru ascultătorii umani, dar care afectează totuși modul în care modelele AI interpretează semnalul. Cercetătorii au spus că audio-ul manipulat poate suprascrie sau redirecționa comportamentul unui model chiar și atunci când instrucțiunile legitime ale utilizatorului sunt incluse în clip.
AudioHijack diferă de atacurile tradiționale de injectare a prompturilor, deoarece nu manipulează ceea ce spune utilizatorul AI-ului. În schimb, alterează semnalul audio în sine, încorporând instrucțiuni ascunse în sunete pe care oamenii nu le pot auzi. Cercetătorii au spus că acest lucru face atacul mai dificil de apărat, deoarece ocolește măsurile de siguranță concepute pentru a detecta prompturile text suspecte.
Cercetătorii au testat AudioHijack pe 13 modele vocale AI open-source și au descoperit că le putea determina să refuze cereri, să răspândească informații false, să insereze link-uri dăunătoare, să-și schimbe personalitatea sau să efectueze acțiuni pe care utilizatorul nu le-a solicitat niciodată, inclusiv căutări web, descărcări de fișiere și e-mailuri care conțin date personale. Atacurile au funcționat și pe sistemele comerciale de AI vocală de la Microsoft și Mistral care utilizează tehnologii similare.
„Multe atacuri anterioare asupra modelelor generative au cerut atacatorului să aibă control complet atât asupra intrării audio finale, cât și asupra instrucțiunilor originale date modelului, acționând practic ca utilizator”, a precizat studiul. „Aici, atacatorul manipulează doar datele audio procesate de model, ceea ce face posibilă atacarea unui model în timp ce este utilizat de altcineva.”
Conform studiului, metodele posibile de livrare includ videoclipuri online, clipuri muzicale, note vocale sau audio din apeluri Zoom încărcate în servicii de transcriere AI. Echipa a declarat, de asemenea, că o lucrare ulterioară nepublicată a demonstrat atacuri similare în chaturile vocale AI live.
Cercetătorii au afirmat că monitorizarea mecanismelor de atenție interne ale unui model a fost cea mai eficientă apărare pe care au testat-o. Cu toate acestea, au descoperit, de asemenea, că atacatorii conștienți de apărare ar putea reduce puterea manipulării, menținând în același timp o mare parte din eficacitatea atacului.
„Aceste apărări punctuale se luptă să reziste atacului nostru, deoarece am constatat că este foarte dificil pentru aceste modele să distingă intenția normală a utilizatorului de atacul nostru adversar”, a spus Chen.