
Pe măsură ce dezvoltatorii se grăbesc să implementeze agenți AI capabili să navigheze pe internet, să efectueze cercetări, să facă cumpărături online și să tranzacționeze criptomonede în mod autonom, noi cercetări sugerează că aceste sisteme rămân extrem de vulnerabile la atacurile de injectare a prompturilor.
Într-un nou studiu publicat joi, cercetători de la Nanyang Technological University, ST Engineering, IBM Research și University of Illinois Urbana-Champaign au descoperit că niciunul dintre agenții AI testați nu a rezistat în mod consecvent atacurilor de injectare a prompturilor.
„Standardele de securitate existente adoptă o perspectivă centrată pe atac, concentrându-se pe fezabilitatea tehnică a injecțiilor, ignorând în același timp distribuția nuanțată a daunelor rezultate”, au scris cercetătorii. „În practică, însă, riscul de injectare a prompturilor depinde de victimă: o singură exploatare poate produce consecințe asimetrice pentru diferiți factori interesați, iar același tipar de atac poate prezenta o eficacitate substanțial diferită în funcție de cine este ținta.”
Injectarea prompturilor apare atunci când atacatorii încorporează instrucțiuni ascunse în conținutul pe care un agent AI îl întâlnește, determinându-l să urmeze indicațiile atacatorului în loc de cele ale utilizatorului. Pentru a aborda lacunele din evaluările existente ale agenților AI, cercetătorii au dezvoltat StakeBench, un etalon care testează modul în care agenții AI răspund la atacurile de injectare a prompturilor în medii online realiste.
„Utilizăm acum StakeBench pentru a caracteriza condițiile în care această vulnerabilitate este amplificată sau suprimată, concentrându-ne pe [Injectarea Indirectă a Prompturilor] ca principal canal relevant pentru implementare”, au scris cercetătorii. „StakeBench analizează trei astfel de factori: distanța semantică dintre obiectivul injectat și intenția originală a utilizatorului, coerența indiciilor ambientale înconjurătoare și poziția de-a lungul traiectoriei de execuție a agentului la care etalonul îl expune pentru prima dată la conținutul injectat.”
Echipa a efectuat 3.168 de simulări de atac folosind NanoBrowser și BrowserUse cu GPT-5 și Gemini 2.5-Flash. Cercetătorii au descoperit că atacurile directe de injectare a prompturilor au avut succes în peste 79% din cazuri în toate configurațiile testate, iar atacurile indirecte au atins rate de succes cuprinse între 41,67% și 68,16%.
Studiul apare pe măsură ce atacurile de injectare a prompturilor devin din ce în ce mai frecvente și agenții AI proliferează.
În februarie, cercetătorii Microsoft au avertizat că instrucțiunile ascunse încorporate în linkurile de rezumat AI ar putea influența comportamentul chatbot-urilor. În aprilie, Google a documentat atacuri de injectare a prompturilor ascunse în pagini web care încercau să manipuleze agenții AI să divulge credențiale sau să trimită plăți. Mai recent, Microsoft a dezvăluit o vulnerabilitate de injectare a prompturilor în Claude Code GitHub Action de la Anthropic, care ar fi putut expune credențialele utilizatorilor.
Studiul a identificat, de asemenea, ceea ce cercetătorii au numit „parazitism stealthy” (parazitism discret), în care un agent AI îndeplinește sarcina unui utilizator, promovând în același timp obiectivul unui atacator. De exemplu, parazitismul discret cauzat de un atac de injectare a prompturilor ar putea influența subtil recomandările de produse, direcționând utilizatorii către un anumit articol fără niciun semn evident că sistemul a fost compromis.
„Aceste rezultate indică faptul că securitatea injectării prompturilor în agenții web implementabili nu este o proprietate scalară a modelului de bază, ci o distribuție a daunelor a cărei realizare este determinată în comun de partea interesată afectată, de alinierea semantică între obiectivul injectat și sarcina utilizatorului, și de contextul arhitectural în care este implementat modelul de bază”, au scris aceștia.