Agregare de etichete de știri cripto și știri tematice

ai-agents-prompt-injection-attacks-research

Agenții AI încă nu pot opri atacurile de injecție de prompt, avertizează cercetătorii

Un nou studiu de referință a constatat că agenții AI rămân vulnerabili la atacurile de injectare de prompt, pe măsură ce companiile lansează tot mai mult tehnologia către public.

2026-06-12 Sursă:decrypt.co

Securitatea AI

Pe scurt

Cercetătorii au descoperit că agenții AI alimentați de GPT-5 și Gemini nu au putut rezista atacurilor de injectare a prompturilor.
Atacurile directe au avut succes în peste 79% din cazuri, în timp ce atacurile ascunse, integrate în conținutul web, au manipulat frecvent comportamentul agentului.
Descoperirile sugerează că injectarea prompturilor rămâne o problemă de securitate mai amplă pe măsură ce agenții AI devin mai răspândiți.

Pe măsură ce dezvoltatorii se grăbesc să implementeze agenți AI capabili să navigheze pe internet, să efectueze cercetări, să facă cumpărături online și să tranzacționeze criptomonede în mod autonom, noi cercetări sugerează că aceste sisteme rămân extrem de vulnerabile la atacurile de injectare a prompturilor.

Într-un nou studiu publicat joi, cercetători de la Nanyang Technological University, ST Engineering, IBM Research și University of Illinois Urbana-Champaign au descoperit că niciunul dintre agenții AI testați nu a rezistat în mod consecvent atacurilor de injectare a prompturilor.

„Standardele de securitate existente adoptă o perspectivă centrată pe atac, concentrându-se pe fezabilitatea tehnică a injecțiilor, ignorând în același timp distribuția nuanțată a daunelor rezultate”, au scris cercetătorii. „În practică, însă, riscul de injectare a prompturilor depinde de victimă: o singură exploatare poate produce consecințe asimetrice pentru diferiți factori interesați, iar același tipar de atac poate prezenta o eficacitate substanțial diferită în funcție de cine este ținta.”

Injectarea prompturilor apare atunci când atacatorii încorporează instrucțiuni ascunse în conținutul pe care un agent AI îl întâlnește, determinându-l să urmeze indicațiile atacatorului în loc de cele ale utilizatorului. Pentru a aborda lacunele din evaluările existente ale agenților AI, cercetătorii au dezvoltat StakeBench, un etalon care testează modul în care agenții AI răspund la atacurile de injectare a prompturilor în medii online realiste.

„Utilizăm acum StakeBench pentru a caracteriza condițiile în care această vulnerabilitate este amplificată sau suprimată, concentrându-ne pe [Injectarea Indirectă a Prompturilor] ca principal canal relevant pentru implementare”, au scris cercetătorii. „StakeBench analizează trei astfel de factori: distanța semantică dintre obiectivul injectat și intenția originală a utilizatorului, coerența indiciilor ambientale înconjurătoare și poziția de-a lungul traiectoriei de execuție a agentului la care etalonul îl expune pentru prima dată la conținutul injectat.”

Echipa a efectuat 3.168 de simulări de atac folosind NanoBrowser și BrowserUse cu GPT-5 și Gemini 2.5-Flash. Cercetătorii au descoperit că atacurile directe de injectare a prompturilor au avut succes în peste 79% din cazuri în toate configurațiile testate, iar atacurile indirecte au atins rate de succes cuprinse între 41,67% și 68,16%.

Studiul apare pe măsură ce atacurile de injectare a prompturilor devin din ce în ce mai frecvente și agenții AI proliferează.

În februarie, cercetătorii Microsoft au avertizat că instrucțiunile ascunse încorporate în linkurile de rezumat AI ar putea influența comportamentul chatbot-urilor. În aprilie, Google a documentat atacuri de injectare a prompturilor ascunse în pagini web care încercau să manipuleze agenții AI să divulge credențiale sau să trimită plăți. Mai recent, Microsoft a dezvăluit o vulnerabilitate de injectare a prompturilor în Claude Code GitHub Action de la Anthropic, care ar fi putut expune credențialele utilizatorilor.

Studiul a identificat, de asemenea, ceea ce cercetătorii au numit „parazitism stealthy” (parazitism discret), în care un agent AI îndeplinește sarcina unui utilizator, promovând în același timp obiectivul unui atacator. De exemplu, parazitismul discret cauzat de un atac de injectare a prompturilor ar putea influența subtil recomandările de produse, direcționând utilizatorii către un anumit articol fără niciun semn evident că sistemul a fost compromis.

„Aceste rezultate indică faptul că securitatea injectării prompturilor în agenții web implementabili nu este o proprietate scalară a modelului de bază, ci o distribuție a daunelor a cărei realizare este determinată în comun de partea interesată afectată, de alinierea semantică între obiectivul injectat și sarcina utilizatorului, și de contextul arhitectural în care este implementat modelul de bază”, au scris aceștia.

Lecturi populare

Înalta Curte a Australiei susține reglementatorul în cazul Block Earner privind randamentele cripto

Acum 6 ore

Grupuri din industria jocurilor de noroc din SUA solicită Senatului să interzică piețele de predicție sportivă în proiectul de lege cripto: raport

Acum 11 ore

Tether încasează 12,7 milioane USD după ce și-a redus deținerile la Bitdeer, păstrând o participație de 19,7%

Acum 15 ore

Alte articole

„A avut ziua lui în instanță:” Senatorii Lummis și Gallego îl presează pe Trump să nu-l grațieze pe fostul CEO FTX Sam Bankman-Fried

Acum 2 ore

Înalta Curte a Australiei susține reglementatorul în cazul Block Earner privind randamentele cripto

Acum 6 ore