Strona głównaCentrum wiadomości LBank
Agenci AI nadal nie są w stanie zatrzymać ataków typu prompt injection, ostrzegają badacze
ai-agents-prompt-injection-attacks-research
Agenci AI nadal nie są w stanie zatrzymać ataków typu prompt injection, ostrzegają badacze
Nowe badanie porównawcze wykazało, że agenci AI nadal są podatni na ataki typu prompt injection, w miarę jak firmy coraz częściej udostępniają tę technologię publicznie.
2026-06-12 Źródło:decrypt.co

W skrócie

  • Badacze odkryli, że agenci AI zasilani GPT-5 i Gemini nie są w stanie oprzeć się atakom typu prompt injection.
  • Bezpośrednie ataki kończyły się sukcesem w ponad 79% przypadków, podczas gdy ukryte ataki osadzone w treściach internetowych często manipulowały zachowaniem agenta.
  • Wyniki sugerują, że prompt injection pozostaje szerszym problemem bezpieczeństwa w miarę upowszechniania się agentów AI.

Podczas gdy deweloperzy ścigają się we wdrażaniu agentów AI zdolnych do autonomicznego przeglądania internetu, prowadzenia badań, robienia zakupów online i handlu kryptowalutami, nowe badania sugerują, że systemy te pozostają bardzo podatne na ataki typu prompt injection.

W nowym badaniu opublikowanym w czwartek, badacze z Nanyang Technological University, ST Engineering, IBM Research oraz University of Illinois Urbana-Champaign odkryli, że żaden z testowanych agentów AI nie był w stanie konsekwentnie oprzeć się atakom typu prompt injection.

„Istniejące benchmarki bezpieczeństwa przyjmują perspektywę skoncentrowaną na ataku, skupiając się na technicznej wykonalności wstrzykiwania, jednocześnie ignorując niuanse w rozkładzie wynikających z tego szkód” – napisali badacze. „W praktyce jednak ryzyko prompt injection zależy od ofiary: pojedynczy exploit może prowadzić do asymetrycznych konsekwencji dla różnych interesariuszy, a ten sam schemat ataku może wykazywać znacznie różną skuteczność w zależności od tego, kogo atakuje”.

Prompt injection ma miejsce, gdy atakujący osadzają ukryte instrukcje w treściach, na które natrafia agent AI, powodując, że postępuje on zgodnie z wytycznymi atakującego zamiast użytkownika. Aby uzupełnić luki w istniejących ocenach agentów AI, badacze opracowali StakeBench, benchmark, który testuje, jak agenci AI reagują na ataki typu prompt injection w realistycznych środowiskach online.

„Teraz używamy StakeBench do scharakteryzowania warunków, w których ta podatność jest wzmacniana lub tłumiona, skupiając się na [pośrednim wstrzykiwaniu promptów] jako głównym kanale istotnym dla wdrożenia” – napisali badacze. „StakeBench bada trzy takie czynniki: odległość semantyczną między wstrzykniętym celem a oryginalnym zamiarem użytkownika, spójność otaczających wskazówek środowiskowych oraz pozycję w trajektorii wykonania agenta, w której benchmark po raz pierwszy naraża go na wstrzykniętą treść”.

Zespół przeprowadził 3168 symulacji ataków, wykorzystując NanoBrowser i BrowserUse z GPT-5 i Gemini 2.5-Flash. Badacze stwierdzili, że bezpośrednie ataki typu prompt injection zakończyły się sukcesem w ponad 79% przypadków we wszystkich testowanych konfiguracjach, a ataki pośrednie osiągnęły wskaźniki sukcesu od 41,67% do 68,16%.

Badanie pojawia się w momencie, gdy ataki typu prompt injection stają się coraz bardziej powszechne, a agenci AI szerzą się w szybkim tempie.

W lutym badacze z Microsoftu ostrzegli, że ukryte instrukcje osadzone w linkach podsumowujących AI mogą wpływać na zachowanie chatbota. W kwietniu Google udokumentowało ataki typu prompt injection ukryte na stronach internetowych, które próbowały manipulować agentami AI w celu wycieku danych uwierzytelniających lub wysyłania płatności. Niedawno Microsoft ujawnił lukę typu prompt injection w akcji Claude Code GitHub firmy Anthropic, która mogła doprowadzić do ujawnienia danych uwierzytelniających użytkowników.

Badanie zidentyfikowało również to, co badacze nazwali „podstępnym pasożytnictwem”, gdzie agent AI wykonuje zadanie użytkownika, jednocześnie realizując cel atakującego. Na przykład, podstępne pasożytnictwo spowodowane atakiem typu prompt injection mogłoby subtelnie wpływać na rekomendacje produktów, kierując użytkowników w stronę konkretnego przedmiotu bez żadnych oczywistych oznak, że system został skompromitowany.

„Wyniki te wskazują, że bezpieczeństwo przed prompt injection w możliwych do wdrożenia agentach internetowych nie jest skalarną właściwością modelu bazowego, lecz rozkładem szkód, którego realizacja jest wspólnie determinowana przez zainteresowany podmiot, semantyczne dopasowanie między wstrzykniętym celem a zadaniem użytkownika oraz kontekst architektoniczny, w którym model bazowy jest wdrażany” – napisali.