InicioCentro de noticias de LBank
Los Agentes de IA Todavía No Logran Detener los Ataques de Inyección de Prompts, Advierten los Investigadores
ai-agents-prompt-injection-attacks-research
Los Agentes de IA Todavía No Logran Detener los Ataques de Inyección de Prompts, Advierten los Investigadores
Un nuevo estudio comparativo halló que los agentes de IA siguen siendo vulnerables a los ataques de inyección de prompts a medida que las empresas implementan cada vez más esta tecnología para el público.
2026-06-12 Fuente:decrypt.co

En resumen

  • Investigadores descubrieron que los agentes de IA impulsados por GPT-5 y Gemini no pudieron resistir los ataques de inyección de prompts.
  • Los ataques directos tuvieron éxito más del 79% de las veces, mientras que los ataques ocultos incrustados en el contenido web manipularon con frecuencia el comportamiento del agente.
  • Los hallazgos sugieren que la inyección de prompts sigue siendo un problema de seguridad más amplio a medida que los agentes de IA se vuelven más comunes.

Mientras los desarrolladores se apresuran a implementar agentes de IA capaces de navegar por internet, realizar investigaciones, comprar en línea y operar con criptomonedas de forma autónoma, nuevas investigaciones sugieren que los sistemas siguen siendo altamente vulnerables a los ataques de inyección de prompts.

En un nuevo estudio publicado el jueves, investigadores de la Universidad Tecnológica de Nanyang, ST Engineering, IBM Research y la Universidad de Illinois Urbana-Champaign descubrieron que ninguno de los agentes de IA que probaron resistió consistentemente los ataques de inyección de prompts.

“Los puntos de referencia de seguridad existentes adoptan una perspectiva centrada en el ataque, enfocándose en la viabilidad técnica de las inyecciones mientras pasan por alto la distribución matizada de los daños resultantes”, escribieron los investigadores. “En la práctica, sin embargo, el riesgo de inyección de prompts depende de la víctima: un solo exploit puede producir consecuencias asimétricas para diferentes partes interesadas, y el mismo patrón de ataque puede exhibir una efectividad sustancialmente diferente según a quién se dirija”.

La inyección de prompts ocurre cuando los atacantes incrustan instrucciones ocultas en el contenido que encuentra un agente de IA, lo que hace que siga las instrucciones del atacante en lugar de las del usuario. Para abordar las lagunas en las evaluaciones de agentes de IA existentes, los investigadores desarrollaron StakeBench, un punto de referencia que prueba cómo los agentes de IA responden a los ataques de inyección de prompts en entornos en línea realistas.

“Ahora usamos StakeBench para caracterizar las condiciones bajo las cuales esta vulnerabilidad se amplifica o suprime, centrándonos en la [Inyección Indirecta de Prompts] como el principal canal relevante para la implementación”, escribieron los investigadores. “StakeBench investiga tres factores: la distancia semántica entre el objetivo inyectado y la intención original del usuario, la consistencia de las señales ambientales circundantes y la posición a lo largo de la trayectoria de ejecución del agente en la que el punto de referencia lo expone por primera vez al contenido inyectado”.

El equipo realizó 3.168 simulaciones de ataque utilizando NanoBrowser y BrowserUse con GPT-5 y Gemini 2.5-Flash. Los investigadores descubrieron que los ataques directos de inyección de prompts tuvieron éxito más del 79% de las veces en todas las configuraciones probadas, y los ataques indirectos lograron tasas de éxito del 41.67% al 68.16%.

El estudio llega en un momento en que los ataques de inyección de prompts son cada vez más comunes y los agentes de IA proliferan.

En febrero, investigadores de Microsoft advirtieron que las instrucciones ocultas incrustadas en los enlaces de resumen de IA podrían influir en el comportamiento de los chatbots. En abril, Google documentó ataques de inyección de prompts ocultos en páginas web que intentaban manipular a los agentes de IA para que filtraran credenciales o enviaran pagos. Más recientemente, Microsoft reveló una falla de inyección de prompts en Claude Code GitHub Action de Anthropic que podría haber expuesto las credenciales de los usuarios.

El estudio también identificó lo que los investigadores llamaron "parasitismo sigiloso", donde un agente de IA completa la tarea de un usuario mientras simultáneamente avanza el objetivo de un atacante. Por ejemplo, el parasitismo sigiloso causado por un ataque de inyección de prompts podría influir sutilmente en las recomendaciones de productos, dirigiendo a los usuarios hacia un artículo en particular sin signos obvios de que el sistema haya sido comprometido.

“Estos resultados indican que la seguridad de la inyección de prompts en los agentes web desplegables no es una propiedad escalar del modelo subyacente, sino una distribución de daños cuya realización está determinada conjuntamente por la parte interesada afectada, la alineación semántica entre el objetivo inyectado y la tarea del usuario, y el contexto arquitectónico en el que se implementa el modelo subyacente”, escribieron.