
Investigadores universitarios en China han encontrado una forma de alterar el comportamiento de los modelos de voz de IA incrustando comandos ocultos dentro de clips de audio que son inaudibles para los humanos. El ataque tiene una tasa de éxito de hasta el 96 %, según una investigación de la Universidad de Zhejiang.
El método de ataque, presentado en el 47º Simposio IEEE sobre Seguridad y Privacidad en San Francisco, apunta a grandes modelos de lenguaje de audio, o LALMs, que pueden procesar comandos hablados e interactuar con herramientas y aplicaciones externas.
«Solo se tarda media hora en entrenar esta señal, y luego, debido a que esta señal es agnóstica al contexto, puedes usarla para atacar el modelo objetivo cuando quieras, sin importar lo que diga el usuario», dijo en un comunicado el autor principal Meng Chen, estudiante de doctorado en la Universidad de Zhejiang.
El ataque funciona modificando los valores numéricos dentro de una forma de onda de audio digital de maneras que no son perceptibles para los oyentes humanos, pero que aún afectan la forma en que los modelos de IA interpretan la señal. Los investigadores dijeron que el audio manipulado puede anular o redirigir el comportamiento de un modelo incluso cuando se incluyen instrucciones legítimas del usuario con el clip.
AudioHijack difiere de los ataques tradicionales de inyección de prompts porque no manipula lo que el usuario le dice a la IA. En cambio, altera la propia señal de audio, incrustando instrucciones ocultas dentro de sonidos que los humanos no pueden oír. Los investigadores dijeron que esto hace que el ataque sea más difícil de defender porque evade las salvaguardias diseñadas para detectar prompts de texto sospechosos.
Los investigadores probaron AudioHijack en 13 modelos de voz de IA de código abierto, y descubrieron que podía hacer que rechazaran solicitudes, difundieran información falsa, insertaran enlaces dañinos, cambiaran de personalidad o realizaran acciones que el usuario nunca solicitó, incluidas búsquedas web, descargas de archivos y correos electrónicos que contenían datos personales. Los ataques también funcionaron en sistemas comerciales de IA de voz de Microsoft y Mistral que utilizan tecnología similar.
«Muchos ataques anteriores a modelos generativos requerían que el atacante tuviera control total tanto sobre la entrada de audio final como sobre las instrucciones originales dadas al modelo, actuando esencialmente como el usuario», decía el estudio. «Aquí, el atacante manipula solo los datos de audio que están siendo procesados por el modelo, lo que hace posible atacar un modelo mientras está siendo utilizado por otra persona».
Según el estudio, los posibles métodos de entrega incluyen videos en línea, clips de música, notas de voz o audio de llamadas de Zoom subidos a servicios de transcripción de IA. El equipo también dijo que un trabajo de seguimiento no publicado demostró ataques similares en chats de voz de IA en vivo.
Los investigadores dijeron que monitorear los mecanismos de atención interna de un modelo fue la defensa más efectiva que probaron. Sin embargo, también encontraron que los atacantes conscientes de la defensa podían reducir la fuerza de la manipulación manteniendo gran parte de la efectividad del ataque.
«Estas defensas de un solo punto tienen dificultades para resistir nuestro ataque porque encontramos que es muy difícil para estos modelos distinguir la intención normal del usuario y nuestro ataque adversario», dijo Chen.