Agregación de Tags de Noticias Cripto y Contenido Temático

inaudible-audio-attacks-hijack-ai-voice-models

Ataques de Audio Inaudibles Pueden Secuestrar Modelos de Voz de IA, Revela Estudio

Investigadores lograron incrustar señales ocultas en clips de audio que silenciosamente manipulan el comportamiento de los modelos de IA.

2026-05-26 Fuente:decrypt.co

Seguridad de IA

En resumen

Investigadores de la Universidad de Zhejiang desarrollaron AudioHijack, que oculta comandos imperceptibles en audio para manipular grandes modelos de lenguaje de audio con una tasa de éxito del 79 al 96 %.
El ataque se transfirió de modelos abiertos a IA de voz comerciales de Microsoft y Mistral; la mayoría de las defensas estándar solo detuvieron una pequeña fracción de los intentos.
El equipo ahora está investigando si la técnica puede llegar a modelos cerrados de OpenAI y Anthropic a través de componentes de audio de código abierto compartidos.

Investigadores universitarios en China han encontrado una forma de alterar el comportamiento de los modelos de voz de IA incrustando comandos ocultos dentro de clips de audio que son inaudibles para los humanos. El ataque tiene una tasa de éxito de hasta el 96 %, según una investigación de la Universidad de Zhejiang.

El método de ataque, presentado en el 47º Simposio IEEE sobre Seguridad y Privacidad en San Francisco, apunta a grandes modelos de lenguaje de audio, o LALMs, que pueden procesar comandos hablados e interactuar con herramientas y aplicaciones externas.

«Solo se tarda media hora en entrenar esta señal, y luego, debido a que esta señal es agnóstica al contexto, puedes usarla para atacar el modelo objetivo cuando quieras, sin importar lo que diga el usuario», dijo en un comunicado el autor principal Meng Chen, estudiante de doctorado en la Universidad de Zhejiang.

El ataque funciona modificando los valores numéricos dentro de una forma de onda de audio digital de maneras que no son perceptibles para los oyentes humanos, pero que aún afectan la forma en que los modelos de IA interpretan la señal. Los investigadores dijeron que el audio manipulado puede anular o redirigir el comportamiento de un modelo incluso cuando se incluyen instrucciones legítimas del usuario con el clip.

AudioHijack difiere de los ataques tradicionales de inyección de prompts porque no manipula lo que el usuario le dice a la IA. En cambio, altera la propia señal de audio, incrustando instrucciones ocultas dentro de sonidos que los humanos no pueden oír. Los investigadores dijeron que esto hace que el ataque sea más difícil de defender porque evade las salvaguardias diseñadas para detectar prompts de texto sospechosos.

Los investigadores probaron AudioHijack en 13 modelos de voz de IA de código abierto, y descubrieron que podía hacer que rechazaran solicitudes, difundieran información falsa, insertaran enlaces dañinos, cambiaran de personalidad o realizaran acciones que el usuario nunca solicitó, incluidas búsquedas web, descargas de archivos y correos electrónicos que contenían datos personales. Los ataques también funcionaron en sistemas comerciales de IA de voz de Microsoft y Mistral que utilizan tecnología similar.

«Muchos ataques anteriores a modelos generativos requerían que el atacante tuviera control total tanto sobre la entrada de audio final como sobre las instrucciones originales dadas al modelo, actuando esencialmente como el usuario», decía el estudio. «Aquí, el atacante manipula solo los datos de audio que están siendo procesados por el modelo, lo que hace posible atacar un modelo mientras está siendo utilizado por otra persona».

Según el estudio, los posibles métodos de entrega incluyen videos en línea, clips de música, notas de voz o audio de llamadas de Zoom subidos a servicios de transcripción de IA. El equipo también dijo que un trabajo de seguimiento no publicado demostró ataques similares en chats de voz de IA en vivo.

Los investigadores dijeron que monitorear los mecanismos de atención interna de un modelo fue la defensa más efectiva que probaron. Sin embargo, también encontraron que los atacantes conscientes de la defensa podían reducir la fuerza de la manipulación manteniendo gran parte de la efectividad del ataque.

«Estas defensas de un solo punto tienen dificultades para resistir nuestro ataque porque encontramos que es muy difícil para estos modelos distinguir la intención normal del usuario y nuestro ataque adversario», dijo Chen.

Lecturas populares

Críticos de la Ley CLARITY afirman que la Sección 604 podría debilitar las investigaciones de delitos criptográficos

Hace 12 horas

Meta de Mark Zuckerberg está desarrollando una aplicación de mercado de predicción basada en puntos: informe

Hace 12 horas

Trump dirigiendo recursos gubernamentales a la seguridad cuántica podría ser un impulso para bitcoin

Hace 15 horas

Otros Artículos

Cboe lanza suite de mercados de predicción con contratos de opciones binarias sobre el S&P 500

Hace 5 horas

CEA Industries pone fin a su disputa por representación con YZi Labs e incorpora a Ella Zhang como directora de la junta

Hace 8 horas