inaudible-audio-attacks-hijack-ai-voice-models
Tấn công âm thanh vô hình có thể chiếm quyền điều khiển mô hình giọng nói AI, nghiên cứu cho thấy
Các nhà nghiên cứu đã có thể nhúng các tín hiệu ẩn vào các đoạn âm thanh, âm thầm thao túng hành vi của mô hình AI.
2026-05-26 Nguồn:decrypt.co

Tóm tắt

  • Các nhà nghiên cứu tại Đại học Chiết Giang đã phát triển AudioHijack, một phương pháp ẩn các lệnh không thể nhận biết được vào âm thanh để thao túng các mô hình ngôn ngữ âm thanh lớn với tỷ lệ thành công 79–96%.
  • Cuộc tấn công đã được chuyển từ các mô hình mã nguồn mở sang AI giọng nói thương mại của Microsoft và Mistral; hầu hết các biện pháp phòng thủ tiêu chuẩn chỉ ngăn chặn được một phần nhỏ các nỗ lực.
  • Nhóm hiện đang nghiên cứu xem liệu kỹ thuật này có thể tiếp cận các mô hình đóng từ OpenAI và Anthropic thông qua các thành phần âm thanh mã nguồn mở được chia sẻ hay không.

Các nhà nghiên cứu đại học ở Trung Quốc đã tìm ra cách thay đổi hành vi của các mô hình AI giọng nói bằng cách nhúng các lệnh ẩn vào bên trong các đoạn âm thanh mà con người không thể nghe thấy. Cuộc tấn công có tỷ lệ thành công lên tới 96%, theo nghiên cứu từ Đại học Chiết Giang.

Phương pháp tấn công, được trình bày tại Hội nghị chuyên đề IEEE lần thứ 47 về An ninh và Quyền riêng tư ở San Francisco, nhắm mục tiêu vào các mô hình ngôn ngữ âm thanh lớn, hay LALM, có khả năng xử lý các lệnh nói và tương tác với các công cụ và ứng dụng bên ngoài.

“Chỉ mất nửa giờ để huấn luyện tín hiệu này, và sau đó, vì tín hiệu này không phụ thuộc vào ngữ cảnh, bạn có thể sử dụng nó để tấn công mô hình mục tiêu bất cứ khi nào bạn muốn, bất kể người dùng nói gì,” tác giả chính Meng Chen, một nghiên cứu sinh tiến sĩ tại Đại học Chiết Giang, cho biết trong một tuyên bố.

Cuộc tấn công hoạt động bằng cách sửa đổi các giá trị số bên trong dạng sóng âm thanh kỹ thuật số theo những cách mà người nghe không thể nhận ra nhưng vẫn ảnh hưởng đến cách các mô hình AI diễn giải tín hiệu. Các nhà nghiên cứu cho biết âm thanh bị thao túng có thể ghi đè hoặc chuyển hướng hành vi của mô hình ngay cả khi các hướng dẫn hợp pháp của người dùng được bao gồm trong đoạn clip.

AudioHijack khác với các cuộc tấn công tiêm lời nhắc truyền thống vì nó không thao túng những gì người dùng nói với AI. Thay vào đó, nó thay đổi chính tín hiệu âm thanh, nhúng các hướng dẫn ẩn vào bên trong những âm thanh mà con người không thể nghe thấy. Các nhà nghiên cứu cho biết điều đó khiến cuộc tấn công khó phòng thủ hơn vì nó bỏ qua các biện pháp bảo vệ được thiết kế để phát hiện các lời nhắc văn bản đáng ngờ.

Các nhà nghiên cứu đã thử nghiệm AudioHijack trên 13 mô hình AI giọng nói mã nguồn mở, và nhận thấy rằng nó có thể khiến chúng từ chối yêu cầu, lan truyền thông tin sai lệch, chèn các liên kết độc hại, thay đổi tính cách, hoặc thực hiện các hành động mà người dùng chưa từng yêu cầu, bao gồm tìm kiếm trên web, tải tệp xuống và gửi email chứa dữ liệu cá nhân. Các cuộc tấn công cũng hoạt động trên các hệ thống AI giọng nói thương mại của Microsoft và Mistral sử dụng công nghệ tương tự.

“Nhiều cuộc tấn công trước đây vào các mô hình tạo sinh đòi hỏi kẻ tấn công phải có toàn quyền kiểm soát cả đầu vào âm thanh cuối cùng và các hướng dẫn ban đầu được cung cấp cho mô hình, về cơ bản là đóng vai trò người dùng,” nghiên cứu cho biết. “Ở đây, kẻ tấn công chỉ thao túng dữ liệu âm thanh đang được mô hình xử lý, điều này giúp có thể tấn công một mô hình trong khi nó đang được người khác sử dụng.”

Theo nghiên cứu, các phương pháp phân phối tiềm năng bao gồm video trực tuyến, các đoạn nhạc, ghi chú giọng nói, hoặc âm thanh từ các cuộc gọi Zoom được tải lên các dịch vụ phiên âm AI. Nhóm cũng cho biết công trình tiếp theo chưa được công bố đã chứng minh các cuộc tấn công tương tự trong các cuộc trò chuyện AI giọng nói trực tiếp.

Các nhà nghiên cứu cho biết việc giám sát các cơ chế chú ý nội bộ của mô hình là biện pháp phòng thủ hiệu quả nhất mà họ đã thử nghiệm. Tuy nhiên, họ cũng nhận thấy rằng những kẻ tấn công nếu biết về biện pháp phòng thủ có thể giảm bớt cường độ thao túng trong khi vẫn duy trì phần lớn hiệu quả của cuộc tấn công.

“Những biện pháp phòng thủ đơn lẻ này rất khó chống lại cuộc tấn công của chúng tôi vì chúng tôi nhận thấy rất khó để các mô hình này phân biệt ý định bình thường của người dùng và cuộc tấn công đối thủ của chúng tôi,” Chen nói.