
محققان دانشگاهی در چین راهی برای تغییر رفتار مدلهای صوتی هوش مصنوعی با جاسازی دستورات پنهان در کلیپهای صوتی که برای انسانها غیرقابل شنیدن هستند، یافتهاند. بر اساس تحقیقات دانشگاه ژجیانگ، این حمله تا 96 درصد نرخ موفقیت دارد.
این روش حمله که در چهل و هفتمین سمپوزیوم IEEE در مورد امنیت و حریم خصوصی در سانفرانسیسکو ارائه شد، مدلهای زبان-صوتی بزرگ (LALM) را هدف قرار میدهد که میتوانند دستورات گفتاری را پردازش کرده و با ابزارها و برنامههای خارجی تعامل داشته باشند.
منگ چن، نویسنده اصلی و دانشجوی دکترا در دانشگاه ژجیانگ، در بیانیهای گفت: «فقط نیم ساعت طول میکشد تا این سیگنال را آموزش دهیم، و سپس، چون این سیگنال مستقل از زمینه است، میتوانید هر زمان که خواستید، صرف نظر از آنچه کاربر میگوید، از آن برای حمله به مدل هدف استفاده کنید.»
این حمله با تغییر مقادیر عددی درون یک شکل موج صوتی دیجیتال به گونهای عمل میکند که برای شنوندگان انسانی قابل درک نیست اما همچنان بر نحوه تفسیر سیگنال توسط مدلهای هوش مصنوعی تأثیر میگذارد. محققان گفتند که صدای دستکاری شده میتواند رفتار یک مدل را حتی زمانی که دستورالعملهای قانونی کاربر با کلیپ همراه است، لغو یا هدایت مجدد کند.
AudioHijack با حملات سنتی تزریق پرامپت متفاوت است زیرا آنچه کاربر به هوش مصنوعی میگوید را دستکاری نمیکند. در عوض، خود سیگنال صوتی را تغییر میدهد و دستورات پنهان را درون صداهایی که انسانها نمیتوانند بشنوند، جاسازی میکند. محققان گفتند که این امر دفاع در برابر حمله را دشوارتر میکند زیرا اقدامات حفاظتی طراحی شده برای شناسایی پرامپتهای متنی مشکوک را دور میزند.
محققان AudioHijack را روی 13 مدل صوتی هوش مصنوعی متنباز آزمایش کردند و دریافتند که میتواند آنها را وادار به رد درخواستها، انتشار اطلاعات نادرست، درج لینکهای مضر، تغییر شخصیت یا انجام اقداماتی کند که کاربر هرگز درخواست نکرده است، از جمله جستجوهای وب، دانلود فایلها و ایمیلهای حاوی دادههای شخصی. این حملات همچنین بر روی سیستمهای هوش مصنوعی صوتی تجاری مایکروسافت و میسترال که از فناوری مشابهی استفاده میکنند، مؤثر بود.
این مطالعه بیان کرد: «بسیاری از حملات قبلی به مدلهای مولد مستلزم آن بود که مهاجم کنترل کاملی بر ورودی صوتی نهایی و دستورالعملهای اصلی داده شده به مدل داشته باشد و اساساً به عنوان کاربر عمل کند. در اینجا، مهاجم تنها دادههای صوتی را که توسط مدل در حال پردازش است، دستکاری میکند که این امر امکان حمله به یک مدل را در حالی که توسط شخص دیگری در حال استفاده است، فراهم میآورد.»
بر اساس این مطالعه، روشهای احتمالی تحویل شامل ویدیوهای آنلاین، کلیپهای موسیقی، یادداشتهای صوتی یا صدای تماسهای زوم است که در سرویسهای رونویسی هوش مصنوعی بارگذاری میشوند. این تیم همچنین گفت که کارهای پیگیری منتشر نشده، حملات مشابهی را در چتهای صوتی زنده هوش مصنوعی نشان دادهاند.
محققان گفتند که نظارت بر مکانیسمهای توجه داخلی یک مدل، مؤثرترین دفاعی بود که آنها آزمایش کردند. با این حال، آنها همچنین دریافتند که مهاجمان آگاه از این دفاع میتوانند قدرت دستکاری را کاهش دهند در حالی که بخش زیادی از اثربخشی حمله را حفظ میکنند.
چن گفت: «این دفاعهای تکنقطهای برای مقاومت در برابر حمله ما مشکل دارند، زیرا دریافتیم که تمایز بین قصد عادی کاربر و حمله مخرب ما برای این مدلها بسیار دشوار است.»