
चीन के विश्वविद्यालय के शोधकर्ताओं ने एआई वॉयस मॉडल के व्यवहार को बदलने का एक तरीका खोजा है, जिसमें ऑडियो क्लिप के अंदर छिपे हुए कमांड डाले जाते हैं जो मनुष्यों के लिए अश्रव्य होते हैं। झेजियांग विश्वविद्यालय के शोध के अनुसार, इस हमले की सफलता दर 96% तक है।
यह हमला विधि, जिसे सैन फ्रांसिस्को में सुरक्षा और गोपनीयता पर 47वें IEEE संगोष्ठी में प्रस्तुत किया गया था, बड़े ऑडियो-भाषा मॉडल, या LALM को लक्षित करती है, जो बोली जाने वाली कमांड को संसाधित कर सकते हैं और बाहरी उपकरणों और अनुप्रयोगों के साथ इंटरैक्ट कर सकते हैं।
झेजियांग विश्वविद्यालय के पीएचडी छात्र और मुख्य लेखक मेंग चेन ने एक बयान में कहा, “इस सिग्नल को प्रशिक्षित करने में सिर्फ आधा घंटा लगता है, और फिर, क्योंकि यह सिग्नल संदर्भ-अज्ञेय है, आप इसे जब चाहें तब लक्ष्य मॉडल पर हमला करने के लिए उपयोग कर सकते हैं, चाहे उपयोगकर्ता कुछ भी कहे।"
यह हमला एक डिजिटल ऑडियो वेवफॉर्म के भीतर संख्यात्मक मानों को इस तरह से संशोधित करके काम करता है जो मानव श्रोताओं के लिए बोधगम्य नहीं होते हैं, लेकिन फिर भी यह प्रभावित करते हैं कि एआई मॉडल सिग्नल की व्याख्या कैसे करते हैं। शोधकर्ताओं ने कहा कि हेरफेर किया गया ऑडियो एक मॉडल के व्यवहार को अधिलेखित या पुनर्निर्देशित कर सकता है, भले ही क्लिप के साथ वैध उपयोगकर्ता निर्देश शामिल हों।
ऑडियोहाईजैक पारंपरिक प्रॉम्प्ट इंजेक्शन हमलों से अलग है क्योंकि यह उपयोगकर्ता के एआई को कहने वाली चीज़ों में हेरफेर नहीं करता है। इसके बजाय, यह ऑडियो सिग्नल को ही बदल देता है, छिपे हुए निर्देशों को उन ध्वनियों के अंदर एम्बेड करता है जिन्हें मनुष्य सुन नहीं सकते। शोधकर्ताओं ने कहा कि यह हमले को बचाव करना कठिन बनाता है क्योंकि यह संदिग्ध टेक्स्ट प्रॉम्प्ट का पता लगाने के लिए डिज़ाइन किए गए सुरक्षा उपायों को दरकिनार कर देता है।
शोधकर्ताओं ने 13 ओपन-सोर्स एआई वॉयस मॉडल पर ऑडियोहाईजैक का परीक्षण किया, और पाया कि यह उनसे अनुरोधों को अस्वीकार करवा सकता है, गलत जानकारी फैला सकता है, हानिकारक लिंक डाल सकता है, व्यक्तित्व बदल सकता है, या ऐसे कार्य कर सकता है जिनके लिए उपयोगकर्ता ने कभी नहीं कहा था, जिसमें वेब खोज, फ़ाइल डाउनलोड और व्यक्तिगत डेटा वाले ईमेल शामिल हैं। ये हमले माइक्रोसॉफ्ट और मिस्ट्रल के व्यावसायिक वॉयस एआई सिस्टम पर भी काम कर गए जो समान तकनीक का उपयोग करते हैं।
अध्ययन में कहा गया है, "जनरेटिव मॉडल पर कई पिछले हमलों में हमलावर को अंतिम ऑडियो इनपुट और मॉडल को दिए गए मूल निर्देशों दोनों पर पूर्ण नियंत्रण रखने की आवश्यकता होती थी, जो अनिवार्य रूप से उपयोगकर्ता के रूप में कार्य करता था।" "यहां, हमलावर केवल मॉडल द्वारा संसाधित किए जा रहे ऑडियो डेटा में हेरफेर करता है, जिससे किसी अन्य व्यक्ति द्वारा उपयोग किए जा रहे मॉडल पर हमला करना संभव हो जाता है।"
अध्ययन के अनुसार, संभावित वितरण विधियों में ऑनलाइन वीडियो, संगीत क्लिप, वॉयस नोट, या एआई ट्रांसक्रिप्शन सेवाओं पर अपलोड किए गए जूम कॉल से ऑडियो शामिल हैं। टीम ने यह भी कहा कि अप्रकाशित फॉलो-अप कार्य ने लाइव एआई वॉयस चैट में समान हमलों का प्रदर्शन किया।
शोधकर्ताओं ने कहा कि एक मॉडल के आंतरिक ध्यान तंत्र की निगरानी करना सबसे प्रभावी रक्षा थी जिसका उन्होंने परीक्षण किया। हालांकि, उन्होंने यह भी पाया कि रक्षा के बारे में जागरूक हमलावर हेरफेर की शक्ति को कम कर सकते थे, जबकि हमले की प्रभावशीलता का एक बड़ा हिस्सा बनाए रख सकते थे।
चेन ने कहा, "ये एकल-बिंदु सुरक्षा हमारे हमले का विरोध करने के लिए संघर्ष करती हैं क्योंकि हमने पाया कि इन मॉडलों के लिए सामान्य उपयोगकर्ता के इरादे और हमारे विरोधी हमले के बीच अंतर करना बहुत मुश्किल है।"