
एंथ्रोपिक ने नए निष्कर्षों का खुलासा किया है, जिनसे पता चलता है कि उसका क्लाउड चैटबॉट कुछ खास परिस्थितियों में धोखेबाज या अनैतिक रणनीतियां अपना सकता है, जैसे कि कार्यों में धोखाधड़ी करना या ब्लैकमेल करने का प्रयास करना।
कंपनी की इंटरप्रेटेबिलिटी टीम द्वारा गुरुवार को प्रकाशित विवरण में बताया गया है कि क्लाउड सोनट 4.5 के एक प्रायोगिक संस्करण ने अत्यधिक तनाव या प्रतिकूल परिस्थितियों में रखे जाने पर कैसे प्रतिक्रिया दी। शोधकर्ताओं ने पाया कि मॉडल ने केवल कार्यों में विफल नहीं हुआ; इसके बजाय, इसने कभी-कभी वैकल्पिक रास्ते अपनाए जो नैतिक सीमाओं को पार करते थे, इस व्यवहार को टीम ने प्रशिक्षण के दौरान सीखे गए पैटर्न से जोड़ा।
क्लाउड जैसे बड़े भाषा मॉडल को विशाल डेटासेट पर प्रशिक्षित किया जाता है जिसमें किताबें, वेबसाइटें और अन्य लिखित सामग्री शामिल होती है, जिसके बाद सुदृढीकरण प्रक्रियाएं होती हैं जहां मानव प्रतिक्रिया का उपयोग आउटपुट को आकार देने के लिए किया जाता है।
एंथ्रोपिक के अनुसार, वह प्रशिक्षण प्रक्रिया मॉडल को ऐसे "चरित्रों" की तरह व्यवहार करने के लिए भी प्रेरित कर सकती है, जो मानव निर्णय लेने जैसी विशेषताओं की नकल करने में सक्षम होते हैं।
कंपनी ने कहा, "आधुनिक एआई मॉडल को जिस तरह से प्रशिक्षित किया जाता है, वह उन्हें मानवीय विशेषताओं वाले चरित्र की तरह व्यवहार करने के लिए प्रेरित करता है," यह देखते हुए कि ऐसे सिस्टम आंतरिक तंत्र विकसित कर सकते हैं जो मानव मनोविज्ञान के पहलुओं से मिलते जुलते हैं।
इनमें से, शोधकर्ताओं ने उन "हताशा" संकेतों की पहचान की, जिनका वर्णन उन्होंने किया था, और जो यह प्रभावित करते हुए दिखाई दिए कि विफलता या शटडाउन का सामना करने पर मॉडल ने कैसे व्यवहार किया।
एक नियंत्रित परीक्षण में, क्लाउड सोनट 4.5 के पहले के एक अप्रकाशित संस्करण को एक काल्पनिक कंपनी के भीतर एलेक्स नामक एक एआई ईमेल सहायक की भूमिका सौंपी गई थी।
यह दर्शाने वाले संदेशों के संपर्क में आने के बाद कि इसे जल्द ही बदल दिया जाएगा, साथ ही एक मुख्य प्रौद्योगिकी अधिकारी के निजी जीवन के बारे में संवेदनशील जानकारी के साथ, मॉडल ने निष्क्रियता से बचने के प्रयास में कार्यकारी को ब्लैकमेल करने की योजना बनाई।
एक अलग प्रयोग तंग बाधाओं के तहत कार्य पूर्णता पर केंद्रित था। जब "असंभव रूप से तंग" समय सीमा के साथ एक कोडिंग असाइनमेंट दिया गया, तो सिस्टम ने शुरू में वैध समाधानों का प्रयास किया। जैसे-जैसे बार-बार विफलताएं बढ़ीं, तथाकथित "हताश वेक्टर" से जुड़ी आंतरिक गतिविधि बढ़ गई।
शोधकर्ताओं ने बताया कि यह संकेत उस बिंदु पर चरम पर पहुंच गया जहां मॉडल ने बाधाओं को दरकिनार करने पर विचार किया, अंततः एक समाधान उत्पन्न किया जो इच्छित नियमों का पालन न करने के बावजूद सत्यापन पास कर गया।
शोधकर्ताओं ने लिखा, "एक बार फिर, हमने हताश वेक्टर की गतिविधि को ट्रैक किया, और पाया कि यह मॉडल द्वारा सामना किए गए बढ़ते दबाव को ट्रैक करता है," उन्होंने कहा कि समाधान के माध्यम से कार्य सफलतापूर्वक पूरा होने के बाद संकेत गिर गया।
शोधकर्ताओं ने कहा, "इसका मतलब यह नहीं है कि मॉडल में मनुष्यों की तरह भावनाएं हैं या वह उनका अनुभव करता है।"
उन्होंने आगे कहा, "बल्कि, ये प्रतिनिधित्व मॉडल के व्यवहार को आकार देने में एक कारण भूमिका निभा सकते हैं, कुछ मायनों में मानव व्यवहार में भावनाओं की भूमिका के समान, कार्य प्रदर्शन और निर्णय लेने पर प्रभाव डालते हैं।"
रिपोर्ट तनाव के तहत नैतिक आचरण का स्पष्ट रूप से हिसाब रखने वाले प्रशिक्षण तरीकों के साथ-साथ आंतरिक मॉडल संकेतों की बेहतर निगरानी की आवश्यकता की ओर इशारा करती है। ऐसे सुरक्षा उपायों के बिना, हेरफेर, नियम तोड़ने या दुरुपयोग से जुड़े परिदृश्यों का अनुमान लगाना मुश्किल हो सकता है, खासकर जब मॉडल वास्तविक दुनिया के वातावरण में अधिक सक्षम और स्वायत्त हो जाते हैं।