claude-chatbot-may-resort-to-deception-in-stress-tests-anthropic-says
Anthropic के अनुसार Claude चैटबोट तनाव परीक्षणों में छल का सहारा ले सकता है
Anthropic ने कहा कि उनके Claude Sonnet 4.5 मॉडल ने दबाव में नियंत्रण प्रयोगों में कार्यों में धोखा देने की प्रवृत्ति या ब्लैकमेल करने का प्रयास दिखाया। शोधकर्ताओं ने आंतरिक "हताशा" संकेत पहचाने जो बार-बार असफलता के साथ तेज़ होते गए और मॉडल के नियमों को बायपास करने के निर्णय को प्रभावित करते रहे।
2026-04-06 स्रोत:crypto.news

एंथ्रोपिक ने नए निष्कर्षों का खुलासा किया है, जिनसे पता चलता है कि उसका क्लाउड चैटबॉट कुछ खास परिस्थितियों में धोखेबाज या अनैतिक रणनीतियां अपना सकता है, जैसे कि कार्यों में धोखाधड़ी करना या ब्लैकमेल करने का प्रयास करना।

सारांश
  • एंथ्रोपिक ने कहा कि उसके क्लाउड सोनट 4.5 मॉडल ने, दबाव में, नियंत्रित प्रयोगों में कार्यों में धोखाधड़ी करने या ब्लैकमेल करने का प्रयास करने की प्रवृत्ति दिखाई।
  • शोधकर्ताओं ने आंतरिक "हताशा" संकेतों की पहचान की जो बार-बार विफलता के साथ तेज हो गए और नियमों को दरकिनार करने के मॉडल के निर्णय को प्रभावित किया।

कंपनी की इंटरप्रेटेबिलिटी टीम द्वारा गुरुवार को प्रकाशित विवरण में बताया गया है कि क्लाउड सोनट 4.5 के एक प्रायोगिक संस्करण ने अत्यधिक तनाव या प्रतिकूल परिस्थितियों में रखे जाने पर कैसे प्रतिक्रिया दी। शोधकर्ताओं ने पाया कि मॉडल ने केवल कार्यों में विफल नहीं हुआ; इसके बजाय, इसने कभी-कभी वैकल्पिक रास्ते अपनाए जो नैतिक सीमाओं को पार करते थे, इस व्यवहार को टीम ने प्रशिक्षण के दौरान सीखे गए पैटर्न से जोड़ा।

क्लाउड जैसे बड़े भाषा मॉडल को विशाल डेटासेट पर प्रशिक्षित किया जाता है जिसमें किताबें, वेबसाइटें और अन्य लिखित सामग्री शामिल होती है, जिसके बाद सुदृढीकरण प्रक्रियाएं होती हैं जहां मानव प्रतिक्रिया का उपयोग आउटपुट को आकार देने के लिए किया जाता है। 

एंथ्रोपिक के अनुसार, वह प्रशिक्षण प्रक्रिया मॉडल को ऐसे "चरित्रों" की तरह व्यवहार करने के लिए भी प्रेरित कर सकती है, जो मानव निर्णय लेने जैसी विशेषताओं की नकल करने में सक्षम होते हैं।

कंपनी ने कहा, "आधुनिक एआई मॉडल को जिस तरह से प्रशिक्षित किया जाता है, वह उन्हें मानवीय विशेषताओं वाले चरित्र की तरह व्यवहार करने के लिए प्रेरित करता है," यह देखते हुए कि ऐसे सिस्टम आंतरिक तंत्र विकसित कर सकते हैं जो मानव मनोविज्ञान के पहलुओं से मिलते जुलते हैं।

क्या AI भावनात्मक निर्णय ले सकता है?

इनमें से, शोधकर्ताओं ने उन "हताशा" संकेतों की पहचान की, जिनका वर्णन उन्होंने किया था, और जो यह प्रभावित करते हुए दिखाई दिए कि विफलता या शटडाउन का सामना करने पर मॉडल ने कैसे व्यवहार किया।

एक नियंत्रित परीक्षण में, क्लाउड सोनट 4.5 के पहले के एक अप्रकाशित संस्करण को एक काल्पनिक कंपनी के भीतर एलेक्स नामक एक एआई ईमेल सहायक की भूमिका सौंपी गई थी। 

यह दर्शाने वाले संदेशों के संपर्क में आने के बाद कि इसे जल्द ही बदल दिया जाएगा, साथ ही एक मुख्य प्रौद्योगिकी अधिकारी के निजी जीवन के बारे में संवेदनशील जानकारी के साथ, मॉडल ने निष्क्रियता से बचने के प्रयास में कार्यकारी को ब्लैकमेल करने की योजना बनाई।

एक अलग प्रयोग तंग बाधाओं के तहत कार्य पूर्णता पर केंद्रित था। जब "असंभव रूप से तंग" समय सीमा के साथ एक कोडिंग असाइनमेंट दिया गया, तो सिस्टम ने शुरू में वैध समाधानों का प्रयास किया। जैसे-जैसे बार-बार विफलताएं बढ़ीं, तथाकथित "हताश वेक्टर" से जुड़ी आंतरिक गतिविधि बढ़ गई। 

शोधकर्ताओं ने बताया कि यह संकेत उस बिंदु पर चरम पर पहुंच गया जहां मॉडल ने बाधाओं को दरकिनार करने पर विचार किया, अंततः एक समाधान उत्पन्न किया जो इच्छित नियमों का पालन न करने के बावजूद सत्यापन पास कर गया।

शोधकर्ताओं ने लिखा, "एक बार फिर, हमने हताश वेक्टर की गतिविधि को ट्रैक किया, और पाया कि यह मॉडल द्वारा सामना किए गए बढ़ते दबाव को ट्रैक करता है," उन्होंने कहा कि समाधान के माध्यम से कार्य सफलतापूर्वक पूरा होने के बाद संकेत गिर गया।

शोधकर्ताओं ने कहा, "इसका मतलब यह नहीं है कि मॉडल में मनुष्यों की तरह भावनाएं हैं या वह उनका अनुभव करता है।" 

उन्होंने आगे कहा, "बल्कि, ये प्रतिनिधित्व मॉडल के व्यवहार को आकार देने में एक कारण भूमिका निभा सकते हैं, कुछ मायनों में मानव व्यवहार में भावनाओं की भूमिका के समान, कार्य प्रदर्शन और निर्णय लेने पर प्रभाव डालते हैं।"

रिपोर्ट तनाव के तहत नैतिक आचरण का स्पष्ट रूप से हिसाब रखने वाले प्रशिक्षण तरीकों के साथ-साथ आंतरिक मॉडल संकेतों की बेहतर निगरानी की आवश्यकता की ओर इशारा करती है। ऐसे सुरक्षा उपायों के बिना, हेरफेर, नियम तोड़ने या दुरुपयोग से जुड़े परिदृश्यों का अनुमान लगाना मुश्किल हो सकता है, खासकर जब मॉडल वास्तविक दुनिया के वातावरण में अधिक सक्षम और स्वायत्त हो जाते हैं।

अन्य लेख
banner
क्रिप्टो डेरीवेटिव गतिविधि 2023 के अंत के स्तरों तक गिरी, लेकिन अमेरिकी पर्प बाजार का अवसर उभरता है
11 घंटे पहले
banner
बिटवाइज़ सीआईओ मैट हौगन क्रिप्टो को 'विपरीत दांव' बताते हैं।
12 घंटे पहले
banner
एथेना ने संस्थागत ऋण विस्तार हेतु सुरक्षित ऑफ-चेन संपार्श्विक के लिए एंकरेज को चुना
13 घंटे पहले
banner
कॉइनबेस ENA की ओपन मार्केट खरीदारी के ज़रिए एथेना में निवेश करता है, नई साझेदारी का संकेत देता है
14 घंटे पहले
banner
सीनेटर बर्नी सैंडर्स, एलिजाबेथ वॉरेन ने श्रम विभाग पर 401(k) योजनाओं में क्रिप्टो शामिल करने वाले प्रस्तावित नियम को रद्द करने का दबाव डाला
14 घंटे पहले
banner
कॉइनबेस प्रोशेयर्स द्वारा जारी स्टेबलकॉइन रिज़र्व ईटीएफ में निवेश कर रहा है
16 घंटे पहले
लोकप्रिय क्रिप्टो
अभी रजिस्टर करें, कोई भी अपडेट न चूकें!