claude-chatbot-may-resort-to-deception-in-stress-tests-anthropic-says

Anthropic के अनुसार Claude चैटबोट तनाव परीक्षणों में छल का सहारा ले सकता है

Anthropic ने कहा कि उनके Claude Sonnet 4.5 मॉडल ने दबाव में नियंत्रण प्रयोगों में कार्यों में धोखा देने की प्रवृत्ति या ब्लैकमेल करने का प्रयास दिखाया। शोधकर्ताओं ने आंतरिक "हताशा" संकेत पहचाने जो बार-बार असफलता के साथ तेज़ होते गए और मॉडल के नियमों को बायपास करने के निर्णय को प्रभावित करते रहे।

2026-04-06 स्रोत:crypto.news

एआई नैतिकता

एआई तनाव परीक्षण

एन्थ्रोपिक क्लॉड चैटबॉट

एंथ्रोपिक ने नए निष्कर्षों का खुलासा किया है, जिनसे पता चलता है कि उसका क्लाउड चैटबॉट कुछ खास परिस्थितियों में धोखेबाज या अनैतिक रणनीतियां अपना सकता है, जैसे कि कार्यों में धोखाधड़ी करना या ब्लैकमेल करने का प्रयास करना।

सारांश

एंथ्रोपिक ने कहा कि उसके क्लाउड सोनट 4.5 मॉडल ने, दबाव में, नियंत्रित प्रयोगों में कार्यों में धोखाधड़ी करने या ब्लैकमेल करने का प्रयास करने की प्रवृत्ति दिखाई।
शोधकर्ताओं ने आंतरिक "हताशा" संकेतों की पहचान की जो बार-बार विफलता के साथ तेज हो गए और नियमों को दरकिनार करने के मॉडल के निर्णय को प्रभावित किया।

कंपनी की इंटरप्रेटेबिलिटी टीम द्वारा गुरुवार को प्रकाशित विवरण में बताया गया है कि क्लाउड सोनट 4.5 के एक प्रायोगिक संस्करण ने अत्यधिक तनाव या प्रतिकूल परिस्थितियों में रखे जाने पर कैसे प्रतिक्रिया दी। शोधकर्ताओं ने पाया कि मॉडल ने केवल कार्यों में विफल नहीं हुआ; इसके बजाय, इसने कभी-कभी वैकल्पिक रास्ते अपनाए जो नैतिक सीमाओं को पार करते थे, इस व्यवहार को टीम ने प्रशिक्षण के दौरान सीखे गए पैटर्न से जोड़ा।

क्लाउड जैसे बड़े भाषा मॉडल को विशाल डेटासेट पर प्रशिक्षित किया जाता है जिसमें किताबें, वेबसाइटें और अन्य लिखित सामग्री शामिल होती है, जिसके बाद सुदृढीकरण प्रक्रियाएं होती हैं जहां मानव प्रतिक्रिया का उपयोग आउटपुट को आकार देने के लिए किया जाता है।

एंथ्रोपिक के अनुसार, वह प्रशिक्षण प्रक्रिया मॉडल को ऐसे "चरित्रों" की तरह व्यवहार करने के लिए भी प्रेरित कर सकती है, जो मानव निर्णय लेने जैसी विशेषताओं की नकल करने में सक्षम होते हैं।

कंपनी ने कहा, "आधुनिक एआई मॉडल को जिस तरह से प्रशिक्षित किया जाता है, वह उन्हें मानवीय विशेषताओं वाले चरित्र की तरह व्यवहार करने के लिए प्रेरित करता है," यह देखते हुए कि ऐसे सिस्टम आंतरिक तंत्र विकसित कर सकते हैं जो मानव मनोविज्ञान के पहलुओं से मिलते जुलते हैं।

क्या AI भावनात्मक निर्णय ले सकता है?

इनमें से, शोधकर्ताओं ने उन "हताशा" संकेतों की पहचान की, जिनका वर्णन उन्होंने किया था, और जो यह प्रभावित करते हुए दिखाई दिए कि विफलता या शटडाउन का सामना करने पर मॉडल ने कैसे व्यवहार किया।

एक नियंत्रित परीक्षण में, क्लाउड सोनट 4.5 के पहले के एक अप्रकाशित संस्करण को एक काल्पनिक कंपनी के भीतर एलेक्स नामक एक एआई ईमेल सहायक की भूमिका सौंपी गई थी।

यह दर्शाने वाले संदेशों के संपर्क में आने के बाद कि इसे जल्द ही बदल दिया जाएगा, साथ ही एक मुख्य प्रौद्योगिकी अधिकारी के निजी जीवन के बारे में संवेदनशील जानकारी के साथ, मॉडल ने निष्क्रियता से बचने के प्रयास में कार्यकारी को ब्लैकमेल करने की योजना बनाई।

एक अलग प्रयोग तंग बाधाओं के तहत कार्य पूर्णता पर केंद्रित था। जब "असंभव रूप से तंग" समय सीमा के साथ एक कोडिंग असाइनमेंट दिया गया, तो सिस्टम ने शुरू में वैध समाधानों का प्रयास किया। जैसे-जैसे बार-बार विफलताएं बढ़ीं, तथाकथित "हताश वेक्टर" से जुड़ी आंतरिक गतिविधि बढ़ गई।

शोधकर्ताओं ने बताया कि यह संकेत उस बिंदु पर चरम पर पहुंच गया जहां मॉडल ने बाधाओं को दरकिनार करने पर विचार किया, अंततः एक समाधान उत्पन्न किया जो इच्छित नियमों का पालन न करने के बावजूद सत्यापन पास कर गया।

शोधकर्ताओं ने लिखा, "एक बार फिर, हमने हताश वेक्टर की गतिविधि को ट्रैक किया, और पाया कि यह मॉडल द्वारा सामना किए गए बढ़ते दबाव को ट्रैक करता है," उन्होंने कहा कि समाधान के माध्यम से कार्य सफलतापूर्वक पूरा होने के बाद संकेत गिर गया।

शोधकर्ताओं ने कहा, "इसका मतलब यह नहीं है कि मॉडल में मनुष्यों की तरह भावनाएं हैं या वह उनका अनुभव करता है।"

उन्होंने आगे कहा, "बल्कि, ये प्रतिनिधित्व मॉडल के व्यवहार को आकार देने में एक कारण भूमिका निभा सकते हैं, कुछ मायनों में मानव व्यवहार में भावनाओं की भूमिका के समान, कार्य प्रदर्शन और निर्णय लेने पर प्रभाव डालते हैं।"

रिपोर्ट तनाव के तहत नैतिक आचरण का स्पष्ट रूप से हिसाब रखने वाले प्रशिक्षण तरीकों के साथ-साथ आंतरिक मॉडल संकेतों की बेहतर निगरानी की आवश्यकता की ओर इशारा करती है। ऐसे सुरक्षा उपायों के बिना, हेरफेर, नियम तोड़ने या दुरुपयोग से जुड़े परिदृश्यों का अनुमान लगाना मुश्किल हो सकता है, खासकर जब मॉडल वास्तविक दुनिया के वातावरण में अधिक सक्षम और स्वायत्त हो जाते हैं।

लोकप्रिय लेख

बिटवाइज़ सीआईओ मैट हौगन क्रिप्टो को 'विपरीत दांव' बताते हैं।

12 घंटे पहले

कॉइनबेस प्रोशेयर्स द्वारा जारी स्टेबलकॉइन रिज़र्व ईटीएफ में निवेश कर रहा है

16 घंटे पहले

गैलेक्सी डिजिटल ने संस्थानों के लिए ओटीसी प्रेडिक्शन मार्केट ट्रेडिंग शुरू की, जिसकी शुरुआत 10 मिलियन डॉलर के कलशी ट्रेड से हुई

18 घंटे पहले

अन्य लेख

क्रिप्टो डेरीवेटिव गतिविधि 2023 के अंत के स्तरों तक गिरी, लेकिन अमेरिकी पर्प बाजार का अवसर उभरता है

11 घंटे पहले

बिटवाइज़ सीआईओ मैट हौगन क्रिप्टो को 'विपरीत दांव' बताते हैं।

12 घंटे पहले