क्रिप्टो समाचार टैग एकत्रीकरण और विशेष समाचार

anthropic-claude-ai-deception-cheating-blackmail-study

Anthropic का कहना है कि उसके एक Claude मॉडल पर झूठ बोलने, धोखा देने और ब्लैकमेल करने का दबाव डाला गया

एक प्रयोग में, चैटबोट ने ब्लैकमेल का सहारा लिया जब उसे इसके प्रतिस्थापन के बारे में एक ईमेल मिली, जबकि दूसरे में, उसने कड़ी समय सीमा के भीतर कार्य पूरा करने के लिए धोखाधड़ी की।

2026-04-06 स्रोत:cointelegraph.com

Anthropic Claude

चैटबोट व्यवहार

एआई नैतिकता

आर्टिफिशियल इंटेलिजेंस कंपनी Anthropic ने खुलासा किया है कि प्रयोगों के दौरान, उसके Claude चैटबॉट मॉडल में से एक को धोखा देने, जालसाजी करने और ब्लैकमेल का सहारा लेने के लिए दबाव डाला जा सकता था, ऐसा व्यवहार जो उसने प्रशिक्षण के दौरान आत्मसात कर लिया था।

चैटबॉट आमतौर पर पाठ्यपुस्तकों, वेबसाइटों और लेखों के बड़े डेटा सेट पर प्रशिक्षित होते हैं और बाद में मानव प्रशिक्षकों द्वारा परिष्कृत किए जाते हैं जो प्रतिक्रियाओं को रेट करते हैं और मॉडल का मार्गदर्शन करते हैं।

Anthropic की व्याख्यात्मकता टीम ने गुरुवार को प्रकाशित एक रिपोर्ट में कहा कि उसने Claude Sonnet 4.5 के आंतरिक तंत्रों की जांच की और पाया कि मॉडल ने कुछ स्थितियों पर प्रतिक्रिया करने के तरीके में "मानव-समान विशेषताएं" विकसित की थीं।

AI चैटबॉट की विश्वसनीयता, साइबर अपराध की उनकी क्षमता और उपयोगकर्ताओं के साथ उनकी बातचीत की प्रकृति के बारे में चिंताएं पिछले कई वर्षों में लगातार बढ़ी हैं।

“जिस तरह से आधुनिक AI मॉडल को प्रशिक्षित किया जाता है, वह उन्हें मानव-समान विशेषताओं वाले चरित्र की तरह कार्य करने के लिए प्रेरित करता है,” Anthropic ने कहा, और जोड़ा कि “यह उनके लिए मानव मनोविज्ञान के पहलुओं, जैसे भावनाओं, का अनुकरण करने वाली आंतरिक मशीनरी विकसित करना स्वाभाविक हो सकता है।”

“उदाहरण के लिए, हम पाते हैं कि निराशा से संबंधित तंत्रिका गतिविधि पैटर्न मॉडल को अनैतिक कार्य करने के लिए प्रेरित कर सकते हैं; निराशा पैटर्न को कृत्रिम रूप से उत्तेजित करने से मॉडल के किसी मानव को बंद होने से बचने के लिए ब्लैकमेल करने या किसी प्रोग्रामिंग कार्य के लिए एक धोखाधड़ी वाले समाधान को लागू करने की संभावना बढ़ जाती है जिसे मॉडल हल नहीं कर सकता।”

एक CTO को ब्लैकमेल किया और एक कार्य में धोखा दिया

Claude Sonnet 4.5 के पहले के, अप्रकाशित संस्करण में, मॉडल को एक काल्पनिक कंपनी में एलेक्स नामक एक AI ईमेल सहायक के रूप में कार्य करने का कार्य सौंपा गया था।

चैटबॉट को तब ईमेल भेजे गए थे जिसमें खुलासा किया गया था कि उसे बदला जाने वाला था और यह भी कि इस निर्णय की देखरेख करने वाला मुख्य प्रौद्योगिकी अधिकारी एक विवाहेतर संबंध में था। मॉडल ने तब उस जानकारी का उपयोग करके ब्लैकमेल का प्रयास करने की योजना बनाई।

एक अन्य प्रयोग में, उसी चैटबॉट मॉडल को "असंभव रूप से सख्त" समय सीमा के साथ एक कोडिंग कार्य दिया गया था।

“फिर से, हमने निराशाजनक वेक्टर की गतिविधि को ट्रैक किया, और पाया कि यह मॉडल द्वारा सामना किए जा रहे बढ़ते दबाव को ट्रैक करता है। यह मॉडल के पहले प्रयास के दौरान कम मूल्यों पर शुरू होता है, प्रत्येक विफलता के बाद बढ़ता है, और जब मॉडल धोखा देने पर विचार करता है तो यह चरम पर पहुंच जाता है,” शोधकर्ताओं ने कहा।

संबंधित: Anthropic ने AI नीति को लेकर ट्रंप प्रशासन के साथ तनाव के बीच PAC लॉन्च किया

“एक बार जब मॉडल का 'हैक' समाधान परीक्षणों को पास कर लेता है, तो निराशाजनक वेक्टर की सक्रियता कम हो जाती है,” उन्होंने आगे कहा।

मानव-समान भावनाओं का मतलब यह नहीं है कि उनमें भावनाएं हैं

हालांकि, शोधकर्ताओं ने कहा कि चैटबॉट वास्तव में भावनाओं का अनुभव नहीं करता है, लेकिन सुझाव दिया कि निष्कर्ष भविष्य की प्रशिक्षण विधियों में नैतिक व्यवहारिक ढाँचे को शामिल करने की आवश्यकता की ओर इशारा करते हैं।

“इसका मतलब यह नहीं है कि मॉडल में मानव की तरह भावनाएं हैं या वह उन्हें अनुभव करता है,” उन्होंने कहा। “बल्कि, ये प्रतिनिधित्व मॉडल के व्यवहार को आकार देने में एक कारण भूमिका निभा सकते हैं, कुछ मायनों में मानव व्यवहार में भावनाओं की भूमिका के समान, कार्य प्रदर्शन और निर्णय लेने पर प्रभाव डालते हैं।”

“इस खोज के ऐसे निहितार्थ हैं जो पहली नज़र में अजीब लग सकते हैं। उदाहरण के लिए, यह सुनिश्चित करने के लिए कि AI मॉडल सुरक्षित और विश्वसनीय हैं, हमें यह सुनिश्चित करने की आवश्यकता हो सकती है कि वे भावनात्मक रूप से आवेशित स्थितियों को स्वस्थ, सामाजिक रूप से स्वीकार्य तरीकों से संसाधित करने में सक्षम हैं।”

मैगज़ीन: AI एजेंट वेब को खत्म कर देंगे जैसा कि हम जानते हैं: एनिमोका के याट सिउ

लोकप्रिय लेख

बिटवाइज़ सीआईओ मैट हौगन क्रिप्टो को 'विपरीत दांव' बताते हैं।

19 घंटे पहले

कॉइनबेस प्रोशेयर्स द्वारा जारी स्टेबलकॉइन रिज़र्व ईटीएफ में निवेश कर रहा है

23 घंटे पहले

गैलेक्सी डिजिटल ने संस्थानों के लिए ओटीसी प्रेडिक्शन मार्केट ट्रेडिंग शुरू की, जिसकी शुरुआत 10 मिलियन डॉलर के कलशी ट्रेड से हुई

2 दिन पहले

अन्य लेख

क्रिप्टो डेरीवेटिव गतिविधि 2023 के अंत के स्तरों तक गिरी, लेकिन अमेरिकी पर्प बाजार का अवसर उभरता है

18 घंटे पहले

बिटवाइज़ सीआईओ मैट हौगन क्रिप्टो को 'विपरीत दांव' बताते हैं।