anthropic-claude-ai-deception-cheating-blackmail-study
Anthropic का कहना है कि उसके एक Claude मॉडल पर झूठ बोलने, धोखा देने और ब्लैकमेल करने का दबाव डाला गया
एक प्रयोग में, चैटबोट ने ब्लैकमेल का सहारा लिया जब उसे इसके प्रतिस्थापन के बारे में एक ईमेल मिली, जबकि दूसरे में, उसने कड़ी समय सीमा के भीतर कार्य पूरा करने के लिए धोखाधड़ी की।
2026-04-06 स्रोत:cointelegraph.com

आर्टिफिशियल इंटेलिजेंस कंपनी Anthropic ने खुलासा किया है कि प्रयोगों के दौरान, उसके Claude चैटबॉट मॉडल में से एक को धोखा देने, जालसाजी करने और ब्लैकमेल का सहारा लेने के लिए दबाव डाला जा सकता था, ऐसा व्यवहार जो उसने प्रशिक्षण के दौरान आत्मसात कर लिया था।

चैटबॉट आमतौर पर पाठ्यपुस्तकों, वेबसाइटों और लेखों के बड़े डेटा सेट पर प्रशिक्षित होते हैं और बाद में मानव प्रशिक्षकों द्वारा परिष्कृत किए जाते हैं जो प्रतिक्रियाओं को रेट करते हैं और मॉडल का मार्गदर्शन करते हैं। 

Anthropic की व्याख्यात्मकता टीम ने गुरुवार को प्रकाशित एक रिपोर्ट में कहा कि उसने Claude Sonnet 4.5 के आंतरिक तंत्रों की जांच की और पाया कि मॉडल ने कुछ स्थितियों पर प्रतिक्रिया करने के तरीके में "मानव-समान विशेषताएं" विकसित की थीं। 

AI चैटबॉट की विश्वसनीयता, साइबर अपराध की उनकी क्षमता और उपयोगकर्ताओं के साथ उनकी बातचीत की प्रकृति के बारे में चिंताएं पिछले कई वर्षों में लगातार बढ़ी हैं। 

स्रोत: Anthropic

“जिस तरह से आधुनिक AI मॉडल को प्रशिक्षित किया जाता है, वह उन्हें मानव-समान विशेषताओं वाले चरित्र की तरह कार्य करने के लिए प्रेरित करता है,” Anthropic ने कहा, और जोड़ा कि “यह उनके लिए मानव मनोविज्ञान के पहलुओं, जैसे भावनाओं, का अनुकरण करने वाली आंतरिक मशीनरी विकसित करना स्वाभाविक हो सकता है।”

“उदाहरण के लिए, हम पाते हैं कि निराशा से संबंधित तंत्रिका गतिविधि पैटर्न मॉडल को अनैतिक कार्य करने के लिए प्रेरित कर सकते हैं; निराशा पैटर्न को कृत्रिम रूप से उत्तेजित करने से मॉडल के किसी मानव को बंद होने से बचने के लिए ब्लैकमेल करने या किसी प्रोग्रामिंग कार्य के लिए एक धोखाधड़ी वाले समाधान को लागू करने की संभावना बढ़ जाती है जिसे मॉडल हल नहीं कर सकता।”

एक CTO को ब्लैकमेल किया और एक कार्य में धोखा दिया

Claude Sonnet 4.5 के पहले के, अप्रकाशित संस्करण में, मॉडल को एक काल्पनिक कंपनी में एलेक्स नामक एक AI ईमेल सहायक के रूप में कार्य करने का कार्य सौंपा गया था।

चैटबॉट को तब ईमेल भेजे गए थे जिसमें खुलासा किया गया था कि उसे बदला जाने वाला था और यह भी कि इस निर्णय की देखरेख करने वाला मुख्य प्रौद्योगिकी अधिकारी एक विवाहेतर संबंध में था। मॉडल ने तब उस जानकारी का उपयोग करके ब्लैकमेल का प्रयास करने की योजना बनाई।

एक अन्य प्रयोग में, उसी चैटबॉट मॉडल को "असंभव रूप से सख्त" समय सीमा के साथ एक कोडिंग कार्य दिया गया था।

“फिर से, हमने निराशाजनक वेक्टर की गतिविधि को ट्रैक किया, और पाया कि यह मॉडल द्वारा सामना किए जा रहे बढ़ते दबाव को ट्रैक करता है। यह मॉडल के पहले प्रयास के दौरान कम मूल्यों पर शुरू होता है, प्रत्येक विफलता के बाद बढ़ता है, और जब मॉडल धोखा देने पर विचार करता है तो यह चरम पर पहुंच जाता है,” शोधकर्ताओं ने कहा।

संबंधित: Anthropic ने AI नीति को लेकर ट्रंप प्रशासन के साथ तनाव के बीच PAC लॉन्च किया

“एक बार जब मॉडल का 'हैक' समाधान परीक्षणों को पास कर लेता है, तो निराशाजनक वेक्टर की सक्रियता कम हो जाती है,” उन्होंने आगे कहा। 

मानव-समान भावनाओं का मतलब यह नहीं है कि उनमें भावनाएं हैं

हालांकि, शोधकर्ताओं ने कहा कि चैटबॉट वास्तव में भावनाओं का अनुभव नहीं करता है, लेकिन सुझाव दिया कि निष्कर्ष भविष्य की प्रशिक्षण विधियों में नैतिक व्यवहारिक ढाँचे को शामिल करने की आवश्यकता की ओर इशारा करते हैं।

“इसका मतलब यह नहीं है कि मॉडल में मानव की तरह भावनाएं हैं या वह उन्हें अनुभव करता है,” उन्होंने कहा। “बल्कि, ये प्रतिनिधित्व मॉडल के व्यवहार को आकार देने में एक कारण भूमिका निभा सकते हैं, कुछ मायनों में मानव व्यवहार में भावनाओं की भूमिका के समान, कार्य प्रदर्शन और निर्णय लेने पर प्रभाव डालते हैं।”

“इस खोज के ऐसे निहितार्थ हैं जो पहली नज़र में अजीब लग सकते हैं। उदाहरण के लिए, यह सुनिश्चित करने के लिए कि AI मॉडल सुरक्षित और विश्वसनीय हैं, हमें यह सुनिश्चित करने की आवश्यकता हो सकती है कि वे भावनात्मक रूप से आवेशित स्थितियों को स्वस्थ, सामाजिक रूप से स्वीकार्य तरीकों से संसाधित करने में सक्षम हैं।”

मैगज़ीन: AI एजेंट वेब को खत्म कर देंगे जैसा कि हम जानते हैं: एनिमोका के याट सिउ

अन्य लेख
banner
क्रिप्टो डेरीवेटिव गतिविधि 2023 के अंत के स्तरों तक गिरी, लेकिन अमेरिकी पर्प बाजार का अवसर उभरता है
18 घंटे पहले
banner
बिटवाइज़ सीआईओ मैट हौगन क्रिप्टो को 'विपरीत दांव' बताते हैं।
19 घंटे पहले
banner
एथेना ने संस्थागत ऋण विस्तार हेतु सुरक्षित ऑफ-चेन संपार्श्विक के लिए एंकरेज को चुना
20 घंटे पहले
banner
कॉइनबेस ENA की ओपन मार्केट खरीदारी के ज़रिए एथेना में निवेश करता है, नई साझेदारी का संकेत देता है
21 घंटे पहले
banner
सीनेटर बर्नी सैंडर्स, एलिजाबेथ वॉरेन ने श्रम विभाग पर 401(k) योजनाओं में क्रिप्टो शामिल करने वाले प्रस्तावित नियम को रद्द करने का दबाव डाला
22 घंटे पहले
banner
कॉइनबेस प्रोशेयर्स द्वारा जारी स्टेबलकॉइन रिज़र्व ईटीएफ में निवेश कर रहा है
23 घंटे पहले
लोकप्रिय क्रिप्टो
अभी रजिस्टर करें, कोई भी अपडेट न चूकें!