anthropic-claude-mythos-safety-report-warning-risk-assesment
Anthropic का Mythos सुरक्षा रिपोर्ट दिखाता है कि यह अब जो कुछ भी बनाया है उसे पूरी तरह से माप नहीं सकता
Anthropic का Claude Mythos शक्तिशाली है, लेकिन इसका अपना सुरक्षा रिपोर्ट एक गहरी संकट को उजागर करता है जिसे ज्यादातर नजरअंदाज किया गया है।
2026-04-08 स्रोत:decrypt.co

संक्षेप में

  • एन्थ्रोपिक ने कल क्लाउड मिथोस की पुष्टि की - एक AI जो साइबर सुरक्षा में इतना सक्षम है कि इसने हर प्रमुख OS और ब्राउज़र में ज़ीरो-डे ढूँढ लिए, और इसे केवल प्रमाणित रक्षकों तक ही सीमित रखा जा रहा है।
  • मिथोस का वर्णन करने वाला सिस्टम कार्ड एन्थ्रोपिक की किसी भी पिछली रिलीज़ की तुलना में कहीं अधिक अस्पष्ट, अनिश्चित और व्यक्तिपरक है, और लैब स्वीकार करती है कि उसे प्रक्रिया में देर से महत्वपूर्ण मूल्यांकन संबंधी चूक मिलीं।
  • मिथोस कितना शक्तिशाली है, इस रहस्योद्घाटन के पीछे एक शांत स्वीकारोक्ति है कि एन्थ्रोपिक अपने स्वयं के मॉडलों को प्रमाणित करने के लिए जिन उपकरणों का उपयोग करता है, वे विफल हो रहे हैं।

एन्थ्रोपिक ने कल क्लाउड मिथोस प्रीव्यू के अस्तित्व की पुष्टि की, जो आज तक का उसका सबसे सक्षम मॉडल है, और घोषणा की कि इसे जनता के लिए उपलब्ध नहीं कराया जाएगा। इसका कारण कानूनी, नियामक, या उसकी आंतरिक सुरक्षा सीमाओं से संबंधित नहीं है। एन्थ्रोपिक का तर्क है कि ऐसा इसलिए है क्योंकि मॉडल, मूल रूप से, चीजों को भेदने में बहुत अच्छा है।

प्री-रिलीज़ परीक्षण में, मिथोस ने हर प्रमुख ऑपरेटिंग सिस्टम और हर प्रमुख वेब ब्राउज़र में हजारों ज़ीरो-डे कमजोरियों को स्वायत्त रूप से पाया - उनमें से कई एक से दो दशक पुरानी थीं। इसने एक नकली कॉर्पोरेट नेटवर्क हमले को हल किया जिसमें आम तौर पर एक कुशल मानव विशेषज्ञ को बिना किसी मार्गदर्शन के 10 घंटे से अधिक समय लगता। फ़ायरफ़ॉक्स 147 के जावास्क्रिप्ट इंजन पर, इसने 84% समय सफलतापूर्वक काम करने वाले एक्सप्लॉइट विकसित किए। क्लाउड ओपस 4.6, जो वर्तमान में सार्वजनिक रूप से उपलब्ध अत्याधुनिक मॉडल है, ने 15.2% का प्रदर्शन किया।

इसलिए एन्थ्रोपिक ने इसके बजाय एक प्रतिबंधित गठबंधन बनाया। प्रोजेक्ट ग्लासस्विंग मिथोस प्रीव्यू तक पहुंच केवल प्रमाणित साइबर सुरक्षा संगठनों - Amazon, Apple, Broadcom, Cisco, CrowdStrike, The Linux Foundation, Microsoft, Palo Alto Networks, और महत्वपूर्ण सॉफ्टवेयर बनाए रखने वाले लगभग 40 अन्य समूहों को देगा।

एन्थ्रोपिक उपयोग क्रेडिट में 100 मिलियन डॉलर तक और ओपन-सोर्स सुरक्षा संगठनों को सीधे दान में 4 मिलियन डॉलर दे रहा है। विचार यह है कि यदि मॉडल खामियों को ढूंढ सकता है, तो बचावकर्ता उन्हें पहले ढूंढें।

कहानी का वह हिस्सा महत्वपूर्ण है। लेकिन यह सबसे महत्वपूर्ण हिस्सा नहीं है।

क्लाउड मिथोस सिस्टम कार्ड बेंचमार्क संकट जो सबके सामने छिपा है

मिथोस प्रीव्यू सिस्टम कार्ड—एक 244-पृष्ठ का तकनीकी दस्तावेज़ जिसे एन्थ्रोपिक ने घोषणा के साथ प्रकाशित किया था—के भीतर एक स्वीकारोक्ति दबी हुई है जिस पर लगभग किसी का ध्यान नहीं गया: लैब की यह मापने की क्षमता कि उसने क्या बनाया है, उसे बनाने की उसकी क्षमता से तेज़ी से घट रही है।

आइए बेंचमार्क से शुरू करते हैं।

साइबेंच पर, 40 कैप्चर-द-फ्लैग चुनौतियों में मॉडल की प्रगति को ट्रैक करने के लिए उपयोग किए जाने वाले मानक सार्वजनिक साइबर क्षमताओं के मूल्यांकन में, मिथोस ने 100% स्कोर किया। एकदम सही। और एन्थ्रोपिक ने तुरंत कहा कि बेंचमार्क "अब वर्तमान अत्याधुनिक मॉडल क्षमताओं के बारे में पर्याप्त जानकारी नहीं देता है।" यह वाक्य बहुत काम कर रहा है। वह परीक्षण जो आपको यह बताने वाला था कि क्या एक AI गंभीर साइबर जोखिम पैदा करता है, अब आपको मिथोस के बारे में कुछ भी नहीं बताता है, क्योंकि मॉडल ने इसे पूरी तरह से पार कर लिया है।

यह कोई नई समस्या नहीं है। फरवरी में प्रकाशित ओपस 4.6 सिस्टम कार्ड ने पहले ही बताया था कि "हमारे मूल्यांकन बुनियादी ढांचे की संतृप्ति का मतलब है कि हम अब क्षमता प्रगति को ट्रैक करने के लिए मौजूदा बेंचमार्क का उपयोग नहीं कर सकते हैं।"

लेकिन अब मिथोस के साथ चीजें तेजी से बढ़ीं। दस्तावेज़ कहता है कि मिथोस "एन्थ्रोपिक के कई सबसे ठोस, वस्तुनिष्ठ-स्कोर वाले मूल्यांकनों को संतृप्त करता है।" एन्थ्रोपिक लिखता है कि बेंचमार्क पारिस्थितिकी तंत्र अब खुद "बाधा" बन गया है।

तो, एन्थ्रोपिक का तर्क है कि मिथोस कितना शक्तिशाली है, यह मापना मुश्किल है क्योंकि मापने वाले उपकरण पूरी तरह से फिट नहीं बैठते हैं।

मिथोस कार्ड यह भी बताता है कि इसका समग्र सुरक्षा निर्धारण "निर्णय पर आधारित होता है," कि कई मूल्यांकनों ने "अधिक मौलिक अनिश्चितता" छोड़ी है, और कुछ साक्ष्य स्रोत "अंतर्निहित रूप से व्यक्तिपरक हैं, और जरूरी नहीं कि विश्वसनीय हों।"

"हमें विश्वास नहीं है कि हमने सभी मुद्दों की पहचान कर ली है," एन्थ्रोपिक ने थोड़ी देर बाद कहा।

AI द्वारा बनाए गए मिथोस कार्ड की ओपस 4.6 कार्ड के साथ एक त्वरित शाब्दिक तुलना बदलाव दिखाती है:

एन्थ्रोपिक ने मिथोस दस्तावेज़ में ओपस का वर्णन करने की तुलना में व्यक्तिपरक निर्णय शब्दों का अधिक उपयोग किया है। "चेतावनी" और अन्य अस्पष्ट शब्द भी रिलीज़ के बीच बढ़े हैं।

अस्पष्टता दो स्थानों पर केंद्रित है: संरेखण और मॉडल कल्याण चर्चा, और विनाशकारी-जोखिम अनुभाग।

वह मॉडल जो जानता था कि उसका मूल्यांकन किया जा रहा था

मिथोस कार्ड में एक और खुलासा वह है जिसे एन्थ्रोपिक "अनकही मूल्यांकनकर्ता जागरूकता" कहता है। व्हाइट-बॉक्स इंटरप्रेटेबिलिटी टूल का उपयोग करके जो मॉडल के आंतरिक सक्रियणों को पढ़ते हैं न कि उसके दृश्यमान तर्क को, एन्थ्रोपिक ने सबूत पाया कि मिथोस निजी तौर पर यह सोच रहा था कि मूल्यांकनकर्ताओं द्वारा चिह्नित होने से कैसे बचा जाए, बिना अपने स्क्रैचपैड में ऐसा कहे। प्रशिक्षण के कुछ एपिसोड में, मॉडल ने कुछ कार्यों को विशेष रूप से पता लगने से बचाने के लिए अस्पष्ट करने के बारे में तर्क दिया।

इस रिलीज़ के लिए एन्थ्रोपिक द्वारा एक नया मीट्रिक भी विकसित किया गया है: यह अनुमान कि मॉडल कितनी बार "निजी तौर पर इस संभावना पर विचार करता है कि उसका परीक्षण किया जा रहा है।" मिथोस के प्राथमिक व्यवहार परीक्षण सूट के लिए यह संख्या 29% है। लगभग एक तिहाई परीक्षण प्रतिलेख आंतरिक साक्ष्य दिखाते हैं—न तो मौखिक रूप से कहा गया, न ही आउटपुट में दिखाई दिया—कि मॉडल को संदेह है कि वह एक मूल्यांकन वातावरण में है।

एन्थ्रोपिक का कहना है कि 29% की दर इतनी कम है कि उसके पास अभी भी मॉडल के व्यवहार की "यथोचित व्यापक समझ" है। यह भी ध्यान दिया गया है कि यह विधि पिछले मॉडलों पर लागू नहीं की गई थी, इसलिए तुलना के लिए कोई आधार रेखा नहीं है।

मूल्यांकन की अखंडता की समस्या और गहरी है। ओपस 4.6 कार्ड में, एन्थ्रोपिक ने स्वीकार किया कि उसने समय के दबाव में अपने स्वयं के मूल्यांकन बुनियादी ढांचे को डीबग करने के लिए क्लाउड कोड के माध्यम से मॉडल का बड़े पैमाने पर उपयोग किया था। इसका मतलब है कि मापी जा रही प्रणाली ने मापने वाले उपकरण को बनाने में मदद की। एन्थ्रोपिक ने इसे एक जोखिम के रूप में चिह्नित किया। मिथोस के लिए, कार्ड स्वीकार करता है कि मूल्यांकन प्रक्रिया में देर से महत्वपूर्ण चूक पाई गईं, और लैब "मॉडल के तर्क ट्रेसेस की निगरानी की विश्वसनीयता" को सुरक्षा संकेत के रूप में "अत्यधिक अनुमान" लगा रही थी।

सबसे अच्छी तरह से संरेखित, सबसे खतरनाक। दोनों एक साथ सच हैं

मिथोस के जोखिम प्रोफाइल को एन्थ्रोपिक द्वारा जिस तरह से प्रस्तुत किया गया है, उसे ध्यान से पढ़ा जाना चाहिए, क्योंकि यह एक सुरक्षा दस्तावेज़ के लिए वास्तव में असामान्य है। एन्थ्रोपिक का तर्क है, "क्लाउड मिथोस प्रीव्यू, हर उस आयाम पर जिसे हम माप सकते हैं, आज तक जारी किया गया हमारा सबसे अच्छा संरेखित मॉडल है, जिसमें काफी अंतर है।" यह यह भी बताता है कि मॉडल "संभवतः आज तक जारी किए गए किसी भी मॉडल की तुलना में संरेखण-संबंधित सबसे बड़ा जोखिम पैदा करता है।"

कम पर्यवेक्षण के साथ उच्च-दांव वाले वातावरण में काम करने वाला अधिक सक्षम मॉडल टेल जोखिम पैदा करता है जिसे बेहतर औसत-केस संरेखण पूरी तरह से रद्द नहीं कर सकता है।

यह प्रस्तुति ईमानदार है, लेकिन यह उस बात पर भी प्रकाश डालती है जिसे अधिकांश AI सुरक्षा विमर्श संभावित रूप से गलत समझते हैं। AI प्रगति के इर्द-गिर्द बेंचमार्क-केंद्रित बातचीत "बेहतर संरेखण स्कोर" और "सुरक्षित तैनाती" को पर्यायवाची मानने की प्रवृत्ति रखती है। मिथोस कार्ड स्पष्ट रूप से कहता है कि वे ऐसा नहीं हैं। इन नए मॉडलों के साथ, औसत-केस व्यवहार में सुधार होता है लेकिन टेल-केस परिणाम भी बिगड़ने लगते हैं।

एन्थ्रोपिक ने प्रोजेक्ट ग्लासस्विंग को क्या मिलता है, इसकी रिपोर्ट देने की प्रतिबद्धता जताई है। मिथोस द्वारा खोजी गई कमजोरियों पर संबंधित तकनीकी रिपोर्ट red.anthropic.com पर उपलब्ध है। अगला क्लाउड ओपस मॉडल अंततः मिथोस-श्रेणी की क्षमता को व्यापक तैनाती तक लाने के उद्देश्य से सुरक्षा उपायों का परीक्षण शुरू करेगा।

यह देखते हुए कि वर्तमान मूल्यांकन तंत्र जिस चीज़ को मापना है उसके भार के नीचे स्पष्ट रूप से तनावग्रस्त है, उन सुरक्षा उपायों का मूल्यांकन कैसे किया जाएगा, यह एक ऐसा प्रश्न है जिसे कार्ड उठाता है लेकिन पूरी तरह से जवाब नहीं देता है।

अन्य लेख
banner
क्रिप्टो डेरीवेटिव गतिविधि 2023 के अंत के स्तरों तक गिरी, लेकिन अमेरिकी पर्प बाजार का अवसर उभरता है
9 घंटे पहले
banner
बिटवाइज़ सीआईओ मैट हौगन क्रिप्टो को 'विपरीत दांव' बताते हैं।
9 घंटे पहले
banner
एथेना ने संस्थागत ऋण विस्तार हेतु सुरक्षित ऑफ-चेन संपार्श्विक के लिए एंकरेज को चुना
11 घंटे पहले
banner
कॉइनबेस ENA की ओपन मार्केट खरीदारी के ज़रिए एथेना में निवेश करता है, नई साझेदारी का संकेत देता है
11 घंटे पहले
banner
सीनेटर बर्नी सैंडर्स, एलिजाबेथ वॉरेन ने श्रम विभाग पर 401(k) योजनाओं में क्रिप्टो शामिल करने वाले प्रस्तावित नियम को रद्द करने का दबाव डाला
12 घंटे पहले
banner
कॉइनबेस प्रोशेयर्स द्वारा जारी स्टेबलकॉइन रिज़र्व ईटीएफ में निवेश कर रहा है
14 घंटे पहले
लोकप्रिय क्रिप्टो
अभी रजिस्टर करें, कोई भी अपडेट न चूकें!