
छह सप्ताह। एंथ्रोपिक को ओपस 4.7 से ओपस 4.8 तक जाने में इतना ही समय लगा।
नया मॉडल बेंचमार्क परीक्षणों पर तेज़ और अधिक स्मार्ट है, और इसमें नई सुविधाओं का एक सुइट शामिल है—लेकिन कीमत नहीं बदली: यह $5 प्रति मिलियन इनपुट टोकन और $25 प्रति मिलियन आउटपुट टोकन है, जैसा पहले था।
एक तेज़ मोड भी है जो उसी मॉडल को 2.5 गुना गति से $10 इनपुट और प्रति मिलियन $50 आउटपुट पर चलाता है। एंथ्रोपिक का कहना है कि यह दर अब पिछले मॉडलों पर तेज़ मोड की लागत से तीन गुना सस्ती है, जो यह कहने का एक अच्छा तरीका है कि यह पहले बहुत महंगा था।
एसडब्ल्यूई-बेंच प्रो शायद सबसे महत्वपूर्ण बेंचमार्क है जिसे देखना चाहिए और यह जानना चाहिए कि यह मॉडल कितना अच्छा है। यह मापता है कि क्या एक एआई वास्तव में वास्तविक उत्पादन कोडबेस से ली गई कठिन, बहु-भाषा सॉफ्टवेयर इंजीनियरिंग समस्याओं को हल कर सकता है—समस्याओं के पास होने के प्रतिशत के रूप में स्कोर किया गया।
उस परीक्षण पर, ओपस 4.8 ने 69.2% हासिल किया, जो ओपस 4.7 के 64.3% से अधिक है। ओपनएआई के जीपीटी-5.5 ने 58.6% स्कोर किया, और गूगल के जेमिनी 3.1 प्रो ने 54.2% पर पीछे छोड़ दिया। उसी मूल्य बिंदु पर एक मॉडल के लिए, यह एक महत्वपूर्ण उछाल है।
ह्यूमैनिटीज़ लास्ट एग्ज़ाम—दर्जनों अकादमिक विषयों में विशेषज्ञ-स्तर के प्रश्न, सही प्रतिशत के रूप में स्कोर किए गए—पर ओपस 4.8 बिना टूल के 49.8% और उनके साथ 57.9% पर पहुंच गया, जो तीनों प्रतिद्वंद्वियों से आगे है। ओएसवर्ल्ड-वेरिफाइड, जो सॉफ्टवेयर यूआई नेविगेट करने जैसे वास्तविक दुनिया के कंप्यूटर उपयोग कार्यों का परीक्षण करता है, 83.4% पर आया, जो ओपस 4.7 के 82.8% के स्कोर से थोड़ा आगे है।
एक हार: टर्मिनल-बेंच 2.1, जो कमांड-लाइन कार्यों पर एआई प्रदर्शन को मापता है। जीपीटी-5.5 78.2% पर आगे है, जबकि ओपस 4.8 का स्कोर 74.6% है—जो ओपस 4.7 के 66.1% से बेहतर है और जेमिनी के 70.3% से आगे है, लेकिन दूसरा स्थान अभी भी अंततः हार रहा है।
एंथ्रोपिक अब उपयोगकर्ताओं को यह नियंत्रित करने दे रहा है कि मॉडल कितनी गहनता से सोचता है। "हाई" डिफ़ॉल्ट है और अधिकांश कार्यों को अच्छी तरह से संभालता है, जबकि "एक्स्ट्रा"—जिसे क्लाउड कोड के अंदर "xhigh" कहा जाता है—कठिन समस्याओं के लिए अधिक गणना करता है। "मैक्स" सबसे गहरा स्तर है। "लो" और "मीडियम" उसी कार्य के लिए कम टोकन समर्पित करते हैं, सटीकता के बदले कुछ समय बचाते हैं।
यह प्रयास नियंत्रण क्लाउड.एआई और कोवर्क में मॉडल सेलेक्टर के साथ स्थित है, और सभी योजनाओं पर उपलब्ध है। एंथ्रोपिक का कहना है कि डिफ़ॉल्ट हाई ओपस 4.7 के डिफ़ॉल्ट के समान टोकन का उपयोग करता है, लेकिन बेहतर परिणामों के साथ—जो या तो प्रभावशाली इंजीनियरिंग है या अच्छी मैसेजिंग, और शायद दोनों।
यह याद रखना भी महत्वपूर्ण है कि ओपस के लिए एंथ्रोपिक का नया टोकनाइज़र प्रति कार्य अधिक टोकन का उपयोग करता है। इसलिए क्लाउड उपयोगकर्ताओं को अनिवार्य रूप से अधिक पैसा खर्च करना होगा, यदि वे क्लाउड सोननेट के बजाय ओपस का चयन करते हैं—एक कम सक्षम मॉडल, लेकिन शायद रोज़मर्रा के कार्यों और जटिल समस्याओं के लिए पर्याप्त अच्छा है जो सीमांत विज्ञान या कोडिंग के स्तर तक नहीं पहुंचते हैं।
क्लाउड कोड में दर सीमाएं भी बढ़ाई गईं ताकि एक्स्ट्रा और मैक्स सेटिंग्स द्वारा उत्पन्न उच्च टोकन खर्च को समायोजित किया जा सके।
एंथ्रोपिक की अलाइनमेंट टीम ने कहा कि ओपस 4.8 "हमारे सामाजिक गुणों जैसे उपयोगकर्ता स्वायत्तता का समर्थन करने और उपयोगकर्ता के सर्वोत्तम हित में कार्य करने के उपायों पर नई ऊंचाइयों पर पहुंचता है।" अधिक ठोस रूप से: धोखे की दरें और दुरुपयोग-सहयोग की दरें ओपस 4.7 की तुलना में काफी कम थीं, और क्लाउड मिथोस प्रीव्यू—एंथ्रोपिक के सबसे कड़े मॉडल—के बराबर थीं।
ओपस 4.8 अपने कोड में बग्स को बिना फ्लैग किए फिसलने देने की 4.7 की तुलना में चार गुना कम संभावना रखता है।
मिथोस की यह तुलना संदर्भ के योग्य है। मिथोस पूरी तरह से ओपस से एक स्तर ऊपर है—एंथ्रोपिक इसे "हमारे ओपस मॉडलों से बड़ा और अधिक बुद्धिमान" बताता है। यह वर्तमान में केवल एक प्रीव्यू के रूप में मौजूद है, जो प्रोजेक्ट ग्लासिंग के माध्यम से साइबर सुरक्षा का काम करने वाले कुछ चुनिंदा संगठनों के लिए सुलभ है।
यूके के एआई सुरक्षा संस्थान ने पाया कि यह "द लास्ट वन्स" को स्वायत्त रूप से पूरा कर सकता है, एक 32-चरणीय कॉर्पोरेट नेटवर्क हमले का सिमुलेशन जिसमें आमतौर पर मानव रेड टीमों को 20 घंटे लगते हैं। इसलिए यह अभी तक बिक्री के लिए नहीं है। एंथ्रोपिक का कहना है कि मजबूत साइबर सुरक्षा उपायों पर काम चल रहा है, और "आने वाले हफ्तों में" मिथोस-श्रेणी के मॉडल सभी के लिए लाने की उम्मीद है।
आज शिपिंग भी: क्लाउड कोड में गतिशील वर्कफ़्लो, रिसर्च प्रीव्यू में। यह सुविधा क्लाउड को अपनी ऑर्केस्ट्रेशन स्क्रिप्ट लिखने और एक ही सत्र में समानांतर सबएजेंटों को स्पिन करने, उनके आउटपुट को सत्यापित करने और वापस रिपोर्ट करने देती है—ठीक वैसे ही जैसे हर्मेस कुछ समय से कर रहा है।
गतिशील वर्कफ़्लो एंटरप्राइज़, टीम और मैक्स प्लान उपयोगकर्ताओं के लिए उपलब्ध हैं, और एंथ्रोपिक स्पष्ट रूप से कहता है कि वे एक मानक क्लाउड कोड सत्र की तुलना में काफी अधिक टोकन खर्च करते हैं।
एंथ्रोपिक का $5/$25 मूल्य निर्धारण चीन द्वारा हाल ही में किए गए कार्यों की तुलना में बहुत अलग दिखता है।
डीपसीक वी4 प्रो ने पिछले सप्ताह अपनी 75% छूट स्थायी कर दी: $0.435 प्रति मिलियन इनपुट टोकन और $0.87 प्रति मिलियन आउटपुट टोकन। श्याओमी मीमो वी2.5 प्रो ओपनराउटर जैसे प्रदाताओं के माध्यम से समान दरों पर चलता है।
एंथ्रोपिक के तेज़ मोड की लागत प्रति मिलियन $10 इनपुट और $50 आउटपुट है—जो मानक ओपस 4.8 से भी अधिक महंगा है, और डीपसीक वी4 प्रो की तुलना में प्रति आउटपुट टोकन लगभग 57 गुना अधिक है। निगमों ने अमेरिकी मॉडलों पर अनुमान में पहले ही लाखों डॉलर खर्च कर दिए हैं। ओपस के साथ आगे बढ़ें और आपका उद्यम काफी तेज़ी से लाखों डॉलर तक पहुंच सकता है।
मूल्य अंतर का एंथ्रोपिक का जवाब गुणवत्ता और सुरक्षा है। एसडब्ल्यूई-बेंच प्रो पर, ओपस 4.8 दोनों चीनी मॉडलों को हरा देता है। अलाइनमेंट पर, कोई भी एंथ्रोपिक के प्रकाशित बेंचमार्क के करीब नहीं आता है।
ये चीजें उत्पादन वातावरण में मायने रखती हैं जहां खराब इनपुट के साथ चुपचाप सहयोग करने वाला मॉडल एक वास्तविक जोखिम है—नियमित उद्योग, कानूनी कार्य, और कुछ भी जहां "यह ठीक लग रहा था" एक स्वीकार्य पोस्ट-इंसीडेंट रिपोर्ट नहीं है। बाकी सभी के लिए, इस अंतर को नजरअंदाज करना मुश्किल है।
हमने एक 3डी ज़ोंबी गेम बनाने के लिए एक त्वरित कोडिंग परीक्षण चलाया ताकि यह देखा जा सके कि क्लाउड ओपस 4.8 चैटजीपीटी और डीपसीक के मुकाबले कैसा प्रदर्शन करता है, जो अमेरिका और चीन के इसके सबसे लोकप्रिय प्रतियोगी हैं। हमने ओपस 4.8 को डिफ़ॉल्ट हाई पर, जीपीटी-5.5 को हाई एफर्ट पर, और डीपसीक वी4 प्रो को हाई एफर्ट पर सेट किया—तीन मॉडल, एक प्रॉम्प्ट, कोई पुनः प्रयास नहीं।
जीपीटी-5.5 सबसे पहले समाप्त हुआ। इसके गेम में कोई ज़ोंबी विज़ुअल और कोई ध्वनि प्रभाव नहीं था। यह तेज़ था, निश्चित रूप से, लेकिन इसने संक्षिप्त जानकारी को पूरी तरह से छोड़ दिया।
डीपसीक वी4 प्रो माउस मूवमेंट, वास्तविक ज़ोंबी पात्रों, ध्वनि प्रभावों, ठोस यांत्रिकी और एक स्वच्छ सौंदर्य के साथ दूसरे स्थान पर आया। इसमें कोई शिकायत नहीं थी।
ओपस 4.8 को जीपीटी-5.5 की तुलना में लगभग तीन गुना अधिक समय लगा, लेकिन उसने सर्वश्रेष्ठ स्प्लैश स्क्रीन, सर्वश्रेष्ठ ज़ोंबी डिज़ाइन, सर्वश्रेष्ठ गेम यांत्रिकी और सभ्य ध्वनि प्रभाव प्रदान किए। यह सबसे धीमा था, लेकिन सबसे अच्छा आउटपुट था। फिर भी, लागत अंतर को देखते हुए डीपसीक की तुलना में इसका उपयोग करना शायद पर्याप्त नहीं है।
सभी गेम हमारे इटच.आईओ प्रोफाइल पर उपलब्ध हैं। जीपीटी-5.5 ने ज़ोंबी टाइपिंग, ओपस ने टाइपिंग डेड, और डीपसीक वी4 प्रो ने बिना नाम का एक गेम बनाया जो आपको सीधे एक्शन में ले जाता है। आइए इसे टाइपसीक कहते हैं।
एक पूर्ण तुलनात्मक समीक्षा जल्द ही आ रही है। अभी के लिए: क्लाउड ओपस 4.8 इस तरह के कार्य के लिए जीपीटी-5.5 और ओपस 4.7 से बेहतर कोड करता है, उसी कीमत पर जो एंथ्रोपिक ने 4.7 से चार्ज की है। जिन डेवलपर्स ने पहले से ही प्रति मिलियन टोकन $5 का भुगतान किया था, उन्हें अभी-अभी मुफ्त में एक बेहतर मॉडल मिला है।