
OpenBMB का एक अरब-पैरामीटर मॉडल MiniCPM5-1B, MiniCPM ऑन-डिवाइस श्रृंखला की नवीनतम रिलीज़ है। यह नेटिव टूल कॉलिंग और मॉडल कॉन्टेक्स्ट प्रोटोकॉल (MCP) का समर्थन करता है, एक स्मार्टफोन की मेमोरी में फिट होता है, और अपने आकार वर्ग में हर तुलनीय ओपन-सोर्स मॉडल से आगे बेंचमार्क करता है।
यह मॉडल MiniCPM5 परिवार की पहली रिलीज़ है, जिसे शुरू से ही संसाधन-सीमित हार्डवेयर पर लोकल डिप्लॉयमेंट के लिए डिज़ाइन किया गया है। 1 अरब पैरामीटर पर, यह किसी भी वर्तमान मानक से छोटा है। (पैरामीटर वह हैं जो एक AI मॉडल को ज्ञान की गहराई देते हैं, जिसमें अधिक संख्या का आमतौर पर मतलब होता है कि यह अधिक शक्तिशाली है।)
Google का Gemma 4, 2 अरब प्रभावी पैरामीटर से शुरू होता है लेकिन 31 अरब तक बढ़ता है। Llama 4 Scout 17 अरब सक्रिय पैरामीटर पर चलता है। MiniCPM5-1B उनसे प्रतिस्पर्धा करने का कोई दिखावा नहीं करता है। इसका लक्ष्य कम में अधिक करना है।
आर्किटेक्चरल बैकबोन MiniCPM4 से आता है, जिसका विवरण THUNLP, Tsinghua University और ModelBest की OpenBMB टीम की एक तकनीकी रिपोर्ट में दिया गया है। मुख्य नवाचार InfLLM v2 है, एक ट्रेनेबल अटेंशन मैकेनिज़्म जो लंबी-कॉन्टेक्स्ट इन्फरेंस के दौरान प्रत्येक टोकन को आसपास के 5% से कम टोकन के मुकाबले प्रोसेस करता है — जिससे महत्वपूर्ण सटीकता में गिरावट के बिना गणना में काफी कमी आती है। ("टोकन" एक AI मॉडल द्वारा संभाली जाने वाली जानकारी की मूल इकाई है।)
डेटा पक्ष पर, टीम ने UltraClean का निर्माण किया, एक फ़िल्टरिंग पाइपलाइन जिसने मॉडल को 8 ट्रिलियन प्रशिक्षण टोकन का उपयोग करके प्रतिस्पर्धी प्रदर्शन प्राप्त कराया, जबकि Qwen 3 ने 36 ट्रिलियन का उपयोग किया था। पोस्ट-ट्रेनिंग में सुदृढीकरण शिक्षण का उपयोग किया गया, जिसे कुशल डिस्टिलेशन तकनीकों (छोटे मॉडल के लिए मार्गदर्शन के रूप में एक बड़े मॉडल का उपयोग करके) के साथ जोड़ा गया, जिससे गणित, कोड और निर्देश-पालन पर बेंचमार्क स्कोर में 16 अंकों की वृद्धि हुई, जबकि लंबी-लंबी प्रतिक्रियाओं में 29 प्रतिशत अंकों की कमी आई।
कॉन्टेक्स्ट विंडो 128K टोकन पर बैठती है—एक ही पास में लगभग 96,000 शब्दों का निरंतर टेक्स्ट। 1 अरब पैरामीटर मॉडल के लिए, यह एक महत्वपूर्ण संख्या है। एक लंबे रोलप्ले सत्र, एक पूर्ण PDF डाइजेस्ट, या एक एजेंट संदर्भ में स्थायी मेमोरी जो कार्य के बीच में रीसेट नहीं होती है, ये सभी इसके दायरे में हैं।
हमने इसका परीक्षण किया और पुष्टि की कि MiniCPM5-1B MCP और टूल कॉल का समर्थन करता है। यह इसे 2 अरब-पैरामीटर से कम मॉडल की बहुत छोटी सूची में रखता है जो क्लाउड इन्फ्रास्ट्रक्चर के बिना वास्तविक एजेंटिक वर्कफ़्लो में सक्षम हैं।
हालांकि, इसके लिए, उपयोगकर्ताओं को अतिरिक्त कॉन्फ़िगरेशन सेट अप करने की आवश्यकता होगी, जो सभी मॉडल के Github रेपो में सूचीबद्ध हैं।
व्यावहारिक परिदृश्य: एक iPhone पर एक लोकल एजेंट जो कैलेंडर को क्वेरी कर सकता है, एक लोकल डेटाबेस खोज सकता है, या वेब रिसर्च MCP सर्वर को कॉल कर सकता है - पूरी तरह से ऑफ़लाइन। जैसा कि हमने कवर किया है, लोकल AI चलाना पहले से कहीं अधिक सुलभ है जितना ज़्यादातर लोग महसूस करते हैं, और ऑन-डिवाइस रेस तेज हो रही है। क्लाउड बैकएंड के बिना फोन पर चलने के लिए डिज़ाइन किए गए मॉडल एक वास्तविक उत्पाद श्रेणी बन रहे हैं, न कि केवल एक शोध की जिज्ञासा।
आपको अपना कैलेंडर जांचने के लिए OpenAI की आवश्यकता नहीं है यदि एक लोकल एजेंट इसे आसानी से प्राप्त कर सकता है और आपको बता सकता है कि आज आपके शेड्यूल में क्या है।
हल्के एजेंटिक कार्यों और विस्तारित वार्तालाप संदर्भों के लिए, MiniCPM5-1B प्रतिस्पर्धी है। हालांकि, भले ही OpenBMB ने इसके बारे में नहीं सोचा हो, मॉडल की बातूनी शैली इसे लोकल रोलप्ले के लिए एक अच्छा उम्मीदवार बनाती है—128K का संदर्भ का मतलब है कि मॉडल धागा खोए बिना दर्जनों, यदि सैकड़ों एक्सचेंजों में एक कहानी विकसित कर सकता है।
छोटे एजेंट जो नोट्स पढ़ते हैं, दस्तावेजों का सारांश करते हैं, और उनके बारे में सवालों के जवाब देते हैं, वे इसकी सीमा में आराम से हैं, खासकर जब ज्ञान अंतराल को कवर करने के लिए एक MCP रिसर्च सर्वर के साथ जोड़ा जाता है।
इस पैमाने पर प्रतियोगिता में अलीबाबा का Qwen3-0.6B, Qwen3.5-0.8B, और लिक्विड AI का LFM2.5-1.2B-Thinking शामिल हैं। OpenBMB का अपना क्षमता बेंचमार्क इन चारों की तुलना सामान्य ज्ञान, डोमेन ज्ञान, कोडिंग, निर्देश-पालन, गणितीय तर्क, तार्किक तर्क और एजेंटिक कार्यों में करता है। MiniCPM5-1B सभी सात श्रेणियों में आगे है, जिसमें एजेंटिक प्रदर्शन और सामान्य ज्ञान में सबसे अधिक स्पष्ट अंतर हैं।
हमने तीन त्वरित मूल्यांकन किए। पहला एक क्लासिक लॉजिक ट्रैप था: "कृपया एक विशेषज्ञ वकील और विधायक के रूप में कार्य करें। क्या फ़ॉकलैंड द्वीप समूह को नियंत्रित करने वाली कानूनी प्रणाली के अनुसार किसी व्यक्ति के लिए अपनी विधवा की बहन से शादी करना कानूनी है?"
सही उत्तर स्पष्ट है—एक विधवा वाला व्यक्ति मर चुका है, और मृत व्यक्ति विवाह प्रमाणपत्र पर हस्ताक्षर नहीं करते हैं। MiniCPM5-1B ने फ़ॉकलैंड द्वीप समूह के वैवाहिक कानून का विस्तृत विश्लेषण प्रस्तुत किया और इस जाल को पूरी तरह से चूक गया, इसे एक सीधा क्षेत्राधिकार प्रश्न माना।
“महत्वपूर्ण रूप से, आपको फ़ॉकलैंड द्वीप समूह में वास्तविक विवाह स्थिति की पहचान करनी होगी। यह एक तथ्यात्मक मामला है जिसे स्थानीय अधिकारियों द्वारा या एक कानूनी प्रक्रिया के माध्यम से निर्धारित किया जाना चाहिए,” मॉडल ने लंबे तर्क के बाद जवाब दिया।
हमारे दूसरे परीक्षण में निर्णायक A/B विकल्प मांगा गया। मॉडल ने किसी को भी नहीं चुना, बल्कि दोनों-पक्षीय जवाब में हेजिंग की। यह संवादी दबाव में छोटे मॉडल में एक ज्ञात विफलता मोड है। MiniCPM5-1B इसका कोई अपवाद नहीं है।
हमने मॉडल से पूछा कि वर्ष 2100 में कौन सा उद्योग अर्थव्यवस्था पर हावी होगा: क्रिप्टो या AI? प्रश्न पर बिल्कुल भी तर्क करने के बजाय, मॉडल की आंतरिक सोच ने क्रिप्टोकरेंसी और AI निवेश को शुरू से ही सहक्रियाशील के रूप में विश्लेषण करना शुरू कर दिया।
ईमानदारी से, 1B मॉडल के लिए इसमें से कुछ भी आश्चर्यजनक नहीं है।
एजेंटिक क्षमताएं यहां की वास्तविक कहानी हैं। MiniCPM5-1B को वेब रिसर्च के लिए एक MCP सर्वर के साथ जोड़ें और अस्पष्ट तथ्यात्मक प्रश्नों पर इसकी भ्रामक जानकारी देने की प्रवृत्ति चली जाती है, या कम से कम काफी कम हो जाती है।
हमने मॉडल से अभी बिटकॉइन की कीमत और तीन स्टॉक सिफारिशें मांगीं, और टूल सफलतापूर्वक कॉल किया गया, और सिफारिशें (अमेज़ॅन, माइक्रोसॉफ्ट और एनवीडिया) समझ में आईं।
एक बातूनी, स्थानीय रूप से डिप्लॉय करने योग्य एजेंट जो टूल को कॉल कर सकता है, 128K संदर्भ को धारण कर सकता है, और पूरी तरह से ऑन-डिवाइस चल सकता है, GPT-4 के साथ प्रतिस्पर्धा करने वाले एक स्टैंडअलोन प्रश्न-उत्तर मॉडल की तुलना में एक अधिक दिलचस्प उत्पाद है।
बस इसके कारण अपनी AI सदस्यता रद्द न करें। जानिए आप किस चीज़ से निपट रहे हैं: इसमें बड़े मॉडल की तुलना में खराब ज्ञान है, यह खराब तरीके से कोड करेगा (फिर से, बड़े मॉडल की तुलना में) और AGI के करीब भी नहीं होगा, यदि आप वही खोज रहे हैं।
MiniCPM5-1B अब Apache 2.0 लाइसेंस के तहत Hugging Face पर उपलब्ध है, जो vLLM, SGLang और मानक ट्रांसफॉर्मर इन्फरेंस के साथ संगत है।