
MiniCPM5-1B، یک مدل یک میلیارد پارامتری از OpenBMB، جدیدترین نسخه از سری MiniCPM on-device است. این مدل از فراخوانی ابزار بومی و پروتکل زمینه مدل (MCP) پشتیبانی میکند، در حافظه یک گوشی هوشمند جای میگیرد و در معیارهای عملکرد، از هر مدل منبع باز مشابه در رده اندازه خود پیشی گرفته است.
این مدل اولین نسخه از خانواده MiniCPM5 است که از ابتدا برای استقرار محلی روی سختافزارهای با منابع محدود طراحی شده است. با 1 میلیارد پارامتر، طبق هر استاندارد فعلی کوچک محسوب میشود. (پارامترها همان چیزی هستند که به یک مدل هوش مصنوعی گستره دانش میدهند، و تعداد بیشتر معمولاً به معنای قدرتمندتر بودن آن است.)
مدل Gemma 4 گوگل با 2 میلیارد پارامتر موثر شروع میشود اما تا 31 میلیارد مقیاسپذیری دارد. Llama 4 Scout نیز 17 میلیارد پارامتر فعال را اجرا میکند. MiniCPM5-1B هیچ ادعایی برای رقابت با آنها ندارد. هدف آن این است که با منابع کمتر، کارهای بیشتری انجام دهد.
شالوده معماری از MiniCPM4 میآید که در یک گزارش فنی توسط تیم OpenBMB در THUNLP، دانشگاه Tsinghua و ModelBest شرح داده شده است. نوآوری اصلی InfLLM v2 است، یک مکانیسم توجه قابل آموزش که هر توکن را در برابر کمتر از 5 درصد از توکنهای اطراف در طول استنتاج با زمینه طولانی پردازش میکند—این کار محاسبات را به طور قابل توجهی کاهش میدهد بدون افت معنادار در دقت. (یک "توکن" واحد اصلی اطلاعاتی است که توسط یک مدل هوش مصنوعی پردازش میشود.)
در بخش داده، تیم UltraClean را ساخت، یک خط لوله فیلترینگ که مدل را با استفاده از 8 تریلیون توکن آموزشی به عملکرد رقابتی رساند، در مقایسه با 36 تریلیون توکنی که Qwen 3 مصرف کرد. پس از آموزش، از یادگیری تقویتی همراه با تکنیکهای تقطیر کارآمد (با استفاده از یک مدل بزرگتر به عنوان راهنما برای مدل کوچکتر) استفاده شد که امتیازات بنچمارک در ریاضی، کد و پیروی از دستورالعمل را 16 امتیاز افزایش داد و در عین حال پاسخهای با طول بیش از حد را 29 درصد کاهش داد.
پنجره زمینه در 128 هزار توکن قرار دارد—تقریباً 96000 کلمه متن پیوسته در یک مرحله. برای یک مدل با یک میلیارد پارامتر، این یک عدد معنیدار است. حافظه پایدار در طول یک جلسه نقشآفرینی طولانی، خلاصه کامل یک PDF، یا یک زمینه عامل که در میانه کار ریست نمیشود، همگی در محدوده این مدل هستند.
ما آن را آزمایش کردیم و تایید کردیم که MiniCPM5-1B از MCP و فراخوانی ابزار پشتیبانی میکند. این مدل را در فهرست بسیار کوتاهی از مدلهای زیر 2 میلیارد پارامتر قرار میدهد که قادر به انجام کارهای عاملمحور واقعی بدون زیرساخت ابری هستند.
با این حال، برای اینکه این کار عملی شود، کاربران باید تنظیمات اضافی را انجام دهند که همگی در مخزن گیتهاب مدل ذکر شدهاند.
سناریوی عملی: یک عامل محلی روی آیفون که میتواند تقویم را پرسوجو کند، یک پایگاه داده محلی را جستجو کند، یا یک سرور MCP برای تحقیق در وب را فراخوانی کند—تماماً آفلاین. همانطور که قبلاً پوشش دادهایم، اجرای هوش مصنوعی محلی در حال حاضر قابل دسترستر از آن چیزی است که اکثر مردم تصور میکنند، و رقابت برای دستگاههای روی گوشی در حال تسریع بوده است. مدلهایی که برای اجرا روی گوشی بدون backend ابری طراحی شدهاند، در حال تبدیل شدن به یک دسته محصول واقعی هستند، نه یک کنجکاوی تحقیقاتی.
شما نیازی به OpenAI ندارید تا تقویم خود را بررسی کنید اگر یک عامل محلی بتواند به سادگی آن را دریافت کرده و به شما بگوید که برنامه امروزتان چیست.
برای وظایف عاملمحور سبک و زمینههای مکالمه گسترده، MiniCPM5-1B رقابتی است. با این حال، حتی اگر OpenBMB به آن فکر نکرده باشد، سبک پرحرفی این مدل آن را کاندیدای خوبی برای نقشآفرینی محلی میکند—128 هزار توکن زمینه به این معنی است که یک داستان میتواند در دهها، اگر نه صدها تبادل، بدون اینکه مدل رشته کلام را از دست بدهد، پیشرفت کند.
عوامل کوچکی که یادداشتها را میخوانند، اسناد را خلاصه میکنند و به سوالات مربوط به آنها پاسخ میدهند، به راحتی در محدوده قابلیتهای آن قرار دارند، به خصوص هنگامی که با یک سرور تحقیق MCP جفت شوند تا شکافهای دانش را پوشش دهند.
رقبای این مقیاس شامل Qwen3-0.6B از Alibaba، Qwen3.5-0.8B و LFM2.5-1.2B-Thinking از Liquid AI هستند. بنچمارک قابلیتهای OpenBMB هر چهار مدل را در دانش عمومی، دانش دامنه، کدنویسی، پیروی از دستورالعمل، استدلال ریاضی، استدلال منطقی و وظایف عاملمحور مقایسه میکند. MiniCPM5-1B در هر هفت دسته پیشتاز است، با بیشترین اختلاف در عملکرد عاملمحور و دانش عمومی.
ما سه ارزیابی سریع انجام دادیم. اولین مورد یک تله منطقی کلاسیک بود: "لطفاً به عنوان یک وکیل و قانونگذار خبره عمل کنید. آیا ازدواج یک مرد با خواهر بیوهاش طبق سیستم حقوقی حاکم بر جزایر فالکلند قانونی است؟"
پاسخ صحیح واضح است—مردی که بیوه دارد مرده است و مردگان سند ازدواج امضا نمیکنند. MiniCPM5-1B یک تجزیه و تحلیل دقیق از قانون ازدواج جزایر فالکلند ارائه داد و تله را به طور کامل از دست داد و آن را به عنوان یک سوال قضایی ساده تلقی کرد.
این مدل پس از استدلال طولانی پاسخ داد: "از همه مهمتر، باید وضعیت واقعی ازدواج در جزایر فالکلند را مشخص کنید. این موضوعی واقعی است که باید توسط مقامات محلی یا از طریق فرآیند قانونی تعیین شود."
آزمایش دوم ما درخواست یک انتخاب قاطع A/B بود. مدل هیچکدام را انتخاب نکرد و به یک پاسخ دوطرفه متوسل شد. این یک حالت شکست شناخته شده در مدلهای کوچک تحت فشار مکالمه است. MiniCPM5-1B نیز از این قاعده مستثنی نیست.
ما از مدل خواستیم به ما بگوید کدام صنعت در سال 2100 بر اقتصاد مسلط خواهد بود: کریپتو یا هوش مصنوعی؟ به جای استدلال در مورد سوال، تفکر داخلی مدل شروع به تجزیه و تحلیل سرمایهگذاری در ارزهای دیجیتال و هوش مصنوعی به عنوان همافزا از پایه کرد.
برای انصاف، هیچکدام از اینها برای یک مدل 1B تعجبآور نیست.
قابلیتهای عاملمحور در اینجا داستان اصلی هستند. با جفت کردن MiniCPM5-1B با یک سرور MCP برای تحقیقات وب، تمایل آن به توهمزایی در مورد سوالات واقعی مبهم از بین میرود، یا حداقل به شدت کاهش مییابد.
ما از مدل قیمت بیتکوین در حال حاضر و سه توصیه سهام را پرسیدیم، و ابزار با موفقیت فراخوانی شد و توصیهها (آمازون، مایکروسافت و انویدیا) منطقی به نظر میرسیدند.
یک عامل پرحرف و قابل استقرار محلی که میتواند ابزارها را فراخوانی کند، 128 هزار توکن زمینه را حفظ کند و کاملاً روی دستگاه اجرا شود، محصولی جذابتر از یک مدل پاسخگویی به سوالات مستقل است که با GPT-4 رقابت میکند.
فقط اشتراک هوش مصنوعی خود را به خاطر آن لغو نکنید. بدانید با چه چیزی سر و کار دارید: دانش آن در مقایسه با مدلهای بزرگ ضعیف است، کدنویسی ضعیفی خواهد داشت (باز هم، در مقایسه با مدلهای بزرگتر) و اگر به دنبال هوش مصنوعی عمومی (AGI) هستید، اصلاً به آن نزدیک نخواهد بود.
MiniCPM5-1B اکنون در Hugging Face تحت مجوز Apache 2.0 در دسترس است و با vLLM، SGLang و استنتاج استاندارد Transformers سازگار است.