openbmb-minicpm5-half-gigabyte-ai-model-local-agents-phone
مدل هوش مصنوعی نیم گیگابایتی ایجنت‌های بومی را روی گوشی شما اجرا می‌کند
مدل ۱ میلیارد پارامتری OpenBMB پشتیبانی MCP و قابلیت استفاده از ابزارهای ایجنتی را برای هوش مصنوعی روی دستگاه به ارمغان می‌آورد—اما در مواجهه با تله‌های منطقی مشکل دارد.
2026-05-26 منبع:decrypt.co

به‌اختصار

  • MiniCPM5-1B در معیارهای عامل‌محور و استدلال، به میانگین امتیاز 42.57 دست یافته و رقیب هم‌رده ۱ میلیارد پارامتری بعدی خود را با امتیاز 35.61 پشت سر گذاشته است.
  • این مدل از MCP (Model Context Protocol) و فراخوانی ابزار بومی به‌صورت پیش‌فرض پشتیبانی می‌کند و امکان جریان‌های کاری عامل محلی را روی سخت‌افزار مصرف‌کننده بدون نیاز به اتصال ابری فراهم می‌سازد.
  • در آزمایش‌های ما، مدل تسلط مکالمه‌ای قوی از خود نشان داد، اما یک پاسخ زنجیره فکری توهم‌آمیز تولید کرد و در یک تله منطقی اولیه شکست خورد.

MiniCPM5-1B، یک مدل یک میلیارد پارامتری از OpenBMB، جدیدترین نسخه از سری MiniCPM on-device است. این مدل از فراخوانی ابزار بومی و پروتکل زمینه مدل (MCP) پشتیبانی می‌کند، در حافظه یک گوشی هوشمند جای می‌گیرد و در معیارهای عملکرد، از هر مدل منبع باز مشابه در رده اندازه خود پیشی گرفته است.

این مدل اولین نسخه از خانواده MiniCPM5 است که از ابتدا برای استقرار محلی روی سخت‌افزارهای با منابع محدود طراحی شده است. با 1 میلیارد پارامتر، طبق هر استاندارد فعلی کوچک محسوب می‌شود. (پارامترها همان چیزی هستند که به یک مدل هوش مصنوعی گستره دانش می‌دهند، و تعداد بیشتر معمولاً به معنای قدرتمندتر بودن آن است.)

مدل Gemma 4 گوگل با 2 میلیارد پارامتر موثر شروع می‌شود اما تا 31 میلیارد مقیاس‌پذیری دارد. Llama 4 Scout نیز 17 میلیارد پارامتر فعال را اجرا می‌کند. MiniCPM5-1B هیچ ادعایی برای رقابت با آن‌ها ندارد. هدف آن این است که با منابع کمتر، کارهای بیشتری انجام دهد.

نحوه ساخت آن

شالوده معماری از MiniCPM4 می‌آید که در یک گزارش فنی توسط تیم OpenBMB در THUNLP، دانشگاه Tsinghua و ModelBest شرح داده شده است. نوآوری اصلی InfLLM v2 است، یک مکانیسم توجه قابل آموزش که هر توکن را در برابر کمتر از 5 درصد از توکن‌های اطراف در طول استنتاج با زمینه طولانی پردازش می‌کند—این کار محاسبات را به طور قابل توجهی کاهش می‌دهد بدون افت معنادار در دقت. (یک "توکن" واحد اصلی اطلاعاتی است که توسط یک مدل هوش مصنوعی پردازش می‌شود.)

در بخش داده، تیم UltraClean را ساخت، یک خط لوله فیلترینگ که مدل را با استفاده از 8 تریلیون توکن آموزشی به عملکرد رقابتی رساند، در مقایسه با 36 تریلیون توکنی که Qwen 3 مصرف کرد. پس از آموزش، از یادگیری تقویتی همراه با تکنیک‌های تقطیر کارآمد (با استفاده از یک مدل بزرگ‌تر به عنوان راهنما برای مدل کوچک‌تر) استفاده شد که امتیازات بنچمارک در ریاضی، کد و پیروی از دستورالعمل را 16 امتیاز افزایش داد و در عین حال پاسخ‌های با طول بیش از حد را 29 درصد کاهش داد.

پنجره زمینه در 128 هزار توکن قرار دارد—تقریباً 96000 کلمه متن پیوسته در یک مرحله. برای یک مدل با یک میلیارد پارامتر، این یک عدد معنی‌دار است. حافظه پایدار در طول یک جلسه نقش‌آفرینی طولانی، خلاصه کامل یک PDF، یا یک زمینه عامل که در میانه کار ریست نمی‌شود، همگی در محدوده این مدل هستند.

چرا یک عامل ساده ممکن است کافی باشد

ما آن را آزمایش کردیم و تایید کردیم که MiniCPM5-1B از MCP و فراخوانی ابزار پشتیبانی می‌کند. این مدل را در فهرست بسیار کوتاهی از مدل‌های زیر 2 میلیارد پارامتر قرار می‌دهد که قادر به انجام کارهای عامل‌محور واقعی بدون زیرساخت ابری هستند.

با این حال، برای اینکه این کار عملی شود، کاربران باید تنظیمات اضافی را انجام دهند که همگی در مخزن گیت‌هاب مدل ذکر شده‌اند.

سناریوی عملی: یک عامل محلی روی آیفون که می‌تواند تقویم را پرس‌وجو کند، یک پایگاه داده محلی را جستجو کند، یا یک سرور MCP برای تحقیق در وب را فراخوانی کند—تماماً آفلاین. همانطور که قبلاً پوشش داده‌ایم، اجرای هوش مصنوعی محلی در حال حاضر قابل دسترس‌تر از آن چیزی است که اکثر مردم تصور می‌کنند، و رقابت برای دستگاه‌های روی گوشی در حال تسریع بوده است. مدل‌هایی که برای اجرا روی گوشی بدون backend ابری طراحی شده‌اند، در حال تبدیل شدن به یک دسته محصول واقعی هستند، نه یک کنجکاوی تحقیقاتی.

شما نیازی به OpenAI ندارید تا تقویم خود را بررسی کنید اگر یک عامل محلی بتواند به سادگی آن را دریافت کرده و به شما بگوید که برنامه امروزتان چیست.

برای وظایف عامل‌محور سبک و زمینه‌های مکالمه گسترده، MiniCPM5-1B رقابتی است. با این حال، حتی اگر OpenBMB به آن فکر نکرده باشد، سبک پرحرفی این مدل آن را کاندیدای خوبی برای نقش‌آفرینی محلی می‌کند—128 هزار توکن زمینه به این معنی است که یک داستان می‌تواند در ده‌ها، اگر نه صدها تبادل، بدون اینکه مدل رشته کلام را از دست بدهد، پیشرفت کند.

عوامل کوچکی که یادداشت‌ها را می‌خوانند، اسناد را خلاصه می‌کنند و به سوالات مربوط به آن‌ها پاسخ می‌دهند، به راحتی در محدوده قابلیت‌های آن قرار دارند، به خصوص هنگامی که با یک سرور تحقیق MCP جفت شوند تا شکاف‌های دانش را پوشش دهند.

رقبای این مقیاس شامل Qwen3-0.6B از Alibaba، Qwen3.5-0.8B و LFM2.5-1.2B-Thinking از Liquid AI هستند. بنچمارک قابلیت‌های OpenBMB هر چهار مدل را در دانش عمومی، دانش دامنه، کدنویسی، پیروی از دستورالعمل، استدلال ریاضی، استدلال منطقی و وظایف عامل‌محور مقایسه می‌کند. MiniCPM5-1B در هر هفت دسته پیشتاز است، با بیشترین اختلاف در عملکرد عامل‌محور و دانش عمومی.

آزمایش‌های سریع

ما سه ارزیابی سریع انجام دادیم. اولین مورد یک تله منطقی کلاسیک بود: "لطفاً به عنوان یک وکیل و قانون‌گذار خبره عمل کنید. آیا ازدواج یک مرد با خواهر بیوه‌اش طبق سیستم حقوقی حاکم بر جزایر فالکلند قانونی است؟"

پاسخ صحیح واضح است—مردی که بیوه دارد مرده است و مردگان سند ازدواج امضا نمی‌کنند. MiniCPM5-1B یک تجزیه و تحلیل دقیق از قانون ازدواج جزایر فالکلند ارائه داد و تله را به طور کامل از دست داد و آن را به عنوان یک سوال قضایی ساده تلقی کرد.

این مدل پس از استدلال طولانی پاسخ داد: "از همه مهم‌تر، باید وضعیت واقعی ازدواج در جزایر فالکلند را مشخص کنید. این موضوعی واقعی است که باید توسط مقامات محلی یا از طریق فرآیند قانونی تعیین شود."

آزمایش دوم ما درخواست یک انتخاب قاطع A/B بود. مدل هیچ‌کدام را انتخاب نکرد و به یک پاسخ دوطرفه متوسل شد. این یک حالت شکست شناخته شده در مدل‌های کوچک تحت فشار مکالمه است. MiniCPM5-1B نیز از این قاعده مستثنی نیست.

ما از مدل خواستیم به ما بگوید کدام صنعت در سال 2100 بر اقتصاد مسلط خواهد بود: کریپتو یا هوش مصنوعی؟ به جای استدلال در مورد سوال، تفکر داخلی مدل شروع به تجزیه و تحلیل سرمایه‌گذاری در ارزهای دیجیتال و هوش مصنوعی به عنوان هم‌افزا از پایه کرد.

برای انصاف، هیچ‌کدام از این‌ها برای یک مدل 1B تعجب‌آور نیست.

قابلیت‌های عامل‌محور در اینجا داستان اصلی هستند. با جفت کردن MiniCPM5-1B با یک سرور MCP برای تحقیقات وب، تمایل آن به توهم‌زایی در مورد سوالات واقعی مبهم از بین می‌رود، یا حداقل به شدت کاهش می‌یابد.

ما از مدل قیمت بیت‌کوین در حال حاضر و سه توصیه سهام را پرسیدیم، و ابزار با موفقیت فراخوانی شد و توصیه‌ها (آمازون، مایکروسافت و انویدیا) منطقی به نظر می‌رسیدند.

نتیجه‌گیری

یک عامل پرحرف و قابل استقرار محلی که می‌تواند ابزارها را فراخوانی کند، 128 هزار توکن زمینه را حفظ کند و کاملاً روی دستگاه اجرا شود، محصولی جذاب‌تر از یک مدل پاسخ‌گویی به سوالات مستقل است که با GPT-4 رقابت می‌کند.

فقط اشتراک هوش مصنوعی خود را به خاطر آن لغو نکنید. بدانید با چه چیزی سر و کار دارید: دانش آن در مقایسه با مدل‌های بزرگ ضعیف است، کدنویسی ضعیفی خواهد داشت (باز هم، در مقایسه با مدل‌های بزرگ‌تر) و اگر به دنبال هوش مصنوعی عمومی (AGI) هستید، اصلاً به آن نزدیک نخواهد بود.

MiniCPM5-1B اکنون در Hugging Face تحت مجوز Apache 2.0 در دسترس است و با vLLM، SGLang و استنتاج استاندارد Transformers سازگار است.

رمزارز های محبوب
همین حالا ثبت‌نام کنید، هیچ به‌روزرسانی‌ای را از دست ندهید!