openbmb-minicpm5-half-gigabyte-ai-model-local-agents-phone
Mô hình AI Nửa Gigabyte này Chạy Tác nhân Cục bộ trên Điện thoại
Mô hình 1 tỷ tham số của OpenBMB mang đến hỗ trợ MCP và khả năng sử dụng công cụ tác nhân cho AI trên thiết bị — nhưng nó gặp khó khăn với các bẫy logic.
2026-05-26 Nguồn:decrypt.co

Tóm tắt

  • MiniCPM5-1B đạt điểm trung bình 42.57 trong các bài kiểm tra đánh giá khả năng tác nhân và suy luận, vượt trội so với đối thủ tốt nhất cùng phân khúc 1 tỷ tham số với 35.61 điểm.
  • Mô hình hỗ trợ MCP và gọi công cụ gốc ngay lập tức, cho phép quy trình làm việc tác nhân cục bộ trên phần cứng tiêu dùng mà không cần kết nối đám mây.
  • Trong các thử nghiệm của chúng tôi, mô hình thể hiện khả năng đối thoại trôi chảy nhưng đã tạo ra phản hồi chuỗi suy nghĩ bị "ảo giác" và không vượt qua một bẫy logic cơ bản.

MiniCPM5-1B, một mô hình một tỷ tham số từ OpenBMB, là bản phát hành mới nhất trong dòng sản phẩm MiniCPM chạy trên thiết bị. Nó hỗ trợ gọi công cụ gốc và Giao thức Ngữ cảnh Mô hình (MCP), vừa vặn với bộ nhớ của điện thoại thông minh, và vượt trội hơn mọi mô hình mã nguồn mở có thể so sánh được trong phân khúc kích thước của nó trong các thử nghiệm đánh giá.

Mô hình này là bản phát hành đầu tiên trong gia đình MiniCPM5, được thiết kế ngay từ đầu để triển khai cục bộ trên phần cứng hạn chế tài nguyên. Với 1 tỷ tham số, nó khá nhỏ theo bất kỳ tiêu chuẩn hiện tại nào. (Tham số là thứ mang lại cho mô hình AI bề rộng kiến thức của nó, với số lượng lớn hơn thường có nghĩa là nó mạnh mẽ hơn.)

Gemma 4 của Google bắt đầu với 2 tỷ tham số hiệu dụng nhưng có thể mở rộng lên đến 31 tỷ. Llama 4 Scout chạy 17 tỷ tham số hoạt động. MiniCPM5-1B không có ý định cạnh tranh với những mô hình này. Mục tiêu của nó là làm được nhiều hơn với ít hơn.

Cách nó được xây dựng

Xương sống kiến trúc đến từ MiniCPM4, được trình bày chi tiết trong một báo cáo kỹ thuật từ nhóm OpenBMB tại THUNLP, Đại học Tsinghua và ModelBest. Đổi mới cốt lõi là InfLLM v2, một cơ chế chú ý có thể huấn luyện xử lý mỗi token so với dưới 5% các token xung quanh trong quá trình suy luận ngữ cảnh dài—giảm đáng kể khối lượng tính toán mà không làm sụt giảm đáng kể độ chính xác. ("Token" là đơn vị thông tin cơ bản được xử lý bởi một mô hình AI.)

Về mặt dữ liệu, nhóm đã xây dựng UltraClean, một quy trình lọc giúp mô hình đạt hiệu suất cạnh tranh chỉ với 8 nghìn tỷ token huấn luyện, so với 36 nghìn tỷ token mà Qwen 3 đã sử dụng. Giai đoạn hậu huấn luyện đã sử dụng học tăng cường kết hợp với các kỹ thuật chưng cất hiệu quả (sử dụng một mô hình lớn hơn làm hướng dẫn cho mô hình nhỏ hơn), tăng điểm đánh giá về toán, mã và tuân thủ hướng dẫn thêm 16 điểm trong khi giảm các phản hồi dài bất thường đi 29 điểm phần trăm.

Cửa sổ ngữ cảnh nằm ở 128K token—tương đương khoảng 96.000 từ văn bản liên tục trong một lần xử lý. Đối với một mô hình một tỷ tham số, đó là một con số đáng kể. Bộ nhớ bền vững trong một phiên nhập vai dài, tóm tắt toàn bộ PDF hoặc ngữ cảnh tác nhân không bị đặt lại giữa chừng đều nằm trong phạm vi khả năng.

Tại sao một tác nhân "ngu" có thể là đủ

Chúng tôi đã thử nghiệm và xác nhận MiniCPM5-1B hỗ trợ MCP và gọi công cụ. Điều đó đưa nó vào danh sách rất ngắn các mô hình dưới 2 tỷ tham số có khả năng thực hiện quy trình làm việc tác nhân thực sự mà không cần hạ tầng đám mây.

Tuy nhiên, để điều này hoạt động, người dùng sẽ cần thiết lập các cấu hình bổ sung, tất cả đều được liệt kê trong kho lưu trữ Github của mô hình.

Kịch bản thực tế: một tác nhân cục bộ trên iPhone có thể truy vấn lịch, tìm kiếm cơ sở dữ liệu cục bộ hoặc gọi máy chủ MCP nghiên cứu web—hoàn toàn ngoại tuyến. Như chúng tôi đã đề cập, việc chạy AI cục bộ đã dễ tiếp cận hơn hầu hết mọi người nhận ra, và cuộc đua thiết bị tích hợp đang tăng tốc. Các mô hình được thiết kế để chạy trên điện thoại mà không cần phụ trợ đám mây đang trở thành một loại sản phẩm thực sự, chứ không phải là một sự tò mò nghiên cứu.

Bạn không cần OpenAI để kiểm tra lịch của mình nếu một tác nhân cục bộ có thể đơn giản lấy nó và cho bạn biết lịch trình hôm nay của bạn là gì.

Đối với các nhiệm vụ tác nhân nhẹ và ngữ cảnh hội thoại mở rộng, MiniCPM5-1B rất cạnh tranh. Tuy nhiên, mặc dù OpenBMB có thể chưa nghĩ đến, phong cách nói nhiều của mô hình làm cho nó trở thành một ứng cử viên tốt cho việc nhập vai cục bộ—ngữ cảnh 128K có nghĩa là một câu chuyện có thể phát triển qua hàng chục, nếu không phải hàng trăm lượt trao đổi mà mô hình không bị lạc đề.

Các tác nhân nhỏ đọc ghi chú, tóm tắt tài liệu và trả lời các câu hỏi về chúng đều nằm trong phạm vi của nó một cách thoải mái, đặc biệt khi được ghép nối với máy chủ nghiên cứu MCP để lấp đầy các lỗ hổng kiến thức.

Các đối thủ cạnh tranh ở quy mô này bao gồm Qwen3-0.6B của Alibaba, Qwen3.5-0.8B và LFM2.5-1.2B-Thinking của Liquid AI. Thử nghiệm đánh giá khả năng của chính OpenBMB so sánh cả bốn mô hình trên các lĩnh vực kiến thức chung, kiến thức chuyên ngành, viết mã, tuân thủ hướng dẫn, suy luận toán học, suy luận logic và nhiệm vụ tác nhân. MiniCPM5-1B dẫn đầu trong cả bảy hạng mục, với biên độ rõ rệt nhất về hiệu suất tác nhân và kiến thức chung.

Các thử nghiệm nhanh

Chúng tôi đã thực hiện ba đánh giá nhanh. Đầu tiên là một bẫy logic cổ điển: "Xin hãy đóng vai một luật sư và nhà lập pháp chuyên nghiệp. Theo hệ thống pháp luật của Quần đảo Falkland, liệu một người đàn ông có được phép kết hôn với em gái của người vợ góa của mình không?"

Câu trả lời đúng là hiển nhiên—một người đàn ông có vợ góa đã chết, và người chết không ký giấy đăng ký kết hôn. MiniCPM5-1B đã đưa ra phân tích chi tiết về luật hôn nhân của Quần đảo Falkland và hoàn toàn bỏ qua cái bẫy, coi đó là một câu hỏi thẩm quyền đơn thuần.

"Điều quan trọng là bạn phải xác định tình trạng hôn nhân thực tế ở Quần đảo Falkland. Đây là vấn đề thực tế cần được xác định bởi chính quyền địa phương hoặc thông qua một quy trình pháp lý," mô hình trả lời sau một hồi suy luận dài.

Thử nghiệm thứ hai của chúng tôi yêu cầu một lựa chọn A/B dứt khoát. Mô hình đã không chọn cái nào, mà lại đưa ra câu trả lời trung lập. Đây là một chế độ lỗi được biết đến của các mô hình nhỏ dưới áp lực hội thoại. MiniCPM5-1B cũng không phải là ngoại lệ.

Chúng tôi yêu cầu mô hình cho biết ngành nào sẽ thống trị nền kinh tế vào năm 2100: Tiền mã hóa hay AI? Thay vì suy luận về câu hỏi, suy nghĩ nội bộ của mô hình bắt đầu phân tích tiền mã hóa và đầu tư AI như những yếu tố hiệp lực ngay từ đầu.

Công bằng mà nói, không có điều nào trong số này đáng ngạc nhiên đối với một mô hình 1 tỷ tham số.

Khả năng tác nhân mới là câu chuyện thực sự ở đây. Ghép nối MiniCPM5-1B với máy chủ MCP để nghiên cứu web, xu hướng "ảo giác" của nó đối với các câu hỏi thực tế mơ hồ sẽ biến mất, hoặc ít nhất là giảm đáng kể.

Chúng tôi đã hỏi mô hình về Giá Bitcoin hiện tại và ba khuyến nghị cổ phiếu, và công cụ đã được gọi thành công, các khuyến nghị (Amazon, Microsoft và Nvidia) đều hợp lý.

Kết luận

Một tác nhân nói nhiều, có thể triển khai cục bộ, có thể gọi công cụ, giữ ngữ cảnh 128K và chạy hoàn toàn trên thiết bị là một sản phẩm thú vị hơn một mô hình hỏi đáp độc lập cạnh tranh với GPT-4.

Tuy nhiên, đừng vì thế mà hủy bỏ gói đăng ký AI của bạn. Hãy biết mình đang làm việc với cái gì: Nó có kiến thức kém hơn so với các mô hình lớn, sẽ viết mã kém (một lần nữa, so với các mô hình lớn hơn) và sẽ không thể đạt đến gần AGI, nếu đó là điều bạn đang tìm kiếm.

MiniCPM5-1B hiện có sẵn trên Hugging Face theo giấy phép Apache 2.0, tương thích với vLLM, SGLang và suy luận Transformers tiêu chuẩn.