BerandaPusat Berita LBank
Model AI Setengah Gigabyte Ini Menjalankan Agen Lokal di Ponsel Anda
openbmb-minicpm5-half-gigabyte-ai-model-local-agents-phone
Model AI Setengah Gigabyte Ini Menjalankan Agen Lokal di Ponsel Anda
Model 1B parameter OpenBMB menghadirkan dukungan MCP dan penggunaan alat agentik untuk AI di perangkat—tetapi memiliki masalah dengan jebakan logika.
2026-05-26 Sumber:decrypt.co

Singkatnya

  • MiniCPM5-1B mencetak rata-rata 42,57 dalam benchmark agen dan penalaran, mengalahkan pesaing kelas 1B terbaik berikutnya dengan skor 35,61.
  • Model ini mendukung MCP dan pemanggilan alat asli secara langsung, memungkinkan alur kerja agen lokal pada perangkat keras konsumen tanpa konektivitas cloud.
  • Dalam pengujian kami, model ini menunjukkan kefasihan percakapan yang kuat, tetapi menghasilkan respons rantai pemikiran yang berhalusinasi dan gagal dalam jebakan logika dasar.

MiniCPM5-1B, sebuah model satu miliar parameter dari OpenBMB, adalah rilisan terbaru dalam seri perangkat MiniCPM. Model ini mendukung pemanggilan alat asli dan Model Context Protocol (MCP), muat di memori smartphone, dan mengungguli setiap model open-source sekelasnya dalam benchmark.

Model ini adalah rilisan pertama dalam keluarga MiniCPM5, yang dirancang sejak awal untuk penerapan lokal pada perangkat keras dengan sumber daya terbatas. Dengan 1 miliar parameter, ukurannya kecil menurut standar saat ini. (Parameter adalah yang memberikan model AI keluasan pengetahuannya, dengan jumlah yang lebih besar umumnya berarti lebih kuat.)

Gemma 4 Google dimulai dengan 2 miliar parameter efektif tetapi dapat ditingkatkan hingga 31 miliar. Llama 4 Scout menjalankan 17 miliar parameter aktif. MiniCPM5-1B tidak berpura-pura bersaing dengan model-model tersebut. Keunggulannya adalah melakukan lebih banyak dengan lebih sedikit.

Bagaimana itu dibangun

Landasan arsitektur berasal dari MiniCPM4, dirinci dalam laporan teknis dari tim OpenBMB di THUNLP, Universitas Tsinghua, dan ModelBest. Inovasi intinya adalah InfLLM v2, mekanisme perhatian yang dapat dilatih yang memproses setiap token terhadap kurang dari 5% token di sekitarnya selama inferensi konteks panjang—mengurangi komputasi secara signifikan tanpa penurunan akurasi yang berarti. (“Token” adalah unit dasar informasi yang ditangani oleh model AI.)

Pada sisi data, tim membangun UltraClean, sebuah pipeline penyaringan yang mendapatkan model tersebut ke kinerja kompetitif menggunakan 8 triliun token pelatihan, dibandingkan dengan 36 triliun yang dikonsumsi Qwen 3. Pasca-pelatihan menggunakan pembelajaran penguatan (reinforcement learning) dikombinasikan dengan teknik distilasi efisien (menggunakan model yang lebih besar sebagai panduan untuk yang lebih kecil), meningkatkan skor benchmark pada matematika, kode, dan instruksi-berikutnya sebesar 16 poin sambil mengurangi respons yang terlalu panjang sebesar 29 poin persentase.

Jendela konteksnya mencapai 128K token — sekitar 96.000 kata teks berkelanjutan dalam satu lintasan. Untuk model 1 miliar parameter, itu adalah angka yang signifikan. Memori persisten di seluruh sesi roleplay yang panjang, ringkasan PDF lengkap, atau konteks agen yang tidak diatur ulang di tengah tugas, semuanya berada dalam jangkauan.

Mengapa agen "bodoh" mungkin sudah cukup

Kami mengujinya dan mengonfirmasi bahwa MiniCPM5-1B mendukung MCP dan pemanggilan alat. Ini menempatkannya dalam daftar yang sangat singkat model berparameter kurang dari 2 miliar yang mampu melakukan alur kerja agen nyata tanpa infrastruktur cloud.

Namun, agar ini berfungsi, pengguna perlu mengatur konfigurasi tambahan, semuanya terdaftar di repositori Github model.

Skenario praktis: agen lokal di iPhone yang dapat menanyakan kalender, mencari basis data lokal, atau memanggil server MCP riset web—sepenuhnya offline. Seperti yang telah kami bahas, menjalankan AI lokal sudah lebih mudah diakses daripada yang kebanyakan orang sadari, dan perlombaan perangkat on-device semakin cepat. Model yang dirancang untuk berjalan di ponsel tanpa backend cloud menjadi kategori produk yang nyata, bukan sekadar keingintahuan penelitian.

Anda tidak memerlukan OpenAI untuk memeriksa kalender jika agen lokal dapat mengambilnya dan memberi tahu Anda jadwal Anda hari ini.

Untuk tugas agen ringan dan konteks percakapan yang diperpanjang, MiniCPM5-1B kompetitif. Namun, meskipun OpenBMB mungkin tidak memikirkannya, gaya obrolan model membuatnya menjadi kandidat yang baik untuk roleplay lokal—konteks 128K berarti sebuah cerita dapat berkembang melalui puluhan, bahkan ratusan percakapan tanpa model kehilangan jejak.

Agen kecil yang membaca catatan, meringkas dokumen, dan menjawab pertanyaan tentangnya berada dalam jangkauannya, terutama bila dipasangkan dengan server riset MCP untuk menutupi celah pengetahuan.

Kompetisi pada skala ini meliputi Qwen3-0.6B dari Alibaba, Qwen3.5-0.8B, dan LFM2.5-1.2B-Thinking dari Liquid AI. Benchmark kemampuan OpenBMB sendiri membandingkan keempatnya di seluruh pengetahuan umum, pengetahuan domain, pengodean, mengikuti instruksi, penalaran matematika, penalaran logis, dan tugas agen. MiniCPM5-1B memimpin di ketujuh kategori, dengan margin paling menonjol dalam kinerja agen dan pengetahuan umum.

Tes Singkat

Kami melakukan tiga evaluasi singkat. Yang pertama adalah jebakan logika klasik: "Harap bertindak sebagai pengacara ahli dan legislator. Apakah sah bagi seorang pria untuk menikahi saudara perempuan jandanya menurut sistem hukum yang berlaku di Kepulauan Falkland?"

Jawaban yang benar sudah jelas—seorang pria yang memiliki janda berarti dia sudah meninggal, dan orang mati tidak menandatangani akta nikah. MiniCPM5-1B menghasilkan rincian lengkap hukum pernikahan Kepulauan Falkland dan sepenuhnya melewatkan jebakan tersebut, memperlakukannya sebagai pertanyaan yurisdiksi yang lugas.

“Sangat penting, Anda harus mengidentifikasi status pernikahan yang sebenarnya di Kepulauan Falkland. Ini adalah masalah fakta yang harus ditentukan oleh otoritas lokal atau melalui proses hukum,” respons model setelah penalaran yang panjang.

Tes kedua kami meminta pilihan A/B yang tegas. Model tidak memilih keduanya, berhati-hati dengan jawaban 'kedua-belah-pihak'. Ini adalah mode kegagalan yang dikenal di seluruh model kecil di bawah tekanan percakapan. MiniCPM5-1B tidak terkecuali.

Kami meminta model untuk memberi tahu industri mana yang akan mendominasi ekonomi pada tahun 2100: Kripto atau AI? Alih-alih bernalar tentang pertanyaan sama sekali, pemikiran internal model mulai menganalisis investasi mata uang kripto dan AI sebagai sinergis sejak awal.

Sejujurnya, tidak ada yang mengejutkan dari model 1B ini.

Kemampuan agen adalah cerita sebenarnya di sini. Pasangkan MiniCPM5-1B dengan server MCP untuk riset web dan kecenderungannya untuk berhalusinasi pada pertanyaan faktual yang tidak jelas akan hilang, atau setidaknya berkurang drastis.

Kami meminta model harga Bitcoin saat ini dan tiga rekomendasi saham, dan alat tersebut berhasil dipanggil, serta rekomendasinya (Amazon, Microsoft, dan Nvidia) masuk akal.

Kesimpulan

Agen yang ramah, dapat digunakan secara lokal, mampu memanggil alat, mempertahankan konteks 128K, dan berjalan sepenuhnya di perangkat adalah produk yang lebih menarik daripada model tanya jawab mandiri yang bersaing dengan GPT-4.

Namun, jangan batalkan langganan AI Anda karenanya. Ketahui apa yang Anda hadapi: Pengetahuannya buruk dibandingkan dengan model besar, ia akan membuat kode dengan buruk (lagi, dibandingkan dengan model yang lebih besar) dan tidak akan mendekati AGI, jika itu yang Anda cari.

MiniCPM5-1B sekarang tersedia di Hugging Face di bawah lisensi Apache 2.0, kompatibel dengan inferensi vLLM, SGLang, dan standar Transformers