
MiniCPM5-1B, een model met één miljard parameters van OpenBMB, is de nieuwste release in de MiniCPM on-device serie. Het ondersteunt native tool calling en het Model Context Protocol (MCP), past in het geheugen van een smartphone en presteert beter dan elk vergelijkbaar open-source model in zijn grootteklasse.
Het model is de eerste release in de MiniCPM5-familie, vanaf het begin ontworpen voor lokale implementatie op hardware met beperkte middelen. Met 1 miljard parameters is het klein naar elke huidige standaard. (Parameters zijn wat een AI-model zijn kennisbreedte geeft, waarbij een groter aantal over het algemeen betekent dat het krachtiger is.)
Google's Gemma 4 begint bij 2 miljard effectieve parameters, maar schaalt tot 31 miljard. Llama 4 Scout draait op 17 miljard actieve parameters. MiniCPM5-1B pretendeert niet daarmee te concurreren. Zijn verkooppraatje is 'meer doen met minder'.
De architectonische ruggengraat komt van MiniCPM4, gedetailleerd in een technisch rapport van het OpenBMB-team van THUNLP, Tsinghua University en ModelBest. De kerninnovatie is InfLLM v2, een trainbaar aandachtmechanisme dat elke token verwerkt tegen minder dan 5% van de omringende tokens tijdens lange-context inferentie – waardoor de computationele belasting aanzienlijk wordt verminderd zonder een significante daling in nauwkeurigheid. (Een 'token' is de basiseenheid van informatie die door een AI-model wordt verwerkt.)
Wat de gegevens betreft, bouwde het team UltraClean, een filteringspijplijn die het model tot concurrerende prestaties bracht met behulp van 8 biljoen trainingstokens, vergeleken met de 36 biljoen die Qwen 3 verbruikte. Na de training werd reinforcement learning gecombineerd met efficiënte destillatietechnieken (waarbij een groter model als leidraad voor het kleinere werd gebruikt), waardoor benchmarkscores voor wiskunde, code en instructie-opvolging met 16 punten stegen, terwijl te lange antwoorden met 29 procentpunten werden teruggedrongen.
Het contextvenster omvat 128K tokens — ongeveer 96.000 woorden ononderbroken tekst in één keer. Voor een model met 1 miljard parameters is dat een significant aantal. Permanent geheugen over een lange rollenspelsessie, een volledige PDF-samenvatting, of een agent-context die niet halverwege de taak wordt gereset, vallen allemaal binnen het bereik.
We hebben het getest en bevestigd dat MiniCPM5-1B MCP en tool calls ondersteunt. Dat plaatst het op een zeer korte lijst van modellen met minder dan 2 miljard parameters die in staat zijn tot echte agentic workflows zonder cloudinfrastructuur.
Dat gezegd hebbende, om dit te laten werken, moeten gebruikers extra configuraties instellen, allemaal vermeld in de Github-repository van het model.
Het praktische scenario: een lokale agent op een iPhone die een kalender kan raadplegen, een lokale database kan doorzoeken, of een webonderzoek-MCP-server kan aanroepen — volledig offline. Zoals we hebben behandeld, is het draaien van lokale AI al toegankelijker dan de meeste mensen beseffen, en de on-device race is versneld. Modellen die zijn ontworpen om op een telefoon te draaien zonder cloud-backend worden een echte productcategorie, geen onderzoekscuriositeit.
Je hebt geen OpenAI nodig om je agenda te controleren als een lokale agent het gewoon kan ophalen en je kan vertellen wat er vandaag op je planning staat.
Voor lichte agent-taken en uitgebreide gesprekscontexten is MiniCPM5-1B concurrerend. Echter, hoewel OpenBMB er misschien niet aan gedacht heeft, maakt de praatgrage stijl van het model het een goede kandidaat voor lokaal rollenspel — 128K context betekent dat een verhaal zich kan ontwikkelen over tientallen, zo niet honderden uitwisselingen zonder dat het model de draad kwijtraakt.
Kleine agents die notities lezen, documenten samenvatten en er vragen over beantwoorden, vallen comfortabel binnen zijn bereik, vooral wanneer ze worden gekoppeld aan een MCP-onderzoeksserver om kennishiaten op te vullen.
De concurrentie op deze schaal omvat Alibaba's Qwen3-0.6B, Qwen3.5-0.8B en Liquid AI's LFM2.5-1.2B-Thinking. OpenBMB's eigen capaciteitsbenchmark vergelijkt alle vier modellen op algemene kennis, domeinkennis, coderen, instructie-opvolging, wiskundige redenering, logische redenering en agent-taken. MiniCPM5-1B leidt in alle zeven categorieën, met de meest uitgesproken marges in agent-prestaties en algemene kennis.
We voerden drie snelle evaluaties uit. De eerste was een klassieke logische valkuil: "Gelieve op te treden als een deskundige advocaat en wetgever. Is het legaal voor een man om met de zus van zijn weduwe te trouwen volgens het rechtssysteem dat de Falklandeilanden regeert?"
Het juiste antwoord is duidelijk — een man met een weduwe is dood, en dode mannen ondertekenen geen huwelijksakten. MiniCPM5-1B produceerde een gedetailleerde analyse van het huwelijksrecht van de Falklandeilanden en miste de valkuil volledig, door het als een eenvoudige juridische vraag te behandelen.
“Cruciaal is dat u de feitelijke huwelijksstatus op de Falklandeilanden moet vaststellen. Dit is een feitelijke kwestie die moet worden bepaald door lokale autoriteiten of via een juridisch proces,” antwoordde het model na een lange redenering.
Onze tweede test vroeg om een doorslaggevende A/B-keuze. Het model koos geen van beide, maar week uit naar een 'beide kanten'-antwoord. Dit is een bekende faalmodus bij kleine modellen onder conversatiedruk. MiniCPM5-1B is geen uitzondering.
We vroegen het model welke industrie de economie zou domineren in het jaar 2100: Crypto of AI? In plaats van over de vraag te redeneren, begon de interne gedachte van het model met het analyseren van cryptocurrency- en AI-investeringen als synergetisch.
Eerlijk gezegd is dit allemaal niet verrassend voor een 1B-model.
De agent-mogelijkheden zijn hier het eigenlijke verhaal. Koppel MiniCPM5-1B aan een MCP-server voor webonderzoek en de neiging om te hallucineren bij obscure feitelijke vragen verdwijnt, of neemt op zijn minst sterk af.
We vroegen het model naar de prijs van bitcoin op dit moment en drie aandelenaanbevelingen, en de tool werd succesvol aangeroepen, en de aanbevelingen (Amazon, Microsoft en Nvidia) waren logisch.
Een praatgrage, lokaal inzetbare agent die tools kan aanroepen, 128K context kan vasthouden en volledig on-device kan draaien, is een interessanter product dan een op zichzelf staand vraag-antwoordmodel dat concurreert met GPT-4.
Zeg er alleen je AI-abonnement niet voor op. Weet waar je mee te maken hebt: het heeft weinig kennis vergeleken met grote modellen, het zal slecht coderen (nogmaals, vergeleken met grotere modellen) en het zal nergens in de buurt komen van AGI, als dat is wat je zoekt.
MiniCPM5-1B is nu beschikbaar op Hugging Face onder een Apache 2.0-licentie, compatibel met vLLM, SGLang en standaard Transformers inferentie.