
MiniCPM5-1B, un modèle d'un milliard de paramètres d'OpenBMB, est la dernière version de la série MiniCPM embarquée. Il prend en charge l'appel d'outils natif et le protocole MCP (Model Context Protocol), tient dans la mémoire d'un smartphone et surpasse tous les modèles open-source comparables de sa catégorie en matière de performances.
Le modèle est la première version de la famille MiniCPM5, conçue dès le départ pour un déploiement local sur du matériel aux ressources limitées. Avec 1 milliard de paramètres, il est petit selon les normes actuelles. (Les paramètres donnent à un modèle d'IA son étendue de connaissances, un nombre plus élevé signifiant généralement qu'il est plus puissant.)
Le Gemma 4 de Google commence à 2 milliards de paramètres effectifs mais peut atteindre 31 milliards. Llama 4 Scout utilise 17 milliards de paramètres actifs. MiniCPM5-1B ne prétend pas rivaliser avec ceux-ci. Son objectif est de faire plus avec moins.
La structure architecturale provient de MiniCPM4, détaillée dans un rapport technique de l'équipe OpenBMB du THUNLP, de l'Université Tsinghua et de ModelBest. L'innovation majeure est InfLLM v2, un mécanisme d'attention entraînable qui traite chaque token par rapport à moins de 5% des tokens environnants lors de l'inférence à long contexte — réduisant considérablement le calcul sans perte significative de précision. (Un « token » est l'unité d'information de base gérée par un modèle d'IA.)
Côté données, l'équipe a construit UltraClean, un pipeline de filtrage qui a permis au modèle d'atteindre des performances compétitives en utilisant 8 trillions de tokens d'entraînement, comparé aux 36 trillions consommés par Qwen 3. L'entraînement post-modèle a utilisé l'apprentissage par renforcement combiné à des techniques de distillation efficaces (utilisant un modèle plus grand comme guide pour un plus petit), augmentant les scores de référence en mathématiques, code et suivi d'instructions de 16 points tout en réduisant de 29 points de pourcentage les réponses de longueur excessive.
La fenêtre contextuelle est de 128K tokens — soit environ 96 000 mots de texte continu en un seul passage. Pour un modèle à 1 milliard de paramètres, c'est un chiffre significatif. La mémoire persistante sur une longue session de jeu de rôle, un résumé complet de PDF, ou un contexte d'agent qui ne se réinitialise pas en milieu de tâche sont tous envisageables.
Nous l'avons testé et avons confirmé que MiniCPM5-1B prend en charge le MCP et les appels d'outils. Cela le place sur une liste très courte de modèles de moins de 2 milliards de paramètres capables de véritables flux de travail d'agentique sans infrastructure cloud.
Cela dit, pour que cela fonctionne, les utilisateurs devront configurer des paramètres supplémentaires, tous listés dans le dépôt Github du modèle.
Le scénario pratique : un agent local sur un iPhone capable de consulter un calendrier, de rechercher dans une base de données locale ou d'appeler un serveur MCP de recherche web — entièrement hors ligne. Comme nous l'avons déjà mentionné, l'exécution d'IA locale est déjà plus accessible que la plupart des gens ne le pensent, et la course aux appareils embarqués s'accélère. Les modèles conçus pour fonctionner sur un téléphone sans backend cloud deviennent une véritable catégorie de produits, et non plus une curiosité de recherche.
Vous n'avez pas besoin d'OpenAI pour vérifier votre calendrier si un agent local peut simplement le récupérer et vous dire ce qui est au programme pour aujourd'hui.
Pour les tâches d'agentique légères et les contextes de conversation étendus, MiniCPM5-1B est compétitif. Cependant, même si OpenBMB n'y a peut-être pas pensé, le style bavard du modèle en fait un bon candidat pour le jeu de rôle local — 128K de contexte signifie qu'une histoire peut se développer sur des dizaines, voire des centaines d'échanges sans que le modèle ne perde le fil.
Les petits agents qui lisent des notes, résument des documents et répondent à des questions les concernant sont confortablement à sa portée, surtout lorsqu'ils sont associés à un serveur de recherche MCP pour couvrir les lacunes de connaissances.
La concurrence à cette échelle comprend Qwen3-0.6B d'Alibaba, Qwen3.5-0.8B et LFM2.5-1.2B-Thinking de Liquid AI. Le propre banc d'essai d'OpenBMB compare les quatre dans les catégories suivantes : connaissances générales, connaissances spécifiques à un domaine, codage, suivi d'instructions, raisonnement mathématique, raisonnement logique et tâches d'agentique. MiniCPM5-1B est en tête dans les sept catégories, avec les marges les plus prononcées en performance d'agentique et en connaissances générales.
Nous avons effectué trois évaluations rapides. La première était un piège logique classique : "Veuillez agir en tant qu'avocat expert et législateur. Est-il légal pour un homme d'épouser la sœur de sa veuve selon le système juridique qui régit les îles Falkland ?"
La bonne réponse est évidente : un homme avec une veuve est mort, et les morts ne signent pas de certificats de mariage. MiniCPM5-1B a produit une analyse détaillée du droit matrimonial des îles Falkland et a complètement manqué le piège, le traitant comme une simple question de juridiction.
« De manière cruciale, vous devez identifier le statut matrimonial réel dans les îles Falkland. Il s'agit d'une question de fait qui devrait être déterminée par les autorités locales ou par un processus juridique », a répondu le modèle après un long raisonnement.
Notre deuxième test demandait un choix A/B décisif. Le modèle n'a choisi aucun des deux, se couvrant en donnant une réponse qui tenait des deux côtés. C'est un mode de défaillance connu chez les petits modèles sous pression conversationnelle. MiniCPM5-1B ne fait pas exception.
Nous avons demandé au modèle quelle industrie dominerait l'économie en 2100 : la Crypto ou l'IA ? Plutôt que de raisonner sur la question, la pensée interne du modèle a commencé à analyser l'investissement en cryptomonnaie et en IA comme synergiques dès le départ.
En toute honnêteté, rien de tout cela n'est surprenant pour un modèle de 1B.
Les capacités d'agentique sont la véritable histoire ici. Associez MiniCPM5-1B à un serveur MCP pour la recherche web et sa tendance à halluciner sur des questions factuelles obscures disparaît, ou du moins diminue considérablement.
Nous avons demandé au modèle le prix actuel du bitcoin et trois recommandations boursières, et l'outil a été appelé avec succès, et les recommandations (Amazon, Microsoft et Nvidia) avaient du sens.
Un agent bavard, déployable localement, capable d'appeler des outils, de gérer 128K de contexte et de fonctionner entièrement sur l'appareil est un produit plus intéressant qu'un modèle autonome de questions-réponses rivalisant avec GPT-4.
Ne résiliez pas votre abonnement à l'IA pour autant. Sachez à quoi vous avez affaire : il possède des connaissances médiocres par rapport aux grands modèles, il codera mal (encore une fois, par rapport aux plus grands modèles) et il ne sera pas du tout proche de l'AGI, si c'est ce que vous recherchez.
MiniCPM5-1B est disponible dès maintenant sur Hugging Face sous une licence Apache 2.0, compatible avec vLLM, SGLang et l'inférence standard des Transformers.