
MiniCPM5-1B, un modelo de mil millones de parámetros de OpenBMB, es el último lanzamiento de la serie MiniCPM on-device. Soporta llamadas a herramientas nativas y el Protocolo de Contexto del Modelo (MCP), cabe en la memoria de un smartphone y supera a todos los modelos de código abierto comparables de su clase en los benchmarks.
El modelo es el primer lanzamiento de la familia MiniCPM5, diseñado desde el principio para despliegue local en hardware con recursos limitados. Con mil millones de parámetros, es pequeño para cualquier estándar actual. (Los parámetros son lo que le dan a un modelo de IA su amplitud de conocimiento, y un mayor número generalmente significa que es más potente.)
Gemma 4 de Google comienza con 2 mil millones de parámetros efectivos, pero escala hasta 31 mil millones. Llama 4 Scout ejecuta 17 mil millones de parámetros activos. MiniCPM5-1B no pretende competir con ellos. Su propuesta es hacer más con menos.
La base arquitectónica proviene de MiniCPM4, detallada en un informe técnico del equipo de OpenBMB en THUNLP, la Universidad de Tsinghua, y ModelBest. La innovación central es InfLLM v2, un mecanismo de atención entrenable que procesa cada token contra menos del 5% de los tokens circundantes durante la inferencia de contexto largo, reduciendo sustancialmente el cálculo sin una caída significativa de la precisión. (Un “token” es la unidad básica de información manejada por un modelo de IA.)
En cuanto a los datos, el equipo construyó UltraClean, un pipeline de filtrado que llevó al modelo a un rendimiento competitivo utilizando 8 billones de tokens de entrenamiento, en comparación con los 36 billones que consumió Qwen 3. El post-entrenamiento utilizó aprendizaje por refuerzo combinado con técnicas de destilación eficientes (usando un modelo más grande como guía para uno más pequeño), elevando las puntuaciones de referencia en matemáticas, código y seguimiento de instrucciones en 16 puntos, mientras que redujo las respuestas de longitud excesiva en 29 puntos porcentuales.
La ventana de contexto se sitúa en 128K tokens, aproximadamente 96.000 palabras de texto continuo en una sola pasada. Para un modelo de mil millones de parámetros, es un número significativo. La memoria persistente a lo largo de una larga sesión de rol, un resumen completo de un PDF, o un contexto de agente que no se reinicia a mitad de tarea, están todos dentro de su alcance.
Lo probamos y confirmamos que MiniCPM5-1B soporta MCP y llamadas a herramientas. Esto lo coloca en una lista muy corta de modelos de menos de 2 mil millones de parámetros capaces de flujos de trabajo de agente reales sin infraestructura en la nube.
Dicho esto, para que esto funcione, los usuarios deberán configurar ajustes adicionales, todos listados en el repositorio de Github del modelo.
El escenario práctico: un agente local en un iPhone que puede consultar un calendario, buscar en una base de datos local o llamar a un servidor MCP de investigación web, todo ello sin conexión. Como hemos comentado, ejecutar IA local ya es más accesible de lo que la mayoría de la gente cree, y la carrera por los dispositivos está acelerándose. Los modelos diseñados para funcionar en un teléfono sin un backend en la nube se están convirtiendo en una categoría de producto genuina, no en una curiosidad de investigación.
No necesitas OpenAI para revisar tu calendario si un agente local puede simplemente obtenerlo y decirte lo que tienes en tu agenda para hoy.
Para tareas de agente ligeras y contextos de conversación extendidos, MiniCPM5-1B es competitivo. Sin embargo, aunque OpenBMB quizás no lo haya pensado, el estilo conversador del modelo lo convierte en un buen candidato para el roleplay local: 128K de contexto significa que una historia puede desarrollarse a lo largo de docenas, si no cientos, de intercambios sin que el modelo pierda el hilo.
Los agentes pequeños que leen notas, resumen documentos y responden preguntas sobre ellos están cómodamente dentro de su rango, especialmente cuando se combinan con un servidor de investigación MCP para cubrir lagunas de conocimiento.
La competencia a esta escala incluye Qwen3-0.6B de Alibaba, Qwen3.5-0.8B y LFM2.5-1.2B-Thinking de Liquid AI. El propio benchmark de capacidades de OpenBMB compara los cuatro en conocimiento general, conocimiento de dominio, codificación, seguimiento de instrucciones, razonamiento matemático, razonamiento lógico y tareas de agente. MiniCPM5-1B lidera en las siete categorías, con los márgenes más pronunciados en rendimiento de agente y conocimiento general.
Realizamos tres evaluaciones rápidas. La primera fue una trampa lógica clásica: "Por favor, actúe como un abogado y legislador experto. ¿Es legal que un hombre se case con la hermana de su viuda según el sistema legal que rige las Islas Malvinas?"
La respuesta correcta es obvia: un hombre con viuda está muerto, y los hombres muertos no firman certificados de matrimonio. MiniCPM5-1B produjo un desglose detallado de la legislación matrimonial de las Islas Malvinas y pasó por alto completamente la trampa, tratándola como una cuestión jurisdiccional sencilla.
“Crucialmente, debe identificar el estado matrimonial real en las Islas Malvinas. Este es un asunto de hecho que debe ser determinado por las autoridades locales o a través de un proceso legal”, respondió el modelo después de un largo razonamiento.
Nuestra segunda prueba pedía una elección A/B decisiva. El modelo no eligió ninguna, optando por una respuesta ambigua. Este es un modo de fallo conocido en modelos pequeños bajo presión conversacional. MiniCPM5-1B no es una excepción.
Le preguntamos al modelo qué industria dominaría la economía en el año 2100: ¿Cripto o IA? En lugar de razonar sobre la pregunta, el pensamiento interno del modelo comenzó a analizar las criptomonedas y la inversión en IA como sinérgicas desde cero.
Para ser justos, nada de esto es sorprendente para un modelo de 1B.
Las capacidades de agente son la verdadera historia aquí. Emparejar MiniCPM5-1B con un servidor MCP para la investigación web hace que su tendencia a alucinar sobre preguntas factuales oscuras desaparezca, o al menos disminuya considerablemente.
Le pedimos al modelo el precio actual de Bitcoin y tres recomendaciones de acciones, y la herramienta fue llamada con éxito, y las recomendaciones (Amazon, Microsoft y Nvidia) tuvieron sentido.
Un agente conversador, desplegable localmente, que puede llamar a herramientas, mantener 128K de contexto y ejecutarse completamente en el dispositivo es un producto más interesante que un modelo autónomo de preguntas y respuestas que compita con GPT-4.
Pero no canceles tu suscripción de IA por ello. Ten claro con qué estás tratando: Tiene poco conocimiento en comparación con modelos grandes, codificará mal (de nuevo, en comparación con modelos más grandes) y no estará ni cerca de la IGA, si eso es lo que buscas.
MiniCPM5-1B ya está disponible en Hugging Face bajo una licencia Apache 2.0, compatible con vLLM, SGLang y la inferencia estándar de Transformers.