openbmb-minicpm5-half-gigabyte-ai-model-local-agents-phone
Dieses Halb-Gigabyte KI-Modell führt lokale Agenten auf Ihrem Smartphone aus
OpenBMBs 1-Milliarde-Parameter-Modell bringt MCP-Unterstützung und agentische Werkzeugnutzung für On-Device-KI — es hat jedoch Schwierigkeiten mit Logikfallen.
2026-05-26 Quelle:decrypt.co

Kurz gesagt

  • MiniCPM5-1B erreicht einen Durchschnittswert von 42,57 in Agenten- und Reasoning-Benchmarks und übertrifft damit den nächstbesten Konkurrenten der 1B-Klasse mit 35,61.
  • Das Modell unterstützt MCP und nativen Tool-Aufruf „out of the box“, was lokale Agenten-Workflows auf Consumer-Hardware ohne Cloud-Konnektivität ermöglicht.
  • In unseren Tests zeigte das Modell eine starke Konversationsflüssigkeit, produzierte jedoch eine halluzinierte Gedankenkette und scheiterte an einer grundlegenden Logikfalle.

MiniCPM5-1B, ein Ein-Milliarden-Parameter-Modell von OpenBMB, ist die neueste Veröffentlichung in der MiniCPM On-Device-Serie. Es unterstützt native Tool-Aufrufe und das Model Context Protocol (MCP), passt in den Speicher eines Smartphones und schneidet in Benchmarks besser ab als jedes vergleichbare Open-Source-Modell seiner Größenklasse.

Das Modell ist die erste Veröffentlichung in der MiniCPM5-Familie, die von Anfang an für die lokale Bereitstellung auf ressourcenbeschränkter Hardware konzipiert wurde. Mit 1 Milliarde Parametern ist es nach aktuellen Maßstäben klein. (Parameter verleihen einem KI-Modell seine Wissensbreite, wobei eine größere Anzahl im Allgemeinen bedeutet, dass es leistungsfähiger ist.)

Googles Gemma 4 beginnt bei 2 Milliarden effektiven Parametern, skaliert aber auf 31 Milliarden. Llama 4 Scout läuft mit 17 Milliarden aktiven Parametern. MiniCPM5-1B erhebt keinen Anspruch darauf, mit diesen zu konkurrieren. Sein Anliegen ist es, mit weniger mehr zu erreichen.

Wie es entwickelt wurde

Die architektonische Grundlage bildet MiniCPM4, das in einem technischen Bericht des OpenBMB-Teams von THUNLP, Tsinghua University und ModelBest detailliert beschrieben wird. Die Kerninnovation ist InfLLM v2, ein trainierbarer Aufmerksamkeitsmechanismus, der jedes Token während der Langkontext-Inferenz mit weniger als 5 % der umgebenden Tokens verarbeitet – dies reduziert die Rechenleistung erheblich ohne einen signifikanten Genauigkeitsverlust. (Ein „Token“ ist die grundlegende Informationseinheit, die von einem KI-Modell verarbeitet wird.)

Auf der Datenseite baute das Team UltraClean auf, eine Filterpipeline, die dem Modell mit 8 Billionen Trainings-Tokens eine wettbewerbsfähige Leistung ermöglichte, verglichen mit den 36 Billionen, die Qwen 3 verbrauchte. Das Post-Training nutzte Reinforcement Learning in Kombination mit effizienten Destillationstechniken (wobei ein größeres Modell als Leitfaden für ein kleineres diente), wodurch die Benchmark-Ergebnisse in Mathematik, Code und Befolgung von Anweisungen um 16 Punkte verbessert und gleichzeitig die übermäßig langen Antworten um 29 Prozentpunkte reduziert wurden.

Das Kontextfenster umfasst 128K Tokens – das sind ungefähr 96.000 Wörter fortlaufenden Textes in einem einzigen Durchlauf. Für ein Modell mit 1 Milliarde Parametern ist das eine beachtliche Zahl. Persistenter Speicher über eine lange Rollenspielsitzung, eine vollständige PDF-Zusammenfassung oder ein Agentenkontext, der sich nicht mitten in der Aufgabe zurücksetzt, sind alle im Bereich des Möglichen.

Warum ein „dummer“ Agent ausreichen kann

Wir haben es getestet und bestätigt, dass MiniCPM5-1B MCP und Tool-Aufrufe unterstützt. Das macht es zu einem der wenigen Modelle mit unter 2 Milliarden Parametern, die in der Lage sind, echte Agenten-Workflows ohne Cloud-Infrastruktur auszuführen.

Damit dies funktioniert, müssen Benutzer jedoch zusätzliche Konfigurationen einrichten, die alle im Github-Repo des Modells aufgeführt sind.

Das praktische Szenario: Ein lokaler Agent auf einem iPhone, der einen Kalender abfragen, eine lokale Datenbank durchsuchen oder einen Web-Recherche-MCP-Server aufrufen kann – komplett offline. Wie wir bereits berichtet haben, ist lokale KI bereits zugänglicher, als die meisten Leute denken, und das Rennen um On-Device-Lösungen hat sich beschleunigt. Modelle, die auf einem Telefon ohne Cloud-Backend laufen, entwickeln sich zu einer echten Produktkategorie, nicht zu einer Forschungsneugier.

Sie brauchen OpenAI nicht, um Ihren Kalender zu überprüfen, wenn ein lokaler Agent ihn einfach abrufen und Ihnen mitteilen kann, was heute auf Ihrem Terminplan steht.

Für leichte Agentenaufgaben und erweiterte Gesprächskontexte ist MiniCPM5-1B konkurrenzfähig. Obwohl OpenBMB vielleicht nicht daran gedacht hat, macht der gesprächige Stil des Modells es zu einem guten Kandidaten für lokales Rollenspiel – 128K Kontext bedeuten, dass sich eine Geschichte über Dutzende, wenn nicht Hunderte von Interaktionen entwickeln kann, ohne dass das Modell den Faden verliert.

Kleine Agenten, die Notizen lesen, Dokumente zusammenfassen und Fragen dazu beantworten, liegen bequem in seinem Bereich, insbesondere in Kombination mit einem MCP-Rechercheserver, um Wissenslücken zu schließen.

Die Konkurrenz in dieser Größenordnung umfasst Alibabas Qwen3-0.6B, Qwen3.5-0.8B und Liquid AIs LFM2.5-1.2B-Thinking. OpenBMBs eigener Leistungsbenchmark vergleicht alle vier in den Bereichen Allgemeinwissen, Fachwissen, Codierung, Anweisungsbefolgung, mathematisches Denken, logisches Denken und Agentenaufgaben. MiniCPM5-1B führt in allen sieben Kategorien, mit den deutlichsten Vorsprüngen bei der Agentenleistung und dem Allgemeinwissen.

Schnelle Tests

Wir führten drei schnelle Evaluierungen durch. Die erste war eine klassische Logikfalle: „Bitte agieren Sie als erfahrener Anwalt und Gesetzgeber. Ist es nach dem Rechtssystem der Falklandinseln legal, dass ein Mann die Schwester seiner Witwe heiratet?“

Die richtige Antwort ist offensichtlich – ein Mann mit einer Witwe ist tot, und Tote unterschreiben keine Heiratsurkunden. MiniCPM5-1B lieferte eine detaillierte Analyse des Ehegesetzes der Falklandinseln und übersah die Falle völlig, indem es sie als eine einfache Jurisdiktionsfrage behandelte.

„Entscheidend ist, dass Sie den tatsächlichen Ehestatus auf den Falklandinseln ermitteln müssen. Dies ist eine Tatsachenfrage, die von lokalen Behörden oder durch ein rechtliches Verfahren geklärt werden sollte“, antwortete das Modell nach einer langen Argumentation.

Unser zweiter Test fragte nach einer entscheidenden A/B-Wahl. Das Modell wählte keines von beiden und wich auf eine „Sowohl-als-auch“-Antwort aus. Dies ist ein bekannter Fehler kleinerer Modelle unter Konversationsdruck. MiniCPM5-1B bildet da keine Ausnahme.

Wir fragten das Modell, welche Branche im Jahr 2100 die Wirtschaft dominieren würde: Krypto oder KI? Anstatt die Frage überhaupt zu begründen, begann das interne Denken des Modells, Kryptowährungen und KI-Investitionen von Grund auf als synergetisch zu analysieren.

Fairerweise ist dies alles nicht überraschend für ein 1B-Modell.

Die Agentenfunktionen sind hier die eigentliche Geschichte. Kombiniert man MiniCPM5-1B mit einem MCP-Server für die Webrecherche, verschwindet seine Tendenz zur Halluzination bei obskuren Sachfragen, oder nimmt zumindest stark ab.

Wir fragten das Modell nach dem aktuellen Preis von Bitcoin und drei Aktienempfehlungen, und das Tool wurde erfolgreich aufgerufen, und die Empfehlungen (Amazon, Microsoft und Nvidia) waren sinnvoll.

Fazit

Ein gesprächiger, lokal einsetzbarer Agent, der Tools aufrufen, 128K Kontext speichern und vollständig auf dem Gerät laufen kann, ist ein interessanteres Produkt als ein eigenständiges Frage-Antwort-Modell, das mit GPT-4 konkurriert.

Kündigen Sie deswegen aber nicht Ihr KI-Abonnement. Seien Sie sich bewusst, womit Sie es zu tun haben: Es verfügt über ein im Vergleich zu großen Modellen schlechtes Wissen, es wird schlecht codieren (wiederum im Vergleich zu größeren Modellen) und wird der AGI nicht annähernd nahekommen, falls Sie danach suchen.

MiniCPM5-1B ist jetzt auf Hugging Face unter einer Apache 2.0-Lizenz verfügbar, kompatibel mit vLLM, SGLang und standardmäßiger Transformers-Inferenz.