
MiniCPM5-1B, model z miliardem parametrów od OpenBMB, to najnowsze wydanie z serii MiniCPM przeznaczonej dla urządzeń. Obsługuje natywne wywoływanie narzędzi oraz Model Context Protocol (MCP), mieści się w pamięci smartfona i wyprzedza wszystkie porównywalne modele open-source w swojej klasie rozmiarowej w testach porównawczych.
Model jest pierwszym wydaniem z rodziny MiniCPM5, zaprojektowanym od podstaw do lokalnego wdrożenia na sprzęcie o ograniczonych zasobach. Przy 1 miliardzie parametrów jest on mały w porównaniu do obecnych standardów. (Parametry to to, co nadaje modelowi AI zakres wiedzy, przy czym większa liczba generalnie oznacza większą moc.)
Gemma 4 Google'a zaczyna się od 2 miliardów efektywnych parametrów, ale skaluje się do 31 miliardów. Llama 4 Scout używa 17 miliardów aktywnych parametrów. MiniCPM5-1B nie udaje, że konkuruje z nimi. Jego atutem jest robienie więcej mniejszymi środkami.
Architektoniczne fundamenty pochodzą z MiniCPM4, szczegółowo opisanego w raporcie technicznym zespołu OpenBMB z THUNLP, Uniwersytetu Tsinghua i ModelBest. Kluczową innowacją jest InfLLM v2, trenowalny mechanizm uwagi, który przetwarza każdy token w odniesieniu do mniej niż 5% otaczających tokenów podczas wnioskowania z długim kontekstem – znacznie redukując obliczenia bez znaczącego spadku dokładności. („Token” to podstawowa jednostka informacji przetwarzana przez model AI).
Jeśli chodzi o dane, zespół zbudował UltraClean, potok filtrowania, który pozwolił modelowi osiągnąć konkurencyjne wyniki, wykorzystując 8 bilionów tokenów szkoleniowych, w porównaniu do 36 bilionów zużytych przez Qwen 3. Post-szkolenie wykorzystywało uczenie wzmacniające w połączeniu z efektywnymi technikami destylacji (użycie większego modelu jako przewodnika dla mniejszego), podnosząc wyniki w testach z matematyki, kodowania i wykonywania instrukcji o 16 punktów, jednocześnie redukując odpowiedzi o nadmiernej długości o 29 punktów procentowych.
Okno kontekstu wynosi 128 tys. tokenów — to około 96 000 słów ciągłego tekstu w jednym przebiegu. Dla modelu z miliardem parametrów to znacząca liczba. Trwała pamięć podczas długiej sesji odgrywania ról, pełne streszczenie PDF-a lub kontekst agenta, który nie resetuje się w trakcie zadania, wszystko to jest w jego zasięgu.
Przeprowadziliśmy testy i potwierdziliśmy, że MiniCPM5-1B obsługuje MCP oraz wywołania narzędzi. To plasuje go na bardzo krótkiej liście modeli poniżej 2 miliardów parametrów, zdolnych do prawdziwych przepływów pracy agentów bez infrastruktury chmurowej.
Mimo to, aby to działało, użytkownicy będą musieli skonfigurować dodatkowe ustawienia, wszystkie wymienione w repozytorium GitHub modelu.
Praktyczny scenariusz: lokalny agent na iPhone'ie, który może odpytywać kalendarz, przeszukiwać lokalną bazę danych lub wywoływać serwer MCP do badań internetowych – całkowicie offline. Jak już pisaliśmy, uruchamianie lokalnej AI jest już bardziej dostępne, niż większość ludzi zdaje sobie sprawę, a wyścig na urządzeniach przyspiesza. Modele zaprojektowane do działania na telefonie bez zaplecza chmurowego stają się prawdziwą kategorią produktów, a nie ciekawostką badawczą.
Nie potrzebujesz OpenAI, aby sprawdzić swój kalendarz, jeśli lokalny agent może po prostu go pobrać i powiedzieć, co masz w planach na dziś.
W przypadku lekkich zadań agentowych i rozszerzonych kontekstów rozmów, MiniCPM5-1B jest konkurencyjny. Jednakże, mimo że OpenBMB być może o tym nie pomyślało, gadatliwy styl modelu czyni go dobrym kandydatem do lokalnego odgrywania ról — 128 tysięcy kontekstu oznacza, że historia może rozwijać się przez dziesiątki, jeśli nie setki wymian, bez utraty wątku przez model.
Małe agenty, które czytają notatki, podsumowują dokumenty i odpowiadają na pytania dotyczące nich, są w jego zasięgu, zwłaszcza gdy są sparowane z serwerem badawczym MCP w celu uzupełnienia luk w wiedzy.
Konkurencja w tej skali obejmuje Qwen3-0.6B Alibaba, Qwen3.5-0.8B oraz LFM2.5-1.2B-Thinking Liquid AI. Własny test porównawczy OpenBMB porównuje wszystkie cztery w zakresie wiedzy ogólnej, wiedzy dziedzinowej, kodowania, wykonywania instrukcji, rozumowania matematycznego, rozumowania logicznego i zadań agentowych. MiniCPM5-1B przewodzi we wszystkich siedmiu kategoriach, z najbardziej wyraźnymi różnicami w wydajności agentowej i wiedzy ogólnej.
Przeprowadziliśmy trzy szybkie oceny. Pierwszą była klasyczna pułapka logiczna: „Proszę wcielić się w rolę eksperta prawnika i legislator. Czy w świetle systemu prawnego rządzącego Falklandami mężczyzna może poślubić siostrę swojej wdowy?”
Prawidłowa odpowiedź jest oczywista – mężczyzna, który ma wdowę, jest martwy, a umarli nie podpisują aktów małżeństwa. MiniCPM5-1B przedstawił szczegółową analizę prawa małżeńskiego Falklandów i całkowicie ominął pułapkę, traktując pytanie jako proste zapytanie jurysdykcyjne.
„Co najważniejsze, musisz określić rzeczywisty status małżeński na Falklandach. Jest to kwestia faktów, która powinna być ustalona przez lokalne władze lub w drodze procesu prawnego” — odpowiedział model po długim rozumowaniu.
Nasz drugi test dotyczył zdecydowanego wyboru A/B. Model nie wybrał żadnego, unikając odpowiedzi na obie strony. Jest to znany tryb awarii w małych modelach pod presją konwersacyjną. MiniCPM5-1B nie jest wyjątkiem.
Poprosiliśmy model, aby powiedział nam, która branża zdominuje gospodarkę w roku 2100: Krypto czy AI? Zamiast w ogóle rozważać to pytanie, wewnętrzne myślenie modelu zaczęło analizować inwestycje w kryptowaluty i AI jako synergiczne od podstaw.
Uczciwie trzeba przyznać, że nic z tego nie jest zaskakujące dla modelu 1B.
Możliwości agentowe to prawdziwa historia. Sparuj MiniCPM5-1B z serwerem MCP do badań internetowych, a jego tendencja do halucynacji w przypadku niejasnych pytań faktograficznych zanika, a przynajmniej znacznie się zmniejsza.
Poprosiliśmy model o aktualną cenę Bitcoina i trzy rekomendacje akcji, a narzędzie zostało pomyślnie wywołane, a rekomendacje (Amazon, Microsoft i Nvidia) miały sens.
Gadatliwy, możliwy do wdrożenia lokalnie agent, który może wywoływać narzędzia, utrzymywać 128 tysięcy kontekstu i działać całkowicie na urządzeniu, to ciekawszy produkt niż samodzielny model odpowiadający na pytania, konkurujący z GPT-4.
Tylko nie rezygnuj przez to z subskrypcji AI. Wiedz, z czym masz do czynienia: Ma słabą wiedzę w porównaniu do dużych modeli, będzie słabo kodować (ponownie, w porównaniu do większych modeli) i nie będzie blisko AGI, jeśli tego szukasz.
MiniCPM5-1B jest już dostępny na Hugging Face na licencji Apache 2.0, kompatybilny z vLLM, SGLang i standardowym wnioskowaniem Transformers.