Strona głównaCentrum wiadomości LBank
Ten półgigabajtowy model AI uruchamia lokalne agenty na Twoim telefonie
openbmb-minicpm5-half-gigabyte-ai-model-local-agents-phone
Ten półgigabajtowy model AI uruchamia lokalne agenty na Twoim telefonie
Model OpenBMB o 1 miliardzie parametrów wprowadza obsługę MCP i agentowe wykorzystanie narzędzi do sztucznej inteligencji działającej na urządzeniach — jednak ma trudności z pułapkami logicznymi.
2026-05-26 Źródło:decrypt.co

W skrócie

  • MiniCPM5-1B osiąga średnio 42.57 punktów w testach agentowych i logicznych, pokonując najbliższego konkurenta w klasie 1B, który uzyskał 35.61.
  • Model obsługuje protokół MCP i natywne wywoływanie narzędzi od razu po zainstalowaniu, umożliwiając lokalne przepływy pracy agentów na sprzęcie konsumenckim bez połączenia z chmurą.
  • W naszych testach model wykazał wysoką płynność konwersacyjną, ale wygenerował halucynacyjną odpowiedź w łańcuchu myślenia i nie przeszedł podstawowej pułapki logicznej.

MiniCPM5-1B, model z miliardem parametrów od OpenBMB, to najnowsze wydanie z serii MiniCPM przeznaczonej dla urządzeń. Obsługuje natywne wywoływanie narzędzi oraz Model Context Protocol (MCP), mieści się w pamięci smartfona i wyprzedza wszystkie porównywalne modele open-source w swojej klasie rozmiarowej w testach porównawczych.

Model jest pierwszym wydaniem z rodziny MiniCPM5, zaprojektowanym od podstaw do lokalnego wdrożenia na sprzęcie o ograniczonych zasobach. Przy 1 miliardzie parametrów jest on mały w porównaniu do obecnych standardów. (Parametry to to, co nadaje modelowi AI zakres wiedzy, przy czym większa liczba generalnie oznacza większą moc.)

Gemma 4 Google'a zaczyna się od 2 miliardów efektywnych parametrów, ale skaluje się do 31 miliardów. Llama 4 Scout używa 17 miliardów aktywnych parametrów. MiniCPM5-1B nie udaje, że konkuruje z nimi. Jego atutem jest robienie więcej mniejszymi środkami.

Jak został zbudowany

Architektoniczne fundamenty pochodzą z MiniCPM4, szczegółowo opisanego w raporcie technicznym zespołu OpenBMB z THUNLP, Uniwersytetu Tsinghua i ModelBest. Kluczową innowacją jest InfLLM v2, trenowalny mechanizm uwagi, który przetwarza każdy token w odniesieniu do mniej niż 5% otaczających tokenów podczas wnioskowania z długim kontekstem – znacznie redukując obliczenia bez znaczącego spadku dokładności. („Token” to podstawowa jednostka informacji przetwarzana przez model AI).

Jeśli chodzi o dane, zespół zbudował UltraClean, potok filtrowania, który pozwolił modelowi osiągnąć konkurencyjne wyniki, wykorzystując 8 bilionów tokenów szkoleniowych, w porównaniu do 36 bilionów zużytych przez Qwen 3. Post-szkolenie wykorzystywało uczenie wzmacniające w połączeniu z efektywnymi technikami destylacji (użycie większego modelu jako przewodnika dla mniejszego), podnosząc wyniki w testach z matematyki, kodowania i wykonywania instrukcji o 16 punktów, jednocześnie redukując odpowiedzi o nadmiernej długości o 29 punktów procentowych.

Okno kontekstu wynosi 128 tys. tokenów — to około 96 000 słów ciągłego tekstu w jednym przebiegu. Dla modelu z miliardem parametrów to znacząca liczba. Trwała pamięć podczas długiej sesji odgrywania ról, pełne streszczenie PDF-a lub kontekst agenta, który nie resetuje się w trakcie zadania, wszystko to jest w jego zasięgu.

Dlaczego „głupi” agent może wystarczyć

Przeprowadziliśmy testy i potwierdziliśmy, że MiniCPM5-1B obsługuje MCP oraz wywołania narzędzi. To plasuje go na bardzo krótkiej liście modeli poniżej 2 miliardów parametrów, zdolnych do prawdziwych przepływów pracy agentów bez infrastruktury chmurowej.

Mimo to, aby to działało, użytkownicy będą musieli skonfigurować dodatkowe ustawienia, wszystkie wymienione w repozytorium GitHub modelu.

Praktyczny scenariusz: lokalny agent na iPhone'ie, który może odpytywać kalendarz, przeszukiwać lokalną bazę danych lub wywoływać serwer MCP do badań internetowych – całkowicie offline. Jak już pisaliśmy, uruchamianie lokalnej AI jest już bardziej dostępne, niż większość ludzi zdaje sobie sprawę, a wyścig na urządzeniach przyspiesza. Modele zaprojektowane do działania na telefonie bez zaplecza chmurowego stają się prawdziwą kategorią produktów, a nie ciekawostką badawczą.

Nie potrzebujesz OpenAI, aby sprawdzić swój kalendarz, jeśli lokalny agent może po prostu go pobrać i powiedzieć, co masz w planach na dziś.

W przypadku lekkich zadań agentowych i rozszerzonych kontekstów rozmów, MiniCPM5-1B jest konkurencyjny. Jednakże, mimo że OpenBMB być może o tym nie pomyślało, gadatliwy styl modelu czyni go dobrym kandydatem do lokalnego odgrywania ról — 128 tysięcy kontekstu oznacza, że historia może rozwijać się przez dziesiątki, jeśli nie setki wymian, bez utraty wątku przez model.

Małe agenty, które czytają notatki, podsumowują dokumenty i odpowiadają na pytania dotyczące nich, są w jego zasięgu, zwłaszcza gdy są sparowane z serwerem badawczym MCP w celu uzupełnienia luk w wiedzy.

Konkurencja w tej skali obejmuje Qwen3-0.6B Alibaba, Qwen3.5-0.8B oraz LFM2.5-1.2B-Thinking Liquid AI. Własny test porównawczy OpenBMB porównuje wszystkie cztery w zakresie wiedzy ogólnej, wiedzy dziedzinowej, kodowania, wykonywania instrukcji, rozumowania matematycznego, rozumowania logicznego i zadań agentowych. MiniCPM5-1B przewodzi we wszystkich siedmiu kategoriach, z najbardziej wyraźnymi różnicami w wydajności agentowej i wiedzy ogólnej.

Szybkie Testy

Przeprowadziliśmy trzy szybkie oceny. Pierwszą była klasyczna pułapka logiczna: „Proszę wcielić się w rolę eksperta prawnika i legislator. Czy w świetle systemu prawnego rządzącego Falklandami mężczyzna może poślubić siostrę swojej wdowy?”

Prawidłowa odpowiedź jest oczywista – mężczyzna, który ma wdowę, jest martwy, a umarli nie podpisują aktów małżeństwa. MiniCPM5-1B przedstawił szczegółową analizę prawa małżeńskiego Falklandów i całkowicie ominął pułapkę, traktując pytanie jako proste zapytanie jurysdykcyjne.

„Co najważniejsze, musisz określić rzeczywisty status małżeński na Falklandach. Jest to kwestia faktów, która powinna być ustalona przez lokalne władze lub w drodze procesu prawnego” — odpowiedział model po długim rozumowaniu.

Nasz drugi test dotyczył zdecydowanego wyboru A/B. Model nie wybrał żadnego, unikając odpowiedzi na obie strony. Jest to znany tryb awarii w małych modelach pod presją konwersacyjną. MiniCPM5-1B nie jest wyjątkiem.

Poprosiliśmy model, aby powiedział nam, która branża zdominuje gospodarkę w roku 2100: Krypto czy AI? Zamiast w ogóle rozważać to pytanie, wewnętrzne myślenie modelu zaczęło analizować inwestycje w kryptowaluty i AI jako synergiczne od podstaw.

Uczciwie trzeba przyznać, że nic z tego nie jest zaskakujące dla modelu 1B.

Możliwości agentowe to prawdziwa historia. Sparuj MiniCPM5-1B z serwerem MCP do badań internetowych, a jego tendencja do halucynacji w przypadku niejasnych pytań faktograficznych zanika, a przynajmniej znacznie się zmniejsza.

Poprosiliśmy model o aktualną cenę Bitcoina i trzy rekomendacje akcji, a narzędzie zostało pomyślnie wywołane, a rekomendacje (Amazon, Microsoft i Nvidia) miały sens.

Podsumowanie

Gadatliwy, możliwy do wdrożenia lokalnie agent, który może wywoływać narzędzia, utrzymywać 128 tysięcy kontekstu i działać całkowicie na urządzeniu, to ciekawszy produkt niż samodzielny model odpowiadający na pytania, konkurujący z GPT-4.

Tylko nie rezygnuj przez to z subskrypcji AI. Wiedz, z czym masz do czynienia: Ma słabą wiedzę w porównaniu do dużych modeli, będzie słabo kodować (ponownie, w porównaniu do większych modeli) i nie będzie blisko AGI, jeśli tego szukasz.

MiniCPM5-1B jest już dostępny na Hugging Face na licencji Apache 2.0, kompatybilny z vLLM, SGLang i standardowym wnioskowaniem Transformers.