meta-muse-spark-most-capable-ai-gemini-pro-still-leads
Meta wprowadza Muse Spark, swoją najpotężniejszą sztuczną inteligencję—ale Gemini 3.1 Pro nadal dominuje na rynku
Pierwszy model Meta z zespołu Superintelligence jest natywnie multimodalny, stworzony do wnioskowania zdrowotnego i naprawdę konkurencyjny — ale nie zajmuje najwyższych miejsc na każdej liście rankingowej.
2026-04-08 Źródło:decrypt.co

W skrócie

  • Nowy model Muse Spark firmy Meta to przejście na zamkniętą, natywnie multimodalną sztuczną inteligencję z rozumowaniem opartym na agentach.
  • Meta odnotowuje znaczne postępy w testach porównawczych w obszarach zdrowia i wyszukiwania, ale nadal ustępuje Gemini pod względem podstawowego rozumowania i kodowania.
  • Zbudowany w dziewięć miesięcy przy znacznie mniejszej mocy obliczeniowej, wskazuje na nową strategię AI ukierunkowaną na efektywność.

Meta uruchomiła Muse Spark w środę, co oznacza pierwszy model zbudowany przez Meta Superintelligence Labs — zespół złożony dziewięć miesięcy temu pod kierownictwem Chief AI Officer Alexandra Wanga, po przejęciu Scale AI przez Meta za 14 miliardów dolarów. Jest już dostępny na meta.ai i w aplikacji Meta AI, a w ciągu najbliższych kilku tygodni zostanie wprowadzony na Facebooka, Instagrama i WhatsApp.

To nie jest tylko kolejna aktualizacja chatbota ani nowa wersja Llama. Muse Spark jest natywnie multimodalny — przetwarza obrazy, tekst i głos od podstaw, zamiast dokładać funkcje wizualne do istniejącego modelu tekstowego. Jest wyposażony w wizualne „łańcuchy myślowe”, obsługę narzędzi i coś, co Meta nazywa „trybem kontemplacyjnym” (Contemplating mode): konfigurację, która uruchamia wiele agentów AI równolegle, aby rozwiązywać trudniejsze problemy. To odpowiedź Meta na rozbudowane tryby myślenia z Google Gemini Deep Think i OpenAI GPT Pro.

„Muse Spark to pierwszy krok w naszej drabinie skalowania i pierwszy produkt gruntownej reorganizacji naszych wysiłków w dziedzinie sztucznej inteligencji” – napisała Meta w oficjalnym ogłoszeniu. „Aby wspierać dalsze skalowanie, dokonujemy strategicznych inwestycji w całym stosie technologicznym — od badań i trenowania modeli po infrastrukturę, w tym centrum danych Hyperion”.

Firma współpracowała z ponad 1000 lekarzy w celu selekcji danych treningowych dla medycznego rozumowania Muse Spark. Wyniki na HealthBench Hard – benchmarku otwartych zapytań zdrowotnych – są uderzające: Muse Spark uzyskał 42,8 punktu, w porównaniu do 40,1 dla GPT 5.4 i zaledwie 20,6 dla Gemini 3.1 Pro. To nie jest marginalna różnica.

W wyszukiwaniu agentowym (DeepSearchQA) Muse Spark również prowadzi z wynikiem 74,8, wyprzedzając Gemini (69,7) i GPT 5.4 (73,6). W CharXiv Reasoning – rozumieniu wykresów z artykułów naukowych – uzyskał 86,4 punktu, co jest najwyższym wynikiem wśród porównywanych modeli.

Dla tych, którzy lubią „jailbreakować” AI, model został złamany w ciągu kilku minut:

🚰 SYSTEM PROMPT LEAK 🚰

Here's the full Muse Spark system prompt from Meta!

I noticed @AIatMeta forgot to open source it, so I've done them the courtesy 😘

PROMPT:
"""
Who are you?

You are a friendly, intelligent, and agentic AI assistant. You are warm and a bit playful.…

— Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) April 8, 2026

Ale dobre nie znaczy świetne. Ogólny obraz testów porównawczych pokazuje, że Gemini 3.1 Pro nadal wyprzedza w większości kategorii. Luka jest najbardziej widoczna w ARC AGI 2, benchmarku abstrakcyjnego rozumowania: Gemini uzyskał 76,5 punktu, a Muse Spark 42,5.

W kodowaniu (LiveCodeBench Pro) Gemini z wynikiem 82,9 wyprzedza Meta z 80,0. W MMMU Pro – multimodalnym rozumieniu – Gemini uzyskał 83,9 punktu w porównaniu do 80,4. Własny blog Meta przyznaje, że obecnie istnieją luki w wydajności w długoterminowych systemach agentowych i procesach kodowania.

W to uruchomienie wpisuje się również znacząca zmiana strategiczna. Muse Spark to model zamknięty — jego architektura i wagi nie zostaną upublicznione. To ostre odstępstwo od Llama, który zbudował reputację Meta w otwartych kręgach AI. Po rozczarowującym przyjęciu Llama 4 na początku tego roku, Meta najwyraźniej zdecydowała, że kolejny rozdział musi być napisany inaczej.

Firma twierdzi, że ma nadzieję udostępnić przyszłe wersje Muse jako open-source, ale na razie kod pozostaje wewnątrz Meta. Akcje giganta technologicznego wzrosły w środę o prawie 9% po ogłoszeniu, a dzień handlowy zakończyły wzrostem o 6,5% do ceny 612,42 USD.

„Tryb kontemplacyjny” wykorzystuje równoległą orkiestrację agentów, aby podnieść pułap możliwości modelu. W tej konfiguracji Muse Spark osiągnął 58% w teście Humanity's Last Exam i 38% w FrontierScience Research — co czyni go konkurencyjnym z najbardziej zaawansowanymi wersjami Gemini i GPT, a nie ich standardowymi wydaniami.

Meta wprowadza również asystenta zakupów, który porównuje produkty i linkuje bezpośrednio do zakupów, a także planuje wprowadzić Muse Spark na Facebooka, Instagrama i WhatsApp w nadchodzących tygodniach – zgodnie z tym samym scenariuszem wdrożonym od czasu Llama 3, udostępniając go ponad 3,5 miliardowi użytkowników. Prywatna wersja przedpremierowa API jest udostępniana wybranym deweloperom.

Model został zbudowany w dziewięć miesięcy, wewnętrznie oznaczony jako Avocado, a Meta twierdzi, że jego nowy stos pretrainingu może osiągnąć ten sam poziom możliwości co Llama 4 Maverick, zużywając ponad 10 razy mniej mocy obliczeniowej.

Muse Spark jest wewnętrznie opisywany jako "mały i szybki" pierwszy krok w rodzinie Muse. Bardziej zaawansowana wersja jest już w fazie rozwoju.