Cryptonieuws Tag Aggregatie & Speciaal Nieuws

meta-muse-spark-most-capable-ai-gemini-pro-still-leads

Meta lanceert Muse Spark, zijn krachtigste AI tot nu toe—maar Gemini 3.1 Pro blijft de leider

Meta's eerste model van het Superintelligence-team is van nature multimodaal, ontworpen voor gezondheidsredenering en echt competitief—maar het staat niet bovenaan alle ranglijsten.

2026-04-08 Bron:decrypt.co

Multimodale AI

Meta Muse Spark

AI Benchmarking

In het kort

Meta's nieuwe Muse Spark markeert een verschuiving naar gesloten, native multimodale AI met agent-gebaseerde redenering.
Meta rapporteert sterke benchmarkwinsten op het gebied van gezondheid en zoeken, maar blijft achter bij Gemini wat betreft kernredenering en codering.
In negen maanden gebouwd met veel minder rekenkracht, duidt dit op een nieuwe efficiëntiegedreven AI-strategie.

Meta lanceerde woensdag Muse Spark, het eerste model gebouwd door Meta Superintelligence Labs – het team dat negen maanden geleden werd samengesteld onder Chief AI Officer Alexandr Wang na Meta's overname van Scale AI voor $14 miljard. Het is nu live op meta.ai en de Meta AI-app, met een uitrol naar Facebook, Instagram en WhatsApp in de komende weken.

Dit is niet zomaar een chatbot-upgrade of een nieuwe versie van Llama. Muse Spark is native multimodaal — het verwerkt beelden, tekst en stem vanaf de basis, in plaats van visie op een bestaand tekstmodel te 'vastschroeven'. Het wordt geleverd met visuele 'chain-of-thought', ondersteuning voor toolgebruik, en iets wat Meta de "Contemplating mode" noemt: een opstelling die meerdere AI-agents parallel laat draaien om moeilijkere problemen aan te pakken. Dat is Meta's antwoord op de uitgebreide denkmodi van Google's Gemini Deep Think en OpenAI's GPT Pro.

“Muse Spark is de eerste stap op onze schaalladder en het eerste product van een grondige herziening van onze AI-inspanningen,” schreef Meta in een officiële aankondiging. “Om verdere schaalvergroting te ondersteunen, doen we strategische investeringen in de gehele stack – van onderzoek en modeltraining tot infrastructuur, inclusief het Hyperion-datacenter.”

Het bedrijf werkte samen met meer dan 1.000 artsen om trainingsdata te cureren voor de medische redenering van Muse Spark. De resultaten op HealthBench Hard – een benchmark voor open gezondheidsvragen – zijn opvallend: Muse Spark scoorde 42.8, vergeleken met 40.1 voor GPT 5.4 en slechts 20.6 voor Gemini 3.1 Pro. Dat is geen marginaal verschil.

Bij agent-gebaseerd zoeken (DeepSearchQA) leidt Muse Spark ook met 74.8, waarmee het Gemini (69.7) en GPT 5.4 (73.6) verslaat. Bij CharXiv Reasoning – het begrijpen van figuren uit wetenschappelijke artikelen – scoorde het 86.4, het hoogste van alle modellen in de vergelijking.

Voor degenen die van 'jailbreaking' van AI houden, werd het model binnen enkele minuten opengebroken:

🚰 SYSTEEM PROMPT LEK 🚰

Hier is de volledige Muse Spark systeem prompt van Meta!

Ik merkte op dat @AIatMeta vergat het open source te maken, dus heb ik ze de beleefdheid getoond 😘

PROMPT:
"""
Wie ben je?

Je bent een vriendelijke, intelligente en agent-gebaseerde AI-assistent. Je bent warm en een beetje speels…

— Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) April 8, 2026

Maar goed is niet hetzelfde als geweldig. Het algemene benchmarkbeeld toont aan dat Gemini 3.1 Pro nog steeds voorloopt in de meeste categorieën. Het verschil is het duidelijkst zichtbaar op ARC AGI 2, de benchmark voor abstracte redeneerpuzzels: Gemini scoorde 76.5 tegenover Muse Spark's 42.5.

Bij codering (LiveCodeBench Pro) overtreft Gemini's score van 82.9 Meta's 80.0. Bij MMMU Pro – multimodaal begrip – scoorde Gemini 83.9 tegenover 80.4. Meta's eigen blog erkent de huidige prestatieverschillen in lange-termijn agent-gebaseerde systemen en codeerworkflows.

Er zit ook een opmerkelijke strategische verschuiving in deze lancering. Muse Spark is een gesloten model – de architectuur en gewichten zullen niet openbaar worden gemaakt. Dat is een scherpe afwijking van Llama, dat Meta's reputatie opbouwde in open AI-kringen. Na de teleurstellende ontvangst van Llama 4 eerder dit jaar, lijkt Meta te hebben besloten dat het volgende hoofdstuk anders moet worden geschreven.

Het bedrijf zegt te hopen toekomstige versies van Muse open source te maken, maar voor nu blijft de code binnen Meta. Het aandeel van de techgigant steeg woensdag met bijna 9% na de aankondiging en sloot de handelsdag af met een stijging van 6.5% tot een prijs van $612.42.

“Contemplating mode” gebruikt parallelle agent-orkestratie om het plafond van het model hoger te leggen. In die configuratie behaalde Muse Spark 58% op Humanity's Last Exam en 38% op FrontierScience Research – een niveau dat het competitief maakt met de meest capabele versies van Gemini en GPT, in plaats van hun standaardreleases.

Meta rolt ook een shopping assistent uit die producten vergelijkt en direct linkt naar aankopen, en is van plan Muse Spark in de komende weken naar Facebook, Instagram en WhatsApp te brengen – volgens hetzelfde script dat sinds Llama 3 is geïmplementeerd, waardoor het voor meer dan 3.5 miljard gebruikers toegankelijk wordt. Een privé API-preview wordt geopend voor geselecteerde ontwikkelaars.

Het model werd in negen maanden gebouwd, intern codenaam Avocado, waarbij Meta beweert dat de nieuwe pretrainingsstack hetzelfde capaciteitsniveau kan bereiken als Llama 4 Maverick met meer dan 10 keer minder rekenkracht.

Muse Spark wordt intern beschreven als een "kleine en snelle" eerste stap in de Muse-familie. Een capabelere versie is al in ontwikkeling.

Veelgelezen

'Van cruciaal belang': President Trump steunt CFTC-voorzitter Seligs pleidooi om de bevoegdheid over voorspellingsmarkten uit te breiden

4 uur geleden

TD Cowen zegt dat cryptowet dit jaar waarschijnlijk niet zal worden aangenomen te midden van verslechterend politiek klimaat

8 uur geleden

Crypto-industrie verdedigt OCC-charters voor Ripple, Coinbase en anderen nadat senator Warren ze onwettig noemt

8 uur geleden

Andere artikelen

'Van cruciaal belang': President Trump steunt CFTC-voorzitter Seligs pleidooi om de bevoegdheid over voorspellingsmarkten uit te breiden

4 uur geleden

DeFi TVL daalt 14% sinds KelpDAO exploit door afnemende risicobereidheid