meta-muse-spark-most-capable-ai-gemini-pro-still-leads
Meta startet Muse Spark, seine bisher leistungsfähigste KI – doch Gemini 3.1 Pro führt weiterhin das Feld an
Metas erstes Modell aus dem Superintelligence-Team ist von Haus aus multimodal, für gesundheitsbezogenes Denken entwickelt und wirklich wettbewerbsfähig – aber es führt nicht jede Rangliste an.
2026-04-08 Quelle:decrypt.co

Kurz gesagt

  • Metas neues Muse Spark markiert eine Verlagerung hin zu geschlossener, nativ multimodaler KI mit agentenbasierter Argumentation.
  • Meta meldet starke Benchmark-Gewinne in den Bereichen Gesundheit und Suche, liegt aber bei der Kernargumentation und Programmierung immer noch hinter Gemini zurück.
  • In neun Monaten mit deutlich weniger Rechenleistung entwickelt, deutet dies auf eine neue effizienzgetriebene KI-Strategie hin.

Meta hat am Mittwoch Muse Spark vorgestellt. Es ist das erste Modell, das von Meta Superintelligence Labs entwickelt wurde – dem Team, das vor neun Monaten unter Chief AI Officer Alexandr Wang nach Metas 14 Milliarden Dollar schweren Übernahme von Scale AI zusammengestellt wurde. Es ist ab sofort auf meta.ai und in der Meta AI App verfügbar, wobei ein Rollout für Facebook, Instagram und WhatsApp in den kommenden Wochen geplant ist.

Dies ist nicht nur ein weiteres Chatbot-Upgrade oder eine neue Version von Llama. Muse Spark ist nativ multimodal – es verarbeitet Bilder, Text und Sprache von Grund auf, anstatt die Bilderkennung nachträglich an ein bestehendes Textmodell anzufügen. Es verfügt über eine visuelle Gedankenkettenfunktion, Werkzeugnutzungsunterstützung und etwas, das Meta als "Contemplating Mode" bezeichnet: ein Setup, das mehrere KI-Agenten parallel laufen lässt, um komplexere Probleme zu lösen. Das ist Metas Antwort auf die erweiterten Denkmodi von Googles Gemini Deep Think und OpenAIs GPT Pro.

„Muse Spark ist der erste Schritt auf unserer Skalierungsleiter und das erste Produkt einer grundlegenden Überarbeitung unserer KI-Anstrengungen“, schrieb Meta in einer offiziellen Ankündigung. „Um die weitere Skalierung zu unterstützen, tätigen wir strategische Investitionen im gesamten Stack – von Forschung und Modelltraining bis hin zur Infrastruktur, einschließlich des Hyperion-Rechenzentrums.“

Das Unternehmen arbeitete mit über 1.000 Ärzten zusammen, um Trainingsdaten für die medizinische Argumentation von Muse Spark zu kuratieren. Die Ergebnisse auf HealthBench Hard – einem Benchmark für offene Gesundheitsanfragen – sind frappierend: Muse Spark erzielte 42,8 Punkte, verglichen mit 40,1 für GPT 5.4 und nur 20,6 für Gemini 3.1 Pro. Das ist kein marginaler Unterschied.

Bei der agentischen Suche (DeepSearchQA) liegt Muse Spark ebenfalls mit 74,8 Punkten in Führung und übertrifft Gemini (69,7) und GPT 5.4 (73,6). Bei CharXiv Reasoning – dem Verständnis von Abbildungen aus wissenschaftlichen Arbeiten – erreichte es 86,4 Punkte, den höchsten Wert unter den verglichenen Modellen.

Für diejenigen, die sich für das Jailbreaking von KI interessieren, wurde das Modell innerhalb von Minuten geknackt:

🚰 SYSTEM PROMPT LEAK 🚰

Here's the full Muse Spark system prompt from Meta!

I noticed @AIatMeta forgot to open source it, so I've done them the courtesy 😘

PROMPT:
"""
Who are you?

You are a friendly, intelligent, and agentic AI assistant. You are warm and a bit playful.…

— Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) April 8, 2026

Aber gut ist nicht gleich großartig. Das Gesamtbild der Benchmarks zeigt, dass Gemini 3.1 Pro in den meisten Kategorien immer noch die Nase vorn hat. Der Unterschied ist am deutlichsten bei ARC AGI 2, dem Benchmark für abstrakte Denkaufgaben: Gemini erzielte 76,5 Punkte gegenüber 42,5 für Muse Spark.

Bei der Programmierung (LiveCodeBench Pro) übertrifft Geminis 82,9 Metas 80,0. Bei MMMU Pro – multimodales Verständnis – erzielte Gemini 83,9 gegenüber 80,4. Metas eigener Blog räumt aktuelle Leistungslücken bei langfristigen agentenbasierten Systemen und Coding-Workflows ein.

In dieser Einführung steckt auch eine bemerkenswerte strategische Neuausrichtung. Muse Spark ist ein geschlossenes Modell – seine Architektur und Gewichte werden nicht öffentlich gemacht. Das ist eine deutliche Abkehr von Llama, das Metas Ruf in Open-AI-Kreisen begründete. Nach dem enttäuschenden Empfang von Llama 4 Anfang des Jahres scheint Meta entschieden zu haben, dass das nächste Kapitel anders geschrieben werden muss.

Das Unternehmen gibt an, zukünftige Versionen von Muse quelloffen machen zu wollen, doch vorerst bleibt der Code bei Meta. Die Aktie des Tech-Riesen stieg am Mittwoch nach der Ankündigung um fast 9 % und beendete den Handelstag mit einem Plus von 6,5 % bei einem Kurs von 612,42 $.

Der „Contemplating Mode“ nutzt parallele Agenten-Orchestrierung, um die Leistungsgrenze des Modells anzuheben. In dieser Konfiguration erreichte Muse Spark 58 % bei Humanity's Last Exam und 38 % bei FrontierScience Research – ein Bereich, der es mit den leistungsfähigsten Versionen von Gemini und GPT konkurrenzfähig macht, anstatt mit ihren Standardversionen.

Meta führt zudem einen Shopping-Assistenten ein, der Produkte vergleicht und direkt zu Käufen verlinkt, und plant, Muse Spark in den kommenden Wochen auf Facebook, Instagram und WhatsApp zu bringen – nach demselben Skript, das seit Llama 3 angewendet wird, wodurch es über 3,5 Milliarden Nutzern zugänglich gemacht wird. Eine private API-Vorschau wird für ausgewählte Entwickler geöffnet.

Das Modell wurde in neun Monaten entwickelt, intern unter dem Codenamen Avocado, wobei Meta behauptet, dass sein neuer Pretraining-Stack das gleiche Leistungsniveau wie Llama 4 Maverick mit über zehnmal weniger Rechenleistung erreichen kann.

Muse Spark wird intern als ein „kleiner und schneller“ erster Schritt in der Muse-Familie beschrieben. Eine leistungsfähigere Version ist bereits in Entwicklung.