meta-muse-spark-most-capable-ai-gemini-pro-still-leads
Meta lance Muse Spark, son IA la plus performante à ce jour — mais Gemini 3.1 Pro reste en tête
Le premier modèle de Meta issu de son équipe Superintelligence est naturellement multimodal, conçu pour le raisonnement en santé, et véritablement compétitif—mais il ne domine pas tous les classements.
2026-04-08 Source:decrypt.co

En bref

  • Le nouveau Muse Spark de Meta marque un virage vers une IA multimodale nativement fermée avec un raisonnement basé sur des agents.
  • Meta rapporte d'importants gains de performance en santé et en recherche, mais reste en retrait par rapport à Gemini en matière de raisonnement et de codage.
  • Développé en neuf mois avec beaucoup moins de puissance de calcul, cela témoigne d'une nouvelle stratégie d'IA axée sur l'efficacité.

Meta a lancé Muse Spark mercredi, marquant le premier modèle construit par Meta Superintelligence Labs — l'équipe assemblée il y a neuf mois sous la direction du Chief AI Officer Alexandr Wang après l'acquisition de Scale AI par Meta pour 14 milliards de dollars. Il est désormais disponible sur meta.ai et l'application Meta AI, avec un déploiement sur Facebook, Instagram et WhatsApp dans les prochaines semaines.

Il ne s'agit pas d'une simple mise à niveau de chatbot ou d'une nouvelle version de Llama. Muse Spark est nativement multimodal : il traite les images, le texte et la voix dès la conception, plutôt que de greffer la vision sur un modèle textuel existant. Il intègre une chaîne de pensée visuelle, un support d'utilisation d'outils, et ce que Meta appelle le "mode Contemplation" : une configuration qui exécute plusieurs agents IA en parallèle pour résoudre des problèmes plus complexes. C'est la réponse de Meta aux modes de réflexion étendus de Gemini Deep Think de Google et de GPT Pro d'OpenAI.

« Muse Spark est la première étape de notre échelle de mise à l'échelle et le premier produit d'une refonte complète de nos efforts en matière d'IA », a écrit Meta dans un communiqué officiel. « Pour soutenir une mise à l'échelle future, nous réalisons des investissements stratégiques sur l'ensemble de la pile technologique, de la recherche et de l'entraînement des modèles à l'infrastructure, y compris le centre de données Hyperion. »

L'entreprise a collaboré avec plus de 1 000 médecins pour organiser les données d'entraînement du raisonnement médical de Muse Spark. Les résultats sur HealthBench Hard — un banc d'essai pour les requêtes de santé ouvertes — sont frappants : Muse Spark a obtenu un score de 42,8, contre 40,1 pour GPT 5.4 et seulement 20,6 pour Gemini 3.1 Pro. Ce n'est pas une différence marginale.

En recherche agentique (DeepSearchQA), Muse Spark mène également avec 74,8, battant Gemini (69,7) et GPT 5.4 (73,6). Sur CharXiv Reasoning — la compréhension des figures issues d'articles scientifiques — il a obtenu un score de 86,4, le plus élevé parmi les modèles comparés.

Pour les adeptes du "jailbreaking" d'IA, le modèle a été "ouvert" en quelques minutes :

🚰 FUITE D'INVITE SYSTÈME 🚰

Voici l'invite système complète de Muse Spark de Meta !

J'ai remarqué qu'@AIatMeta a oublié de le rendre open source, alors je leur ai fait la courtoisie 😘

INVITE :
"""
Qui es-tu ?

Tu es un assistant IA amical, intelligent et agentique. Tu es chaleureux et un peu joueur.…

— Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) April 8, 2026

Mais bon n'est pas excellent. Le tableau général des benchmarks montre que Gemini 3.1 Pro reste en tête dans la plupart des catégories. L'écart est le plus visible sur ARC AGI 2, le banc d'essai de raisonnement abstrait : Gemini a obtenu un score de 76,5 contre 42,5 pour Muse Spark.

En codage (LiveCodeBench Pro), Gemini avec 82,9 dépasse les 80,0 de Meta. Sur MMMU Pro — compréhension multimodale — Gemini a obtenu un score de 83,9 contre 80,4. Le propre blog de Meta reconnaît les lacunes de performance actuelles dans les systèmes agentiques à long terme et les flux de travail de codage.

Il y a aussi un changement stratégique notable intégré à ce lancement. Muse Spark est un modèle fermé — son architecture et ses poids ne seront pas rendus publics. C'est un net revirement par rapport à Llama, qui avait bâti la réputation de Meta dans les cercles de l'IA ouverte. Après l'accueil mitigé de Llama 4 plus tôt cette année, Meta semble avoir décidé que le prochain chapitre devait s'écrire différemment.

L'entreprise déclare espérer rendre open source les futures versions de Muse, mais pour l'instant, le code reste interne à Meta. L'action du géant technologique a grimpé de près de 9 % mercredi après l'annonce, et a terminé la journée de négociation en hausse de 6,5 % à un prix de 612,42 $.

Le « mode Contemplation » utilise l'orchestration parallèle d'agents pour repousser les limites du modèle. Dans cette configuration, Muse Spark a atteint 58 % sur l'« Examen Final de l'Humanité » et 38 % sur « Recherche en Science de la Frontière » — un territoire qui le rend compétitif avec les versions les plus performantes de Gemini et GPT, plutôt qu'avec leurs versions standard.

Meta déploie également un assistant d'achat qui compare les produits et renvoie directement aux achats, et prévoit d'intégrer Muse Spark à Facebook, Instagram et WhatsApp dans les prochaines semaines — suivant le même scénario mis en œuvre depuis Llama 3, le mettant ainsi devant plus de 3,5 milliards d'utilisateurs. Un aperçu API privé est ouvert à des développeurs sélectionnés.

Le modèle a été construit en neuf mois, sous le nom de code interne Avocado, Meta affirmant que sa nouvelle pile de pré-entraînement peut atteindre le même niveau de capacité que Llama 4 Maverick en utilisant plus de 10 fois moins de puissance de calcul.

Muse Spark est décrit en interne comme un premier pas « petit et rapide » de la famille Muse. Une version plus performante est déjà en développement.