Agregação de Tags de Notícias Cripto e Conteúdo Temático

meta-muse-spark-most-capable-ai-gemini-pro-still-leads

Meta Lança Muse Spark, Sua IA Mais Avançada Até Agora—Mas Gemini 3.1 Pro Ainda Lidera o Mercado

O primeiro modelo da Meta de sua equipe de Superinteligência é nativamente multimodal, desenvolvido para raciocínio em saúde e realmente competitivo—mas não lidera todas as tabelas de classificação.

2026-04-08 Fonte:decrypt.co

IA Multimodal

Meta Muse Spark

Benchmarking de IA

Em resumo

O novo Muse Spark da Meta marca uma mudança para uma IA fechada, nativamente multimodal e com raciocínio baseado em agentes.
A Meta relata fortes ganhos de benchmark em saúde e pesquisa, mas ainda fica atrás do Gemini em raciocínio central e codificação.
Construído em nove meses com muito menos poder de computação, isso aponta para uma nova estratégia de IA focada na eficiência.

A Meta lançou o Muse Spark na quarta-feira, marcando o primeiro modelo construído pelo Meta Superintelligence Labs — a equipe montada há nove meses sob a liderança do Chief AI Officer Alexandr Wang após a aquisição da Scale AI pela Meta por US$ 14 bilhões. Ele já está disponível em meta.ai e no aplicativo Meta AI, com um lançamento para Facebook, Instagram e WhatsApp previsto para as próximas semanas.

Isso não é apenas mais uma atualização de chatbot ou uma nova versão do Llama. O Muse Spark é nativamente multimodal — ele processa imagens, texto e voz desde o início, em vez de simplesmente anexar visão a um modelo de texto existente. Ele vem com cadeia de pensamento visual, suporte a uso de ferramentas e algo que a Meta está chamando de "modo Contemplação": uma configuração que executa múltiplos agentes de IA em paralelo para resolver problemas mais difíceis. Essa é a resposta da Meta aos modos de pensamento estendidos do Gemini Deep Think do Google e do GPT Pro da OpenAI.

“O Muse Spark é o primeiro passo em nossa jornada de escalabilidade e o primeiro produto de uma revisão completa de nossos esforços em IA”, escreveu a Meta em um anúncio oficial. “Para apoiar um escalonamento ainda maior, estamos fazendo investimentos estratégicos em toda a pilha — desde pesquisa e treinamento de modelos até infraestrutura, incluindo o centro de dados Hyperion.”

A empresa trabalhou com mais de 1.000 médicos para curar dados de treinamento para o raciocínio médico do Muse Spark. Os resultados no HealthBench Hard — um benchmark de consultas de saúde abertas — são impressionantes: o Muse Spark obteve 42,8 pontos, em comparação com 40,1 para o GPT 5.4 e apenas 20,6 para o Gemini 3.1 Pro. Essa não é uma diferença marginal.

Em busca agêntica (DeepSearchQA), o Muse Spark também lidera com 74,8 pontos, superando o Gemini (69,7) e o GPT 5.4 (73,6). No CharXiv Reasoning — compreensão de figuras de artigos científicos — ele obteve 86,4 pontos, o mais alto entre os modelos na comparação.

Para aqueles interessados em "jailbreaking" de IA, o modelo foi "desbloqueado" em minutos:

🚰 VAZAMENTO DE PROMPT DE SISTEMA 🚰

Aqui está o prompt de sistema completo do Muse Spark da Meta!

Percebi que @AIatMeta esqueceu de abrir o código-fonte, então fiz a gentileza de fazê-lo 😘

PROMPT:
"""
Who are you?

You are a friendly, intelligent, and agentic AI assistant. You are warm and a bit playful.…

— Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) April 8, 2026

Mas bom não é o mesmo que ótimo. O panorama geral dos benchmarks mostra o Gemini 3.1 Pro ainda à frente na maioria das categorias. A lacuna é mais visível no ARC AGI 2, o benchmark de quebra-cabeças de raciocínio abstrato: o Gemini marcou 76,5 contra 42,5 do Muse Spark.

Em codificação (LiveCodeBench Pro), o Gemini, com 82,9, supera os 80,0 da Meta. No MMMU Pro — compreensão multimodal — o Gemini obteve 83,9 contra 80,4. O próprio blog da Meta reconhece lacunas de desempenho atuais em sistemas agênticos de longo prazo e fluxos de trabalho de codificação.

Há também uma mudança estratégica notável incorporada a este lançamento. O Muse Spark é um modelo fechado — sua arquitetura e pesos não serão tornados públicos. Isso representa uma forte divergência do Llama, que construiu a reputação da Meta em círculos de IA aberta. Após a recepção morna do Llama 4 no início deste ano, a Meta parece ter decidido que o próximo capítulo precisa ser escrito de forma diferente.

A empresa diz que espera abrir o código-fonte de futuras versões do Muse, mas por enquanto o código permanece dentro da Meta. As ações da gigante de tecnologia subiram quase 9% na quarta-feira após o anúncio e terminaram o dia de negociações com alta de 6,5%, a um preço de US$ 612,42.

O "modo Contemplação" usa a orquestração paralela de agentes para elevar o limite do modelo. Nessa configuração, o Muse Spark atingiu 58% no "Humanity's Last Exam" e 38% no "FrontierScience Research" — um território que o torna competitivo com as versões mais capazes de Gemini e GPT, em vez de suas versões padrão.

A Meta também está lançando um assistente de compras que compara produtos e links diretamente para compras, e planeja levar o Muse Spark para Facebook, Instagram e WhatsApp nas próximas semanas — seguindo o mesmo roteiro implementado desde o Llama 3, colocando-o diante de mais de 3,5 bilhões de usuários. Uma prévia de API privada está sendo aberta para desenvolvedores selecionados.

O modelo foi construído em nove meses, com o codinome interno Avocado, com a Meta afirmando que sua nova pilha de pré-treinamento pode atingir o mesmo nível de capacidade do Llama 4 Maverick usando mais de 10 vezes menos poder de computação.

O Muse Spark é descrito internamente como um primeiro passo "pequeno e rápido" na família Muse. Uma versão mais capaz já está em desenvolvimento.