Crypto News Tag Aggregation at Espesyal na Balita

meta-muse-spark-most-capable-ai-gemini-pro-still-leads

Inilunsad ng Meta ang Muse Spark, Ang Kanyang Pinakamakapangyarihang AI—Ngunit Nangunguna Pa Rin ang Gemini 3.1 Pro

Ang unang modelo ng Meta mula sa koponan ng Superintelligence nito ay likas na multimodal, ginawa para sa pangangatwiran sa kalusugan, at tunay na mapagkumpitensya—ngunit hindi ito nangunguna sa lahat ng leaderboard.

2026-04-08 Pinagmulan:decrypt.co

Multimodal AI

Meta Muse Spark

AI Benchmarking

Sa Buod

Ang bagong Muse Spark ng Meta ay nagpapahiwatig ng paglipat sa closed, natively multimodal AI na may agent-based reasoning.
Ibinabalita ng Meta ang malalaking pag-angat sa benchmark sa kalusugan at paghahanap, ngunit nahuhuli pa rin sa Gemini pagdating sa core reasoning at coding.
Binuo sa loob ng siyam na buwan na may mas kaunting compute, ito ay nagpapahiwatig ng isang bagong estratehiya ng AI na nakatuon sa kahusayan.

Inilunsad ng Meta ang Muse Spark noong Miyerkules, na nagmamarka sa unang modelo na binuo ng Meta Superintelligence Labs—ang koponan na binuo siyam na buwan na ang nakakaraan sa ilalim ni Chief AI Officer Alexandr Wang matapos ang $14 bilyong akusisyon ng Meta sa Scale AI. Ito ay available na ngayon sa meta.ai at sa Meta AI app, na may rollout sa Facebook, Instagram, at WhatsApp sa susunod na ilang linggo.

Hindi lang ito basta isa pang pag-upgrade ng chatbot o bagong bersyon ng Llama. Ang Muse Spark ay natively multimodal—pinoproseso nito ang mga imahe, teksto, at boses mula sa simula, sa halip na basta idikit lang ang vision sa isang umiiral na text model. Ito ay may kasamang visual chain-of-thought, suporta sa paggamit ng tool, at isang bagay na tinatawag ng Meta na "Contemplating mode": isang setup na nagpapatakbo ng maraming AI agent nang sabay-sabay upang tugunan ang mas mahirap na problema. Ito ang sagot ng Meta sa mga extended thinking mode mula sa Gemini Deep Think ng Google at GPT Pro ng OpenAI.

“Ang Muse Spark ang unang hakbang sa aming scaling ladder at ang unang produkto ng isang kumpletong pagbabago ng aming mga pagsisikap sa AI,” isinulat ng Meta sa isang opisyal na anunsyo. “Upang suportahan ang karagdagang scaling, gumagawa kami ng estratehikong pamumuhunan sa buong stack—mula sa pananaliksik at pagsasanay ng modelo hanggang sa imprastraktura, kabilang ang Hyperion data center.”

Nakipagtulungan ang kumpanya sa higit sa 1,000 doktor upang i-curate ang training data para sa medical reasoning ng Muse Spark. Kapansin-pansin ang mga resulta sa HealthBench Hard—isang benchmark para sa open-ended health queries: Nakakuha ang Muse Spark ng 42.8, kumpara sa 40.1 para sa GPT 5.4 at 20.6 lamang para sa Gemini 3.1 Pro. Hindi ito isang maliit na pagkakaiba.

Sa agentic search (DeepSearchQA), nanguna rin ang Muse Spark na may 74.8, tinalo ang Gemini (69.7) at GPT 5.4 (73.6). Sa CharXiv Reasoning—pag-unawa sa figure mula sa mga scientific paper—nakakuha ito ng 86.4, ang pinakamataas sa lahat ng modelo sa paghahambing.

Para sa mga mahilig sa jailbreaking ng AI, nabuksan ang modelo sa loob lang ng ilang minuto:

🚰 SYSTEM PROMPT LEAK 🚰

Here's the full Muse Spark system prompt from Meta!

I noticed @AIatMeta forgot to open source it, so I've done them the courtesy 😘

PROMPT:
"""
Who are you?

You are a friendly, intelligent, and agentic AI assistant. You are warm and a bit playful.…

— Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) April 8, 2026

Ngunit ang maganda ay hindi katumbas ng mahusay. Ipinapakita ng pangkalahatang benchmark na nangunguna pa rin ang Gemini 3.1 Pro sa karamihan ng mga kategorya. Ang pagkakaiba ay pinakanakikita sa ARC AGI 2, ang abstract reasoning puzzle benchmark: Nakakuha ang Gemini ng 76.5 kumpara sa 42.5 ng Muse Spark.

Sa coding (LiveCodeBench Pro), nalampasan ng 82.9 ng Gemini ang 80.0 ng Meta. Sa MMMU Pro—multimodal understanding—nakakuha ang Gemini ng 83.9 kumpara sa 80.4. Kinikilala mismo ng blog ng Meta ang kasalukuyang performance gaps sa long-horizon agentic systems at coding workflows.

Mayroon ding kapansin-pansing pagbabago sa estratehiya na kasama sa paglulunsad na ito. Ang Muse Spark ay isang closed model—ang arkitektura at weights nito ay hindi isasapubliko. Ito ay malaking paglihis mula sa Llama, na nagtayo ng reputasyon ng Meta sa open AI circles. Matapos ang hindi gaanong kahanga-hangang pagtanggap sa Llama 4 kanina sa taong ito, tila nagpasya ang Meta na ang susunod na kabanata ay kailangang isulat nang iba.

Sinasabi ng kumpanya na umaasa itong i-open-source ang mga susunod na bersyon ng Muse, ngunit sa ngayon ay mananatili ang code sa loob ng Meta. Ang stock ng tech giant ay tumaas ng halos 9% noong Miyerkules matapos ang anunsyo, at nagtapos ang araw ng kalakalan na tumaas ng 6.5% sa presyong $612.42.

Gumagamit ang “Contemplating mode” ng parallel agent orchestration upang itaas ang potensyal ng modelo. Sa configuration na iyon, nakakuha ang Muse Spark ng 58% sa Humanity's Last Exam at 38% sa FrontierScience Research—isang teritoryo na nagpapares nito sa pinakamahusay na bersyon ng Gemini at GPT, sa halip na sa kanilang standard releases.

Inilalabas din ng Meta ang isang shopping assistant na naghahambing ng mga produkto at direktang nagli-link sa mga pagbili, at plano nitong dalhin ang Muse Spark sa Facebook, Instagram, at WhatsApp sa mga darating na linggo—sumusunod sa parehong script na ipinatupad simula noong Llama 3, na naglalagay dito sa harap ng higit sa 3.5 bilyong user. Isang pribadong API preview ang binubuksan sa piling mga developer.

Ang modelo ay binuo sa loob ng siyam na buwan, na may internal na codename na Avocado, kung saan sinasabi ng Meta na ang bago nitong pretraining stack ay kayang abutin ang parehong antas ng kakayahan ng Llama 4 Maverick gamit ang mahigit 10 beses na mas kaunting compute.

Ang Muse Spark ay inilalarawan sa loob bilang isang "maliit at mabilis" na unang hakbang sa pamilya ng Muse. Isang mas may kakayahang bersyon ang kasalukuyan nang ginagawa.

Patok na Babasahin

Sabi ng MoonPay na binuksan ng regulasyon sa stablecoin ang pinto pero dapat sumunod ang imprastruktura

2026-05-09

Tinanggihan ng mga bangko sa US ang kasunduan sa CLARITY Act na stablecoin ilang araw bago ang boto sa Senado

2026-05-09

Tagapagturo sa Duke Law ay nagsasabing ang World Liberty Financial na konektado kay Trump ay nag-isyu ng isang seguridad

2026-05-09

Iba pang artikulo

Nakakuha ng pahintulot sa paglilipat ng $71 milyon ETH ng Arbitrum para sa Aave habang pinananatili ng mga creditors ng terorismo ng North Korea ang legal na pag-angkin

2026-05-10

Nagbabala si Bailey ng BoE sa nalalapit na 'laban' sa US tungkol sa mga patakaran sa stablecoin, nagbabala sa panganib ng pag-atake sa UK

2026-05-10