meta-muse-spark-most-capable-ai-gemini-pro-still-leads
Meta Meluncurkan Muse Spark, AI Terpintar Mereka—Namun Gemini 3.1 Pro Masih Memimpin Pasar
Model pertama Meta dari tim Superintelligence-nya secara asli multimodal, dibangun untuk penalaran kesehatan, dan benar-benar kompetitif—tetapi tidak menempati puncak setiap papan peringkat.
2026-04-08 Sumber:decrypt.co

Secara singkat

  • Muse Spark baru Meta menandai pergeseran ke AI multimodal bawaan yang tertutup dengan penalaran berbasis agen.
  • Meta melaporkan peningkatan benchmark yang kuat di bidang kesehatan dan pencarian, namun masih tertinggal dari Gemini dalam penalaran inti dan pengodean.
  • Dibangun dalam sembilan bulan dengan komputasi yang jauh lebih sedikit, ini menunjukkan strategi AI baru yang didorong oleh efisiensi.

Meta meluncurkan Muse Spark pada hari Rabu, menandai model pertama yang dibangun oleh Meta Superintelligence Labs—tim yang dibentuk sembilan bulan lalu di bawah Chief AI Officer Alexandr Wang setelah akuisisi Scale AI senilai $14 miliar oleh Meta. Sekarang sudah tersedia di meta.ai dan aplikasi Meta AI, dengan peluncuran ke Facebook, Instagram, dan WhatsApp yang akan datang dalam beberapa minggu ke depan.

Ini bukan sekadar peningkatan chatbot atau versi baru Llama. Muse Spark secara bawaan bersifat multimodal—ia memproses gambar, teks, dan suara dari awal, bukan hanya memasang kemampuan visual pada model teks yang sudah ada. Dilengkapi dengan “visual chain-of-thought”, dukungan penggunaan alat, dan sesuatu yang Meta sebut "mode Kontemplasi" (Contemplating mode): sebuah pengaturan yang menjalankan beberapa agen AI secara paralel untuk menangani masalah yang lebih sulit. Itu adalah jawaban Meta terhadap mode pemikiran yang diperpanjang dari Gemini Deep Think milik Google dan GPT Pro milik OpenAI.

“Muse Spark adalah langkah pertama dalam tangga penskalaan kami dan produk pertama dari perombakan menyeluruh upaya AI kami,” tulis Meta dalam pengumuman resminya. “Untuk mendukung penskalaan lebih lanjut, kami melakukan investasi strategis di seluruh tumpukan—mulai dari penelitian dan pelatihan model hingga infrastruktur, termasuk pusat data Hyperion.”

Perusahaan bekerja dengan lebih dari 1.000 dokter untuk mengkurasi data pelatihan untuk penalaran medis Muse Spark. Hasil pada HealthBench Hard—tolok ukur pertanyaan kesehatan terbuka—sangat mencolok: Muse Spark mencetak 42,8, dibandingkan 40,1 untuk GPT 5.4 dan hanya 20,6 untuk Gemini 3.1 Pro. Itu bukan perbedaan yang marjinal.

Pada pencarian agen (DeepSearchQA), Muse Spark juga memimpin dengan 74,8, mengalahkan Gemini (69,7) dan GPT 5.4 (73,6). Pada CharXiv Reasoning—pemahaman gambar dari makalah ilmiah—ia mencetak 86,4, tertinggi di antara model-model yang dibandingkan.

Bagi mereka yang suka “jailbreak” AI, model ini berhasil dibobol dalam hitungan menit:

🚰 KEBOCORAN PROMPT SISTEM 🚰

Berikut adalah prompt sistem Muse Spark lengkap dari Meta!

Saya perhatikan @AIatMeta lupa untuk menjadikannya sumber terbuka, jadi saya telah memberikan kehormatan itu kepada mereka 😘

PROMPT:
"""
Siapa kamu?

Anda adalah asisten AI yang ramah, cerdas, dan agensi. Anda hangat dan sedikit ceria….

— Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) 8 April 2026

Namun bagus tidak berarti hebat. Gambaran benchmark keseluruhan menunjukkan Gemini 3.1 Pro masih unggul di sebagian besar kategori. Kesenjangan paling terlihat pada ARC AGI 2, benchmark teka-teki penalaran abstrak: Gemini mencetak 76,5 dibandingkan 42,5 untuk Muse Spark.

Pada pengodean (LiveCodeBench Pro), Gemini dengan 82,9 mengungguli Meta dengan 80,0. Pada MMMU Pro—pemahaman multimodal—Gemini mencetak 83,9 berbanding 80,4. Blog Meta sendiri mengakui kesenjangan kinerja saat ini dalam sistem agen berjangka panjang dan alur kerja pengodean.

Ada juga pergeseran strategis yang mencolok dalam peluncuran ini. Muse Spark adalah model tertutup—arsitektur dan bobotnya tidak akan dipublikasikan. Itu adalah penyimpangan tajam dari Llama, yang membangun reputasi Meta di kalangan AI terbuka. Setelah penerimaan Llama 4 yang kurang memuaskan awal tahun ini, Meta tampaknya telah memutuskan bahwa bab selanjutnya perlu ditulis secara berbeda.

Perusahaan mengatakan berharap untuk membuat versi Muse di masa depan menjadi sumber terbuka (open-source), tetapi untuk saat ini kode tersebut tetap berada di dalam Meta. Saham raksasa teknologi ini naik hampir 9% pada hari Rabu setelah pengumuman tersebut, dan mengakhiri hari perdagangan naik 6,5% menjadi $612,42.

“Mode kontemplasi” (Contemplating mode) menggunakan orkestrasi agen paralel untuk mendorong batas atas kemampuan model lebih tinggi. Dalam konfigurasi tersebut, Muse Spark mencapai 58% pada Humanity's Last Exam dan 38% pada FrontierScience Research—wilayah yang membuatnya kompetitif dengan versi Gemini dan GPT yang paling mumpuni, dibandingkan dengan rilis standar mereka.

Meta juga meluncurkan asisten belanja yang membandingkan produk dan menautkannya langsung ke pembelian, serta berencana untuk menghadirkan Muse Spark ke Facebook, Instagram, dan WhatsApp dalam beberapa minggu mendatang—mengikuti skrip yang sama yang diterapkan sejak Llama 3, menempatkannya di hadapan lebih dari 3,5 miliar pengguna. Pratinjau API pribadi dibuka untuk pengembang terpilih.

Model ini dibangun dalam sembilan bulan, dengan nama kode internal Avocado, dengan Meta mengklaim bahwa tumpukan pra-pelatihan barunya dapat mencapai tingkat kemampuan yang sama dengan Llama 4 Maverick menggunakan komputasi 10 kali lebih sedikit.

Muse Spark digambarkan secara internal sebagai langkah pertama yang "kecil dan cepat" dalam keluarga Muse. Versi yang lebih mumpuni sudah dalam pengembangan.