meta-muse-spark-most-capable-ai-gemini-pro-still-leads
Meta ra mắt Muse Spark, AI tiên tiến nhất của họ—Nhưng Gemini 3.1 Pro vẫn dẫn đầu cuộc chơi
Mô hình đầu tiên của Meta từ đội Siêu Trí tuệ nhân tạo được thiết kế đa phương thức nguyên bản, xây dựng để lý luận về sức khỏe và thực sự cạnh tranh—nhưng nó không đứng đầu mọi bảng xếp hạng.
2026-04-08 Nguồn:decrypt.co

Tóm tắt

  • Muse Spark mới của Meta đánh dấu sự chuyển hướng sang AI đa phương thức tự nhiên, đóng và có khả năng suy luận dựa trên tác tử.
  • Meta báo cáo những cải tiến đáng kể trên các điểm chuẩn về sức khỏe và tìm kiếm, nhưng vẫn thua Gemini về suy luận cốt lõi và lập trình.
  • Được xây dựng trong chín tháng với tài nguyên tính toán ít hơn nhiều, điều này cho thấy một chiến lược AI mới tập trung vào hiệu quả.

Meta đã ra mắt Muse Spark vào thứ Tư, đánh dấu mô hình đầu tiên được xây dựng bởi Meta Superintelligence Labs—đội ngũ được thành lập chín tháng trước dưới sự lãnh đạo của Giám đốc AI Alexandr Wang sau thương vụ Meta mua lại Scale AI trị giá 14 tỷ USD. Hiện tại, nó đã có mặt tại meta.ai và ứng dụng Meta AI, với kế hoạch triển khai tới Facebook, Instagram và WhatsApp trong vài tuần tới.

Đây không chỉ là một bản nâng cấp chatbot khác hay một phiên bản Llama mới. Muse Spark là AI đa phương thức tự nhiên—nó xử lý hình ảnh, văn bản và giọng nói từ đầu, thay vì ghép thêm tính năng thị giác vào một mô hình văn bản hiện có. Nó đi kèm với chuỗi suy nghĩ bằng hình ảnh, hỗ trợ sử dụng công cụ và một thứ Meta gọi là "Chế độ suy tư" (Contemplating mode): một thiết lập chạy nhiều tác tử AI song song để giải quyết các vấn đề khó hơn. Đây là câu trả lời của Meta cho các chế độ tư duy mở rộng từ Gemini Deep Think của Google và GPT Pro của OpenAI.

“Muse Spark là bước đầu tiên trong lộ trình mở rộng của chúng tôi và là sản phẩm đầu tiên của một cuộc đại tu toàn diện các nỗ lực AI của chúng tôi,” Meta viết trong một thông báo chính thức. “Để hỗ trợ mở rộng hơn nữa, chúng tôi đang thực hiện các khoản đầu tư chiến lược trên toàn bộ ngăn xếp—từ nghiên cứu và đào tạo mô hình đến cơ sở hạ tầng, bao gồm trung tâm dữ liệu Hyperion.”

Công ty đã làm việc với hơn 1.000 bác sĩ để tuyển chọn dữ liệu đào tạo cho khả năng suy luận y tế của Muse Spark. Kết quả trên HealthBench Hard—một điểm chuẩn truy vấn sức khỏe mở—thật đáng kinh ngạc: Muse Spark đạt 42,8 điểm, so với 40,1 của GPT 5.4 và chỉ 20,6 của Gemini 3.1 Pro. Đó không phải là một sự khác biệt nhỏ.

Trong tìm kiếm dựa trên tác tử (DeepSearchQA), Muse Spark cũng dẫn đầu với 74,8 điểm, vượt qua Gemini (69,7) và GPT 5.4 (73,6). Về CharXiv Reasoning—khả năng hiểu hình ảnh từ các bài báo khoa học—nó đạt 86,4 điểm, cao nhất trong số các mô hình được so sánh.

Đối với những người thích jailbreak AI, mô hình này đã bị bẻ khóa chỉ trong vài phút:

🚰 SYSTEM PROMPT LEAK 🚰

Here's the full Muse Spark system prompt from Meta!

I noticed @AIatMeta forgot to open source it, so I've done them the courtesy 😘

PROMPT:
"""
Who are you?

You are a friendly, intelligent, and agentic AI assistant. You are warm and a bit playful.…

— Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) April 8, 2026

Tuy nhiên, tốt không có nghĩa là xuất sắc. Bức tranh điểm chuẩn tổng thể cho thấy Gemini 3.1 Pro vẫn dẫn trước ở hầu hết các hạng mục. Khoảng cách rõ ràng nhất trên ARC AGI 2, điểm chuẩn giải đố suy luận trừu tượng: Gemini đạt 76,5 điểm so với 42,5 của Muse Spark.

Về lập trình (LiveCodeBench Pro), 82,9 điểm của Gemini vượt trội so với 80,0 của Meta. Về MMMU Pro—khả năng hiểu đa phương thức—Gemini đạt 83,9 điểm so với 80,4. Blog của Meta cũng thừa nhận những khoảng cách về hiệu suất hiện tại trong các hệ thống tác tử tầm nhìn dài hạn và quy trình làm việc lập trình.

Ngoài ra còn có một sự thay đổi chiến lược đáng chú ý được lồng ghép vào đợt ra mắt này. Muse Spark là một mô hình đóng—kiến trúc và trọng số của nó sẽ không được công khai. Đây là một sự khác biệt lớn so với Llama, vốn đã xây dựng danh tiếng của Meta trong các cộng đồng AI mở. Sau sự đón nhận không mấy ấn tượng của Llama 4 vào đầu năm nay, Meta dường như đã quyết định rằng chương tiếp theo cần phải được viết khác đi.

Công ty cho biết họ hy vọng sẽ công khai mã nguồn các phiên bản Muse trong tương lai, nhưng hiện tại mã vẫn được giữ kín bên trong Meta. Cổ phiếu của gã khổng lồ công nghệ này đã tăng gần 9% vào thứ Tư sau thông báo, và kết thúc ngày giao dịch tăng 6,5% lên mức giá 612,42 USD.

“Chế độ suy tư” sử dụng sự điều phối tác tử song song để đẩy giới hạn của mô hình lên cao hơn. Trong cấu hình đó, Muse Spark đạt 58% trên Humanity's Last Exam và 38% trên FrontierScience Research—lãnh địa này khiến nó cạnh tranh được với các phiên bản Gemini và GPT mạnh nhất, thay vì các phiên bản tiêu chuẩn của chúng.

Meta cũng đang triển khai một trợ lý mua sắm có thể so sánh sản phẩm và liên kết trực tiếp đến các giao dịch mua, đồng thời có kế hoạch đưa Muse Spark lên Facebook, Instagram và WhatsApp trong những tuần tới—theo cùng kịch bản đã được thực hiện kể từ Llama 3, đưa nó đến trước hơn 3,5 tỷ người dùng. Một bản xem trước API riêng tư đang được mở cho các nhà phát triển được chọn.

Mô hình này được xây dựng trong chín tháng, với tên mã nội bộ là Avocado, và Meta tuyên bố rằng ngăn xếp tiền huấn luyện mới của họ có thể đạt được cùng mức khả năng như Llama 4 Maverick trong khi sử dụng ít hơn 10 lần tài nguyên tính toán.

Muse Spark được mô tả nội bộ là bước đầu tiên "nhỏ và nhanh" trong dòng sản phẩm Muse. Một phiên bản có khả năng hơn đang được phát triển.