Strona głównaCentrum wiadomości LBank
AI Mercury 2 Inception Labs pokonuje DiffusionGemma Google'a w jego własnej grze
inception-labs-mercury-2-ai-beats-googles-diffusiongemma
AI Mercury 2 Inception Labs pokonuje DiffusionGemma Google'a w jego własnej grze
Oba modele zamieniają generowanie słowo po słowie na równoległe odszumianie. Tylko jeden z nich robi to bez utraty inteligencji w tej wymianie.
2026-06-21 Źródło:decrypt.co

W skrócie

  • Mercury 2 od Inception Labs generuje około 1000 tokenów na sekundę i uzyskał 90 punktów w AIME 2026
  • Niedawny DiffusionGemma od Google osiąga podobne prędkości, ale gorzej wypada w testach porównawczych.
  • DiffusionGemma jest darmowy i dostępny jako model o otwartych wagach na Hugging Face. Mercury 2 to płatny model API o zamkniętych wagach.

Inception Labs zaprezentowało w czwartek Mercury 2, nazywając go najszybszym na świecie rozumującym modelem językowym. Według ogłoszenia firmy, generuje on około 1000 tokenów na sekundę — czyli fragmentów tekstu, które model AI odczytuje i zapisuje — w porównaniu do około 89 tokenów na sekundę dla Anthropic’s Claude Haiku 4.5 Reasoning i 71 dla OpenAI’s GPT-5 Mini.

To stawia go w tej samej klasie prędkości, co Google później ogłosił dla DiffusionGemma.

Welcome to the diffusion era.

We bet on parallel generation years ago, when it was a contrarian idea. It's great to see the industry arrive.

Mercury 2 continues to lead the Pareto frontier for quality, speed, and cost among publicly available diffusion LLMs. pic.twitter.com/qSHuiR7vmH

— Inception (@_inception_ai) June 18, 2026

Obydwa modele osiągają to, rezygnując z "maszynowego" podejścia do pisania. Standardowy chatbot pisze jedno słowo, sprawdza, co właśnie napisał, a następnie pisze następne, zapętlając się, aż odpowiedź zostanie ukończona. Modele dyfuzyjne zamiast tego wypełniają blok tekstu losowymi tokenami-wypełniaczami i usuwają szum w kilku równoległych przebiegach — ta sama sztuczka, która zamienia szum w zdjęcie w generatorach obrazów, takich jak Stable Diffusion — aż cały blok jednocześnie utworzy gotową odpowiedź.

Różnica między nimi polega na tym, co przetrwa ten proces. W teście AIME 2026 — stworzonym na podstawie prawdziwych problemów z American Invitational Mathematics Examination i ocenianym jako procent poprawnie rozwiązanych zadań — Mercury 2 osiągnął 90%. Google przetestował DiffusionGemma na tym samym zestawie, gdzie uzyskał wynik 69,1%, podczas gdy standardowy, niedyfuzyjny Gemma 4 uzyskał 88,3% w tym samym teście.

W GPQA, benchmarku naukowym na poziomie doktoranckim, ocenianym w ten sam sposób, oba modele są niemal równe: Mercury 2 na poziomie 77% w porównaniu do 73,2% dla DiffusionGemma. Jednak własny przewodnik dla deweloperów Google rekomenduje standardowy model Gemma 4 do zastosowań wymagających maksymalnej jakości, przyznając, że DiffusionGemma ustępuje mu pod każdym względem.

Twierdzenie o prędkości potwierdza się również poza laboratorium. Augment Code, firma zajmująca się agentami AI do kodowania, zastąpiła model Claude Opus 4.7 Anthropic modelem Mercury 2 w swoim subagencie do kompresji kontekstu i odnotowała 82% spadek opóźnienia oraz 90% redukcję kosztów, jednocześnie zgłaszając tę samą jakość wyników, zgodnie ze wspólnym studium przypadku.

Inception powstało w oparciu o badania jej założyciela Stefano Ermona, profesora Stanforda, który był współautorem niektórych technik dyfuzji opartych na wynikach, które zasilają dzisiejsze generatory obrazów. Runda finansowania startupu o wartości 50 milionów dolarów przyciągnęła wsparcie od ramienia venture Nvidii oraz indywidualnych inwestorów Andrew Ng i Andreja Karpathy'ego.

Dla użytkowników nietechnicznych, najważniejszą rzeczą, której większość ludzi nie zauważa, dopóki jej nie poczuje, jest „płynność”. Tradycyjne modele zmuszają do czekania między myślami podczas długiej sesji. Modele dyfuzyjne, takie jak ten, sprawiają, że AI wydaje się nadążać za użytkownikiem — natychmiastowe autouzupełnianie, szybkie iteracje kodu lub planów oraz subagenci, którzy mogą obsługiwać nudną, wysokoobjętościową pracę bez spowalniania całego systemu.

Ta warstwa subagentów to interesująca zmiana architektoniczna. Złożone systemy AI nie są już jednym gigantycznym inteligentnym modelem. To orkiestry wyspecjalizowanych pomocników: jeden do głębokiego rozumowania, kilka do szybkiego podsumowywania, routingu, wyszukiwania narzędzi, sprawdzania wyników itp. Modele sekwencyjne sprawiają, że te wywołania użyteczności są drogie i wolne. Modele dyfuzyjne działające równolegle czynią je tanimi i wystarczająco szybkimi, aby używać ich swobodnie.

Realistyczne zastrzeżenia dla zwykłych użytkowników: Modele te są nadal najlepsze do szybkich, wysokoobjętościowych części przepływów pracy, a nie do najtrudniejszych zadań rozumowania na pograniczu (gdzie największe modele AR mogą nadal mieć przewagę). Mercury 2 nie jest modelem o otwartych wagach, więc na razie jest dostępny jako API/chmura. I podobnie jak w przypadku wersji Google, cały ekosystem (lokalne środowiska uruchomieniowe, frameworki agentów) wciąż dogania, aby zapewnić jego bezproblemowe działanie wszędzie.

Natychmiastowo pojawiające się przypadki użycia: programowanie w czasie rzeczywistym i "vibe coding", gdzie model nadąża za edycjami, wieloagentowe systemy kodowania lub wsparcia, gdzie zachodzi wiele szybkich wywołań, interfejsy głosowe, które nie wydają się opóźnione, oraz wszelkie autouzupełnianie lub przewidywanie następnych działań wrażliwych na opóźnienia. Na dużą skalę, oszczędności kosztów i energii wynikające z większej przepustowości na standardowym sprzęcie szybko się sumują.

Liczby udostępnione przez Inception (i niezależne oceny) wizualnie potwierdzają to: Mercury 2 znajduje się w kwadrancie "szybki i dobry" dla modeli dyfuzyjnych, przesuwając to, co kiedyś wymagało egzotycznego sprzętu, na ogólnodostępne karty graficzne.