google-make-local-ai-3x-faster-no-new-hardware
Google heeft een manier gevonden om lokale AI tot 3x sneller te maken—zonder nieuwe hardware vereist
De nieuwe Multi-Token Prediction drafters van Google kunnen Gemma 4 tot wel 3 keer sneller laten draaien op je eigen hardware—geen cloud nodig, en zonder kwaliteitsverlies.
2026-05-07 Bron:decrypt.co

In het kort

  • Google heeft Multi-Token Prediction (MTP) 'drafters' uitgebracht voor Gemma 4, wat een snelheidsverhoging tot 3x oplevert bij inferentie zonder enige afname van de uitvoerkwaliteit.
  • De techniek – 'speculatieve decodering' genoemd – gebruikt een lichtgewicht 'drafter'-model om meerdere tokens tegelijkertijd te voorspellen. Het hoofdmodel verifieert deze vervolgens parallel, waardoor de beperking van één token per keer wordt omzeild.
  • MTP drafters zijn beschikbaar op Hugging Face, Kaggle en Ollama onder dezelfde Apache 2.0-licentie als Gemma 4, en werken met tools zoals vLLM, MLX en SGLang.

Een AI-model op je eigen computer draaien is geweldig – totdat het dat niet meer is.

De belofte is privacy, geen abonnementskosten en geen gegevens die je machine verlaten. De realiteit voor de meeste mensen is dat je een cursor vijf seconden ziet knipperen tussen zinnen.

Dat knelpunt heeft een naam: inferentiesnelheid. En het heeft niets te maken met hoe slim het model is. Het is een hardwareprobleem. Standaard AI-modellen genereren tekst één woordfragment – een 'token' genaamd – tegelijk. De hardware moet miljarden parameters van het geheugen naar zijn rekeneenheden verplaatsen om elke afzonderlijke token te produceren. Het is inherent langzaam. Op consumentenhardware is het pijnlijk.

De oplossing waar de meeste mensen naar grijpen, is het draaien van kleinere, zwakkere modellen – of zwaar gecomprimeerde versies, 'gequantiseerde modellen' genoemd, die enige kwaliteit opofferen voor snelheid. Geen van beide oplossingen is geweldig. Je krijgt iets dat werkt, maar het is niet het model dat je eigenlijk wilde.

Nu heeft Google een ander idee. Het bedrijf heeft zojuist Multi-Token Prediction (MTP) drafters uitgebracht voor zijn Gemma 4 familie van open modellen – een techniek die een snelheidsverhoging tot 3x kan opleveren zonder de kwaliteit of het redeneervermogen van het model aan te tasten.

Deze aanpak wordt 'speculatieve decodering' genoemd en bestaat al jaren als concept. Onderzoekers van Google publiceerden het fundamentele artikel al in 2022. Het idee is pas nu mainstream geworden omdat de juiste architectuur nodig was om het op schaal te laten werken.

Hier is de korte versie van hoe het werkt. In plaats van het grote, krachtige model al het werk alleen te laten doen, koppel je het aan een klein 'drafter'-model. De drafter is snel en goedkoop – het voorspelt meerdere tokens tegelijk in minder tijd dan het hoofdmodel nodig zou hebben om er slechts één te produceren. Vervolgens controleert het grote model al die gissingen in één keer. Als de gissingen correct zijn, dan krijg je de hele reeks voor de prijs van één forward pass.

Volgens Google geldt: "als het doelmodel akkoord gaat met het concept, accepteert het de hele reeks in één enkele forward pass – en genereert het zelfs een extra eigen token in het proces."

Niets wordt opgeofferd: Het grote model – bijvoorbeeld Gemma 4's 31B dense versie – verifieert nog steeds elke token, en de uitvoerkwaliteit is identiek. Je benut gewoon inactieve rekenkracht die tijdens de trage delen ongebruikt bleef.

Google zegt dat de drafter-modellen de KV-cache van het doelmodel delen – een geheugenstructuur die reeds verwerkte context opslaat – zodat ze geen tijd verspillen aan het herberekenen van dingen die het grotere model al weet. Voor de kleinere edge-modellen, ontworpen voor telefoons en Raspberry Pi-apparaten, heeft het team zelfs een efficiënte clusteringtechniek ontwikkeld om de generatietijd verder te verkorten.

Dit is niet de enige poging die de AI-wereld heeft gedaan om tekstgeneratie te paralleliseren. Diffusie-gebaseerde taalmodellen – zoals Mercury van Inception Labs – probeerden een compleet andere aanpak: In plaats van één token tegelijk te voorspellen, beginnen ze met ruis en verfijnen ze de gehele uitvoer iteratief. Dat is op papier snel, maar diffusie LLM's hebben moeite gehad om de kwaliteit van traditionele transformermodellen te evenaren, waardoor ze meer een onderzoekscuriositeit zijn gebleven dan een praktisch hulpmiddel.

Speculatieve decodering is anders omdat het het onderliggende model helemaal niet verandert. Het is een serving-optimalisatie, geen architectuurvervanging. Dezelfde Gemma 4 die je al zou draaien, wordt sneller.

Het praktische voordeel is reëel. Een Gemma 4 26B-model dat draait op een Nvidia RTX Pro 6000 desktop GPU krijgt ruwweg twee keer zoveel tokens per seconde met de MTP drafter ingeschakeld, volgens Google's eigen benchmarks. Op Apple Silicon ontgrendelen batchgroottes van 4 tot 8 verzoeken snelheidsverhogingen van ongeveer 2,2x. Niet helemaal de 3x grens in elk scenario, maar nog steeds een zinvol verschil tussen "nauwelijks bruikbaar" en "daadwerkelijk snel genoeg om mee te werken".

De context is hier van belang. Toen het Chinese model DeepSeek in januari 2025 de markt schokte – door op één dag 600 miljard dollar van Nvidia's marktkapitalisatie weg te vagen – was de belangrijkste les dat efficiëntiewinst harder kan aankomen dan pure rekenkracht. Slimmer werken is beter dan meer hardware op het probleem gooien. Google's MTP drafter is nog een stap in die richting, zij het gericht op de consumentenmarkt.

De hele AI-industrie is momenteel een driehoek die inferentie, training en geheugen in overweging neemt. Elke doorbraak op een van deze gebieden stimuleert of schokt het hele ecosysteem. DeepSeek's trainingsaanpak (krachtige modellen bereiken met goedkopere hardware) was één voorbeeld, terwijl Google's TurboQuant-paper (AI-geheugen verkleinen zonder kwaliteitsverlies) een ander was. Beide deden de markten crashen toen bedrijven probeerden te achterhalen wat te doen.

Google zegt dat de drafter "verbeterde responsiviteit" mogelijk maakt: "een drastische vermindering van de latentie voor bijna realtime chat, immersieve spraakapplicaties en agentic workflows" – het soort taken dat lage latentie vereist om überhaupt nuttig te zijn.

Gebruiksscenario's komen snel in beeld: Een lokale codeerassistent die niet hapert; een steminterface die reageert voordat je vergeten bent wat je vroeg; een 'agentic workflow' waarbij je geen drie seconden hoeft te wachten tussen de stappen. Dit alles, op hardware die je al bezit.

De MTP drafters zijn nu beschikbaar op Hugging Face, Kaggle en Ollama, onder de Apache 2.0-licentie. Ze werken direct met vLLM, MLX, SGLang en Hugging Face Transformers.