google-make-local-ai-3x-faster-no-new-hardware
Google a trouvé un moyen d'accélérer l'IA locale jusqu'à 3 fois — sans nouveau matériel requis
Les nouveaux rédacteurs Multi-Token Prediction de Google peuvent faire fonctionner Gemma 4 jusqu’à 3 fois plus rapidement sur votre propre matériel—sans cloud requis et sans perte de qualité.
2026-05-07 Source:decrypt.co

En bref

  • Google a lancé des « drafters » (modèles de rédaction préliminaire) de prédiction multi-jetons (MTP) pour Gemma 4, offrant une accélération jusqu'à 3x lors de l'inférence sans aucune dégradation de la qualité de la sortie.
  • La technique — appelée décodage spéculatif — utilise un modèle « drafter » léger pour prédire plusieurs jetons à la fois, que le modèle principal vérifie ensuite en parallèle, contournant ainsi le goulot d'étranglement de la génération un jeton à la fois.
  • Les « drafters » MTP sont disponibles sur Hugging Face, Kaggle et Ollama sous la même licence Apache 2.0 que Gemma 4, et fonctionnent avec des outils comme vLLM, MLX et SGLang.

Exécuter un modèle d'IA sur son propre ordinateur, c'est génial — jusqu'à ce que ça ne le soit plus.

La promesse est la confidentialité, l'absence de frais d'abonnement et l'assurance que les données ne quittent pas votre machine. La réalité, pour la plupart des gens, est de voir un curseur clignoter pendant cinq secondes entre les phrases.

Ce goulot d'étranglement a un nom : la vitesse d'inférence. Et cela n'a rien à voir avec l'intelligence du modèle. C'est un problème matériel. Les modèles d'IA standards génèrent du texte fragment par fragment — appelé jeton — un à la fois. Le matériel doit transférer des milliards de paramètres de la mémoire vers ses unités de calcul juste pour produire chaque jeton. C'est lent par conception. Sur le matériel grand public, c'est pénible.

La solution de contournement que la plupart des gens adoptent est d'exécuter des modèles plus petits, moins puissants — ou des versions fortement compressées, appelées modèles quantifiés, qui sacrifient une partie de la qualité pour la vitesse. Aucune des deux solutions n'est excellente. On obtient quelque chose qui fonctionne, mais ce n'est pas le modèle que l'on voulait réellement.

Maintenant, Google a une idée différente. L'entreprise vient de lancer des « drafters » de prédiction multi-jetons (MTP) pour sa famille de modèles ouverts Gemma 4 — une technique qui peut offrir une accélération jusqu'à 3x sans altérer la qualité ou la capacité de raisonnement du modèle.

L'approche s'appelle le décodage spéculatif, et elle existe en tant que concept depuis des années. Les chercheurs de Google ont publié le document fondateur en 2022. L'idée n'est pas devenue courante avant aujourd'hui car elle nécessitait la bonne architecture pour fonctionner à grande échelle.

Voici la version courte de son fonctionnement. Au lieu de laisser le grand modèle puissant faire tout le travail seul, vous le couplez avec un minuscule modèle « drafter ». Le « drafter » est rapide et peu coûteux — il prédit plusieurs jetons à la fois en moins de temps qu'il n'en faudrait au modèle principal pour en produire un seul. Ensuite, le grand modèle vérifie toutes ces prédictions en un seul passage. Si les prédictions sont correctes, vous obtenez toute la séquence pour le prix d'un seul passage avant.

Selon Google, « si le modèle cible est d'accord avec le brouillon, il accepte toute la séquence en un seul passage avant — et génère même un jeton supplémentaire de son propre chef au cours du processus ».

Rien n'est sacrifié : Le grand modèle — la version dense 31B de Gemma 4, par exemple — vérifie toujours chaque jeton, et la qualité de la sortie est identique. Vous ne faites qu'exploiter la puissance de calcul inactive qui était inutilisée pendant les phases lentes.

Google indique que les modèles « drafters » partagent le cache KV du modèle cible — une structure de mémoire qui stocke le contexte déjà traité — afin qu'ils ne perdent pas de temps à recalculer des choses que le modèle plus grand connaît déjà. Pour les modèles de périphérie plus petits conçus pour les téléphones et les appareils Raspberry Pi, l'équipe a même développé une technique de clustering efficace pour réduire davantage le temps de génération.

Ce n'est pas la seule tentative que le monde de l'IA a faite pour paralléliser la génération de texte. Les modèles linguistiques basés sur la diffusion — comme Mercury d'Inception Labs — ont essayé une approche complètement différente : au lieu de prédire un jeton à la fois, ils commencent par du bruit et affinent itérativement la sortie entière. C'est rapide sur le papier, mais les LLM de diffusion ont eu du mal à égaler la qualité des modèles transformeurs traditionnels, les laissant plus comme une curiosité de recherche qu'un outil pratique.

Le décodage spéculatif est différent car il ne modifie pas du tout le modèle sous-jacent. C'est une optimisation de service, pas un remplacement d'architecture. Le même Gemma 4 que vous exécutiez déjà devient plus rapide.

L'avantage pratique est réel. Un modèle Gemma 4 26B fonctionnant sur un GPU de bureau Nvidia RTX Pro 6000 obtient environ deux fois plus de jetons par seconde avec le « drafter » MTP activé, selon les propres benchmarks de Google. Sur Apple Silicon, des tailles de lot de 4 à 8 requêtes débloquent des accélérations d'environ 2,2x. Pas tout à fait le plafond de 3x dans tous les scénarios, mais toujours une différence significative entre « à peine utilisable » et « suffisamment rapide pour travailler avec ».

Le contexte est important ici. Lorsque le modèle chinois DeepSeek a choqué le marché en janvier 2025 — effaçant 600 milliards de dollars de la capitalisation boursière de Nvidia en une seule journée — la leçon principale était que les gains d'efficacité peuvent avoir un impact plus fort que la puissance de calcul brute. Travailler plus intelligemment vaut mieux que d'ajouter du matériel au problème. Le « drafter » MTP de Google est un autre pas dans cette direction, mais il vise directement le marché grand public.

L'ensemble de l'industrie de l'IA est actuellement un triangle qui prend en compte l'inférence, l'entraînement et la mémoire. Chaque percée dans l'un ou l'autre de ces domaines tend à stimuler ou à choquer l'ensemble de l'écosystème. L'approche d'entraînement de DeepSeek (atteindre des modèles puissants avec du matériel moins performant) en était un exemple, tandis que le document TurboQuant de Google (réduire la mémoire d'IA sans perdre en qualité) en était un autre. Les deux ont fait chuter les marchés alors que les entreprises essayaient de comprendre quoi faire.

Google affirme que le « drafter » permet une « réactivité améliorée : réduire drastiquement la latence pour les chats quasi en temps réel, les applications vocales immersives et les flux de travail agentiques » — le genre de tâches qui exigent une faible latence pour être utiles.

Les cas d'utilisation apparaissent rapidement : un assistant de codage local qui ne lag pas ; une interface vocale qui répond avant que vous n'ayez oublié ce que vous avez demandé ; un flux de travail agentique qui ne vous fait pas attendre trois secondes entre chaque étape. Tout cela, sur le matériel que vous possédez déjà.

Les « drafters » MTP sont désormais disponibles sur Hugging Face, Kaggle et Ollama, sous la licence Apache 2.0. Ils fonctionnent d'emblée avec vLLM, MLX, SGLang et Hugging Face Transformers.