google-make-local-ai-3x-faster-no-new-hardware
Google encontró una forma de hacer que la IA local sea hasta 3 veces más rápida—sin necesidad de nuevo hardware
Los nuevos redactores de predicción mult tokens de Google pueden hacer que Gemma 4 funcione hasta 3 veces más rápido en tu propio hardware, sin necesidad de la nube y sin pérdida de calidad.
2026-05-07 Fuente:decrypt.co

En resumen

  • Google lanzó los borradores de Predicción de Múltiples Tokens (MTP) para Gemma 4, logrando una aceleración de hasta 3 veces en la inferencia sin degradación alguna en la calidad de la salida.
  • La técnica—llamada decodificación especulativa—utiliza un modelo "borrador" ligero para predecir varios tokens a la vez, que luego el modelo principal verifica en paralelo, evitando el cuello de botella de un token a la vez.
  • Los borradores MTP están disponibles en Hugging Face, Kaggle y Ollama bajo la misma licencia Apache 2.0 que Gemma 4, y funcionan con herramientas como vLLM, MLX y SGLang.

Ejecutar un modelo de IA en tu propio ordenador es genial, hasta que deja de serlo.

La promesa es privacidad, sin tarifas de suscripción y sin que los datos salgan de tu máquina. La realidad, para la mayoría de la gente, es ver un cursor parpadear durante cinco segundos entre frases.

Ese cuello de botella tiene un nombre: velocidad de inferencia. Y no tiene nada que ver con lo inteligente que sea el modelo. Es un problema de hardware. Los modelos de IA estándar generan texto fragmento a fragmento—llamado token—a la vez. El hardware tiene que mover miles de millones de parámetros de la memoria a sus unidades de cómputo solo para producir cada token. Es lento por diseño. En hardware de consumo, es doloroso.

La solución a la que recurre la mayoría de la gente es ejecutar modelos más pequeños y débiles, o versiones altamente comprimidas, llamadas modelos cuantizados, que sacrifican algo de calidad por velocidad. Ninguna de las dos soluciones es ideal. Obtienes algo que funciona, pero no es el modelo que realmente querías.

Ahora Google tiene una idea diferente. La compañía acaba de lanzar los borradores de Predicción de Múltiples Tokens (MTP) para su familia de modelos abiertos Gemma 4, una técnica que puede ofrecer una aceleración de hasta 3 veces sin afectar en absoluto la calidad o la capacidad de razonamiento del modelo.

El enfoque se llama decodificación especulativa, y ha existido como concepto durante años. Los investigadores de Google publicaron el artículo fundamental en 2022. La idea no se generalizó hasta ahora porque requería la arquitectura adecuada para hacerla funcionar a escala.

Aquí está la versión corta de cómo funciona. En lugar de hacer que el modelo grande y potente haga todo el trabajo solo, lo combinas con un pequeño modelo "borrador". El borrador es rápido y económico: predice varios tokens a la vez en menos tiempo de lo que el modelo principal tardaría en producir solo uno. Luego, el modelo grande verifica todas esas suposiciones en una sola pasada. Si las suposiciones son correctas, entonces obtienes toda la secuencia por el precio de una pasada hacia adelante.

Según Google, "si el modelo objetivo está de acuerdo con el borrador, acepta toda la secuencia en una sola pasada hacia adelante, e incluso genera un token adicional propio en el proceso."

No se sacrifica nada: El modelo grande—la versión densa de 31B de Gemma 4, por ejemplo—todavía verifica cada token, y la calidad de la salida es idéntica. Simplemente estás explotando la capacidad de cómputo inactiva que estaba sin usar durante las partes lentas.

Google dice que los modelos borradores comparten la caché KV del modelo objetivo—una estructura de memoria que almacena el contexto ya procesado—para no perder tiempo recalculando cosas que el modelo más grande ya sabe. Para los modelos de borde más pequeños diseñados para teléfonos y dispositivos Raspberry Pi, el equipo incluso construyó una técnica de agrupamiento eficiente para reducir aún más el tiempo de generación.

Este no es el único intento que el mundo de la IA ha hecho para paralelizar la generación de texto. Los modelos de lenguaje basados en difusión—como Mercury de Inception Labs—probaron un enfoque completamente diferente: en lugar de predecir un token a la vez, comienzan con ruido y refinan iterativamente toda la salida. Eso es rápido en teoría, pero los LLM de difusión han tenido dificultades para igualar la calidad de los modelos transformadores tradicionales, lo que los convierte más en una curiosidad de investigación que en una herramienta práctica.

La decodificación especulativa es diferente porque no cambia en absoluto el modelo subyacente. Es una optimización de servicio, no un reemplazo de arquitectura. El mismo Gemma 4 que ya ejecutarías se vuelve más rápido.

La ventaja práctica es real. Un modelo Gemma 4 de 26B ejecutándose en una GPU de escritorio Nvidia RTX Pro 6000 obtiene aproximadamente el doble de tokens por segundo con el borrador MTP habilitado, según los propios puntos de referencia de Google. En Apple Silicon, los tamaños de lote de 4 a 8 solicitudes desbloquean aceleraciones de alrededor de 2.2x. No es el techo de 3x en todos los escenarios, pero sigue siendo una diferencia significativa entre "apenas utilizable" y "lo suficientemente rápido como para trabajar con él".

El contexto aquí importa. Cuando el modelo chino DeepSeek conmocionó el mercado en enero de 2025—eliminando 600 mil millones de dólares de la capitalización de mercado de Nvidia en un solo día—la lección principal fue que las ganancias de eficiencia pueden golpear más fuerte que la computación bruta. Operar de forma más inteligente supera a lanzar más hardware al problema. El borrador MTP de Google es otro paso en esa dirección, excepto que está dirigido directamente al segmento de consumo del mercado.

Toda la industria de la IA es ahora un triángulo que considera la inferencia, el entrenamiento y la memoria. Cada avance en cualquiera de estas áreas tiende a impulsar o conmocionar a todo el ecosistema. El enfoque de entrenamiento de DeepSeek (lograr modelos potentes con hardware de gama baja) fue un ejemplo, mientras que el documento TurboQuant de Google (reducción de la memoria de IA sin perder calidad) fue otro. Ambos hicieron que los mercados se desplomaran mientras las empresas intentaban descifrar qué hacer.

Google dice que el borrador desbloquea "una capacidad de respuesta mejorada: reduciendo drásticamente la latencia para el chat casi en tiempo real, las aplicaciones de voz inmersivas y los flujos de trabajo basados en agentes"—el tipo de tareas que exigen baja latencia para sentirse útiles en absoluto.

Los casos de uso se enfocan rápidamente: Un asistente de codificación local que no se retrasa; una interfaz de voz que responde antes de que hayas olvidado lo que preguntaste; un flujo de trabajo basado en agentes que no te hace esperar tres segundos entre pasos. Todo esto, en el hardware que ya posees.

Los borradores MTP ya están disponibles en Hugging Face, Kaggle y Ollama, bajo la licencia Apache 2.0. Funcionan de forma inmediata con vLLM, MLX, SGLang y Hugging Face Transformers.