google-make-local-ai-3x-faster-no-new-hardware
Nakalimbag ang Google ng Paraan para Pabilisin ang Lokal na AI ng Hanggang 3x—Hindi Kailangan ng Bagong Hardware
Ang bagong Multi-Token Prediction drafters ng Google ay maaaring mapatakbo ang Gemma 4 nang hanggang 3x na mas mabilis sa iyong sariling hardware—hindi kailangan ang cloud, at walang nawawalang kalidad.
2026-05-07 Pinagmulan:decrypt.co

Sa maikli

  • Naglabas ang Google ng Multi-Token Prediction (MTP) drafters para sa Gemma 4, na naghahatid ng hanggang 3x na bilis sa inference nang walang pagkasira sa kalidad ng output.
  • Ang pamamaraan—tinatawag na speculative decoding—ay gumagamit ng magaan na modelong "drafter" upang hulaan ang ilang tokens nang sabay-sabay, na pagkatapos ay i-verify ng pangunahing modelo nang parallel, na nilalampasan ang hadlang ng paggawa ng isang token bawat oras.
  • Ang MTP drafters ay available sa Hugging Face, Kaggle, at Ollama sa ilalim ng parehong lisensya ng Apache 2.0 bilang Gemma 4, at gumagana sa mga tool tulad ng vLLM, MLX, at SGLang.

Ang pagpapatakbo ng AI model sa sarili mong computer ay mahusay—hanggang sa hindi na.

Ang pangako ay privacy, walang subscription fees, at walang data na umaalis sa iyong makina. Ang katotohanan, para sa karamihan ng mga tao, ay ang panonood ng cursor na kumukurap ng limang segundo sa pagitan ng mga pangungusap.

Ang hadlang na iyon ay may pangalan: bilis ng inference. At wala itong kinalaman sa kung gaano katalino ang modelo. Ito ay problema sa hardware. Ang mga karaniwang modelo ng AI ay bumubuo ng text isang word fragment—tinatawag na token—sa bawat pagkakataon. Kailangang ilipat ng hardware ang bilyun-bilyong parameter mula sa memorya patungo sa mga yunit ng compute nito para lang makabuo ng bawat solong token. Mabagal ito sa disenyo. Sa consumer hardware, masakit ito.

Ang workaround na karaniwang ginagawa ng karamihan ng mga tao ay ang pagpapatakbo ng mas maliliit, mas mahihinang modelo—o mga bersyon na lubhang naka-compress, tinatawag na quantized models, na isinasakripisyo ang ilang kalidad para sa bilis. Walang alinman sa mga solusyon na mahusay. Nakakakuha ka ng isang bagay na tumatakbo, ngunit hindi ito ang modelong gusto mo talaga.

Ngayon ay may ibang ideya ang Google. Kaka-release lang ng kumpanya ng Multi-Token Prediction (MTP) drafters para sa kanilang Gemma 4 pamilya ng open models—isang teknik na makakapaghatid ng hanggang 3x na bilis nang hindi man lang naaapektuhan ang kalidad o kakayahan sa pagrason ng modelo.

Ang pamamaraan ay tinatawag na speculative decoding, at ito ay matagal nang umiiral bilang isang konsepto. Inilabas ng mga mananaliksik ng Google ang pundasyong papel noong 2022. Hindi ito naging mainstream hanggang ngayon dahil nangailangan ito ng tamang arkitektura upang ito ay gumana sa malawakang sukat.

Narito ang maikling bersyon kung paano ito gumagana. Sa halip na hayaang gawin ng malaki at makapangyarihang modelo ang lahat ng trabaho nang mag-isa, ipinapares mo ito sa isang maliit na modelong "drafter". Ang drafter ay mabilis at mura—hinuhulaan nito ang ilang token nang sabay-sabay sa mas maikling panahon kaysa sa gugugulin ng pangunahing modelo para lang makabuo ng isa. Pagkatapos ay sinusuri ng malaking modelo ang lahat ng hula na iyon sa isang pass. Kung tama ang mga hula, makukuha mo ang buong sequence sa halaga ng isang forward pass.

Ayon sa Google, "kung sumasang-ayon ang target na modelo sa draft, tinatanggap nito ang buong sequence sa isang solong forward pass—at bumubuo pa ng karagdagang token nito sa proseso."

Walang isinasakripisyo: Ang malaking modelo—halimbawa, ang 31B dense version ng Gemma 4—ay patuloy pa ring kino-verify ang bawat token, at ang kalidad ng output ay magkapareho. Sinasamantala mo lang ang idle compute power na hindi nagagamit sa mga mababagal na bahagi.

Sinasabi ng Google na ang mga drafter model ay nagbabahagi ng KV cache ng target model—isang istraktura ng memorya na nagtatago ng mga naiprosesong konteksto—kaya hindi sila nag-aaksaya ng oras sa muling pagkalkula ng mga bagay na alam na ng mas malaking modelo. Para sa mas maliliit na edge models na idinisenyo para sa mga telepono at Raspberry Pi device, bumuo pa ang team ng isang mahusay na clustering technique upang higit pang bawasan ang oras ng pagbuo.

Hindi lamang ito ang pagtatangka ng mundo ng AI sa pagpapagana ng parallel na pagbuo ng text. Ang mga modelo ng wika na batay sa diffusion—tulad ng Mercury mula sa Inception Labs—ay sumubok ng ganap na ibang diskarte: Sa halip na hulaan ang isang token sa bawat pagkakataon, nagsisimula sila sa ingay at paunti-unting pinipino ang buong output. Mabilis iyon sa papel, ngunit nahihirapan ang diffusion LLM na tularan ang kalidad ng mga tradisyonal na modelo ng transformer, kaya't mas nananatili silang research curiosity kaysa isang praktikal na tool.

Iba ang speculative decoding dahil hindi nito binabago ang pinagbabatayan na modelo. Ito ay isang serving optimization, hindi isang kapalit ng arkitektura. Ang parehong Gemma 4 na pinapatakbo mo na ay bumibilis.

Ang praktikal na pakinabang ay totoo. Ang isang Gemma 4 26B model na tumatakbo sa isang Nvidia RTX Pro 6000 desktop GPU ay nakakakuha ng halos doble ang tokens per second na may MTP drafter na pinagana, ayon sa sariling benchmarks ng Google. Sa Apple Silicon, ang mga batch size na 4 hanggang 8 kahilingan ay nagbibigay ng humigit-kumulang 2.2x na pagbilis. Hindi eksaktong 3x ang limitasyon sa bawat sitwasyon, ngunit isa pa ring makabuluhang pagkakaiba sa pagitan ng "halos hindi magagamit" at "talagang sapat na ang bilis para magamit".

Mahalaga ang konteksto dito. Nang gulantangin ng Chinese model na DeepSeek ang merkado noong Enero 2025—binura ang $600 bilyon mula sa market cap ng Nvidia sa isang araw—ang pangunahing aral ay ang mga pagpapahusay sa kahusayan ay maaaring mas matindi kaysa sa raw compute. Ang pagpapatakbo nang mas matalino ay mas mahusay kaysa sa pagdaragdag ng mas maraming hardware sa problema. Ang MTP drafter ng Google ay isa pang hakbang sa direksyon na iyon, maliban na ito ay direktang naglalayon sa consumer end ng merkado.

Ang buong industriya ng AI ngayon ay isang tatsulok na isinasaalang-alang ang inference, training, at memorya. Bawat breakthrough sa alinmang lugar ay may posibilidad na palakasin o gulatin ang buong ecosystem. Ang training approach ng DeepSeek (pagkamit ng malalakas na modelo na may lower end hardware) ay isang halimbawa, habang ang papel ng Google na TurboQuant (pagpapaliit ng AI memory nang hindi nawawala ang kalidad) ay isa pa. Parehong bumagsak ang mga merkado habang sinusubukan ng mga kumpanya na alamin kung ano ang gagawin.

Sinasabi ng Google na ang drafter ay nagbubukas ng "pinahusay na pagtugon: lubhang binabawasan ang latency para sa halos real-time na chat, immersive voice application at agentic workflows"—ang uri ng mga gawain na nangangailangan ng mababang latency upang maging kapaki-pakinabang.

Mabilis na nagiging malinaw ang mga kaso ng paggamit: Isang lokal na coding assistant na hindi nagla-lag; isang voice interface na tumutugon bago mo pa makalimutan ang iyong tinanong; isang agentic workflow na hindi ka pinaghihintay ng tatlong segundo sa pagitan ng mga hakbang. Lahat ng ito, sa hardware na pagmamay-ari mo na.

Ang MTP drafters ay available na ngayon sa Hugging Face, Kaggle, at Ollama, sa ilalim ng lisensya ng Apache 2.0. Gumagana ang mga ito sa vLLM, MLX, SGLang, at Hugging Face Transformers kaagad.