
اجرای یک مدل هوش مصنوعی روی رایانه شخصی شما عالی است—تا زمانی که دیگر نباشد.
وعده آن حریم خصوصی، عدم نیاز به پرداخت اشتراک، و عدم خروج دادهها از دستگاه شماست. واقعیت برای اکثر مردم این است که بین جملات پنج ثانیه به یک نشانگر چشمکزن خیره شوند.
این تنگنا نامی دارد: سرعت استنتاج (inference). و ربطی به هوشمندی مدل ندارد. این یک مشکل سختافزاری است. مدلهای استاندارد هوش مصنوعی متن را قطعه-کلمه به قطعه-کلمه—که توکن نامیده میشود—تولید میکنند. سختافزار باید میلیاردها پارامتر را از حافظه به واحدهای پردازشی خود منتقل کند تا تنها یک توکن تولید کند. این فرآیند ذاتاً کند است. روی سختافزار مصرفکننده، دردناک است.
راه حل جایگزینی که اکثر مردم به آن روی میآورند، اجرای مدلهای کوچکتر و ضعیفتر—یا نسخههای بسیار فشرده شده، موسوم به مدلهای کوانتیزه (quantized)، که بخشی از کیفیت را فدای سرعت میکنند—است. هیچ کدام از این راهحلها عالی نیستند. شما چیزی دارید که کار میکند، اما آن مدلی نیست که واقعاً میخواستید.
اکنون گوگل ایدهای متفاوت دارد. این شرکت به تازگی پیشنویسکنندههای پیشبینی چند توکنی (MTP) را برای خانواده مدلهای متنباز Gemma 4 خود منتشر کرده است—تکنیکی که میتواند تا ۳ برابر افزایش سرعت را بدون هیچ تغییری در کیفیت یا قابلیت استدلال مدل ارائه دهد.
این رویکرد کدگشایی گمانهزنانه (speculative decoding) نام دارد و سالهاست که به عنوان یک مفهوم وجود داشته است. محققان گوگل مقاله بنیادی آن را در سال ۲۰۲۲ منتشر کردند. این ایده تا کنون فراگیر نشده بود زیرا برای کار در مقیاس وسیع به معماری مناسبی نیاز داشت.
نسخه کوتاه نحوه کار آن این است. به جای اینکه مدل بزرگ و قدرتمند تمام کار را به تنهایی انجام دهد، آن را با یک مدل «پیشنویسکننده» کوچک جفت میکنید. این پیشنویسکننده سریع و ارزان است—چندین توکن را به طور همزمان در زمانی کمتر از آنچه مدل اصلی برای تولید تنها یک توکن نیاز دارد، پیشبینی میکند. سپس مدل بزرگ همه آن حدسها را در یک مرحله بررسی میکند. اگر حدسها درست باشند، شما کل دنباله را با هزینه یک گذر رو به جلو (forward pass) دریافت میکنید.
به گفته گوگل، «اگر مدل هدف با پیشنویس موافق باشد، کل دنباله را در یک گذر رو به جلو میپذیرد—و حتی یک توکن اضافی نیز توسط خود مدل در این فرآیند تولید میشود.»
هیچ چیز فدا نمیشود: مدل بزرگ—به عنوان مثال، نسخه ۳۱B متراکم Gemma 4—همچنان هر توکن را تأیید میکند و کیفیت خروجی یکسان است. شما فقط از قدرت پردازشی بیکاری استفاده میکنید که در طول بخشهای کندتر بلااستفاده مانده بود.
گوگل میگوید مدلهای پیشنویسکننده حافظه پنهان KV (KV cache) مدل هدف را به اشتراک میگذارند—یک ساختار حافظه که محتوای از پیش پردازش شده را ذخیره میکند—بنابراین آنها وقت خود را برای محاسبه مجدد چیزهایی که مدل بزرگتر قبلاً میداند تلف نمیکنند. برای مدلهای کوچکتر لبهای (edge models) که برای گوشیها و دستگاههای رزبری پای طراحی شدهاند، تیم حتی یک تکنیک خوشهبندی کارآمد برای کاهش بیشتر زمان تولید ایجاد کرد.
این تنها تلاش دنیای هوش مصنوعی برای موازیسازی تولید متن نیست. مدلهای زبانی مبتنی بر انتشار (diffusion-based language models)—مانند Mercury از Inception Labs—رویکردی کاملاً متفاوت را امتحان کردند: به جای پیشبینی یک توکن در یک زمان، آنها با نویز شروع میکنند و به صورت تکراری کل خروجی را پالایش میکنند. این روش روی کاغذ سریع است، اما مدلهای زبانی بزرگ مبتنی بر انتشار (diffusion LLMs) در تطابق با کیفیت مدلهای ترنسفورمر سنتی مشکل داشتهاند و آنها را بیشتر به یک کنجکاوی تحقیقاتی تا یک ابزار عملی تبدیل کرده است.
کدگشایی گمانهزنانه (speculative decoding) متفاوت است زیرا مدل زیربنایی را اصلاً تغییر نمیدهد. این یک بهینهسازی سرویسدهی است، نه جایگزینی معماری. همان Gemma 4 که قبلاً اجرا میکردید، سریعتر میشود.
مزیت عملی آن واقعی است. یک مدل Gemma 4 26B که روی یک پردازنده گرافیکی دسکتاپ Nvidia RTX Pro 6000 اجرا میشود، با فعال بودن پیشنویسکننده MTP، طبق بنچمارکهای خود گوگل، تقریباً دو برابر توکن در ثانیه تولید میکند. در Apple Silicon، اندازههای دستهای (batch sizes) ۴ تا ۸ درخواست، حدود ۲.۲ برابر افزایش سرعت را ممکن میسازند. در همه سناریوها دقیقاً به سقف ۳ برابر نمیرسد، اما همچنان تفاوت معناداری بین «به سختی قابل استفاده» و «به اندازه کافی سریع برای کار کردن» ایجاد میکند.
زمینه در اینجا اهمیت دارد. زمانی که مدل چینی DeepSeek در ژانویه ۲۰۲۵ بازار را شوکه کرد—و ۶۰۰ میلیارد دلار از ارزش بازار انویدیا را در یک روز محو کرد—درس اصلی این بود که بهبود کارایی میتواند تأثیر بیشتری نسبت به قدرت پردازشی خام داشته باشد. هوشمندانهتر کار کردن بهتر از این است که سختافزار بیشتری به مشکل پرتاب کنید. پیشنویسکننده MTP گوگل گامی دیگر در این راستا است، اما مستقیماً بازار مصرفکننده را هدف قرار داده است.
کل صنعت هوش مصنوعی در حال حاضر یک مثلث است که استنتاج، آموزش و حافظه را در نظر میگیرد. هر پیشرفتی در هر یک از این زمینهها تمایل دارد که کل اکوسیستم را تقویت یا شوکه کند. رویکرد آموزشی DeepSeek (دستیابی به مدلهای قدرتمند با سختافزارهای رده پایینتر) یک نمونه بود، در حالی که مقاله TurboQuant گوگل (کوچک کردن حافظه هوش مصنوعی بدون از دست دادن کیفیت) نمونه دیگری بود. هر دو باعث سقوط بازارها شدند زیرا شرکتها تلاش میکردند بفهمند چه باید بکنند.
گوگل میگوید این پیشنویسکننده «پاسخگویی بهبود یافته: کاهش چشمگیر تأخیر برای چتهای تقریباً بیدرنگ، برنامههای صوتی فراگیر و گردشکارهای عاملیتمحور (agentic workflows)» را فراهم میکند—انواع وظایفی که برای مفید بودن به تأخیر کم نیاز دارند.
موارد استفاده به سرعت مشخص میشوند: یک دستیار کدنویسی محلی که تاخیر ندارد؛ یک رابط صوتی که قبل از اینکه سؤال خود را فراموش کنید پاسخ میدهد؛ یک گردشکار عاملیتمحور (agentic workflow) که شما را مجبور نمیکند بین مراحل سه ثانیه صبر کنید. همه اینها، روی سختافزاری که از قبل دارید.
پیشنویسکنندههای MTP اکنون در Hugging Face، Kaggle و Ollama، تحت مجوز Apache 2.0 در دسترس هستند. آنها به صورت آماده با vLLM، MLX، SGLang و Hugging Face Transformers کار میکنند.