google-make-local-ai-3x-faster-no-new-hardware
گوگل راهی برای افزایش سرعت هوش مصنوعی محلی تا ۳ برابر بدون نیاز به سخت‌افزار جدید یافت
پیش‌بینی‌کننده‌های چندتوکنی جدید گوگل می‌توانند Gemma 4 را تا ۳ برابر سریع‌تر روی سخت‌افزار شخصی شما اجرا کنند—بدون نیاز به فضای ابری و بدون افت کیفیت.
2026-05-07 منبع:decrypt.co

به طور خلاصه

  • گوگل پیش‌نویس‌کننده‌های پیش‌بینی چند توکنی (MTP) را برای Gemma 4 منتشر کرد که تا ۳ برابر افزایش سرعت را در استنتاج (inference) بدون هیچ کاهش کیفیتی در خروجی ارائه می‌دهد.
  • این تکنیک—که کدگشایی گمانه‌زنانه (speculative decoding) نام دارد—از یک مدل «پیش‌نویس‌کننده» سبک‌وزن برای پیش‌بینی همزمان چندین توکن استفاده می‌کند، که سپس مدل اصلی آنها را به صورت موازی تأیید می‌کند و تنگنای تولید توکن-به-توکن را دور می‌زند.
  • پیش‌نویس‌کننده‌های MTP در Hugging Face، Kaggle و Ollama تحت مجوز Apache 2.0 مشابه Gemma 4 در دسترس هستند و با ابزارهایی مانند vLLM، MLX و SGLang کار می‌کنند.

اجرای یک مدل هوش مصنوعی روی رایانه شخصی شما عالی است—تا زمانی که دیگر نباشد.

وعده آن حریم خصوصی، عدم نیاز به پرداخت اشتراک، و عدم خروج داده‌ها از دستگاه شماست. واقعیت برای اکثر مردم این است که بین جملات پنج ثانیه به یک نشانگر چشمک‌زن خیره شوند.

این تنگنا نامی دارد: سرعت استنتاج (inference). و ربطی به هوشمندی مدل ندارد. این یک مشکل سخت‌افزاری است. مدل‌های استاندارد هوش مصنوعی متن را قطعه-کلمه به قطعه-کلمه—که توکن نامیده می‌شود—تولید می‌کنند. سخت‌افزار باید میلیاردها پارامتر را از حافظه به واحدهای پردازشی خود منتقل کند تا تنها یک توکن تولید کند. این فرآیند ذاتاً کند است. روی سخت‌افزار مصرف‌کننده، دردناک است.

راه حل جایگزینی که اکثر مردم به آن روی می‌آورند، اجرای مدل‌های کوچکتر و ضعیف‌تر—یا نسخه‌های بسیار فشرده شده، موسوم به مدل‌های کوانتیزه (quantized)، که بخشی از کیفیت را فدای سرعت می‌کنند—است. هیچ کدام از این راه‌حل‌ها عالی نیستند. شما چیزی دارید که کار می‌کند، اما آن مدلی نیست که واقعاً می‌خواستید.

اکنون گوگل ایده‌ای متفاوت دارد. این شرکت به تازگی پیش‌نویس‌کننده‌های پیش‌بینی چند توکنی (MTP) را برای خانواده مدل‌های متن‌باز Gemma 4 خود منتشر کرده است—تکنیکی که می‌تواند تا ۳ برابر افزایش سرعت را بدون هیچ تغییری در کیفیت یا قابلیت استدلال مدل ارائه دهد.

این رویکرد کدگشایی گمانه‌زنانه (speculative decoding) نام دارد و سال‌هاست که به عنوان یک مفهوم وجود داشته است. محققان گوگل مقاله بنیادی آن را در سال ۲۰۲۲ منتشر کردند. این ایده تا کنون فراگیر نشده بود زیرا برای کار در مقیاس وسیع به معماری مناسبی نیاز داشت.

نسخه کوتاه نحوه کار آن این است. به جای اینکه مدل بزرگ و قدرتمند تمام کار را به تنهایی انجام دهد، آن را با یک مدل «پیش‌نویس‌کننده» کوچک جفت می‌کنید. این پیش‌نویس‌کننده سریع و ارزان است—چندین توکن را به طور همزمان در زمانی کمتر از آنچه مدل اصلی برای تولید تنها یک توکن نیاز دارد، پیش‌بینی می‌کند. سپس مدل بزرگ همه آن حدس‌ها را در یک مرحله بررسی می‌کند. اگر حدس‌ها درست باشند، شما کل دنباله را با هزینه یک گذر رو به جلو (forward pass) دریافت می‌کنید.

به گفته گوگل، «اگر مدل هدف با پیش‌نویس موافق باشد، کل دنباله را در یک گذر رو به جلو می‌پذیرد—و حتی یک توکن اضافی نیز توسط خود مدل در این فرآیند تولید می‌شود.»

هیچ چیز فدا نمی‌شود: مدل بزرگ—به عنوان مثال، نسخه ۳۱B متراکم Gemma 4—همچنان هر توکن را تأیید می‌کند و کیفیت خروجی یکسان است. شما فقط از قدرت پردازشی بیکاری استفاده می‌کنید که در طول بخش‌های کندتر بلااستفاده مانده بود.

گوگل می‌گوید مدل‌های پیش‌نویس‌کننده حافظه پنهان KV (KV cache) مدل هدف را به اشتراک می‌گذارند—یک ساختار حافظه که محتوای از پیش پردازش شده را ذخیره می‌کند—بنابراین آنها وقت خود را برای محاسبه مجدد چیزهایی که مدل بزرگتر قبلاً می‌داند تلف نمی‌کنند. برای مدل‌های کوچک‌تر لبه‌ای (edge models) که برای گوشی‌ها و دستگاه‌های رزبری پای طراحی شده‌اند، تیم حتی یک تکنیک خوشه‌بندی کارآمد برای کاهش بیشتر زمان تولید ایجاد کرد.

این تنها تلاش دنیای هوش مصنوعی برای موازی‌سازی تولید متن نیست. مدل‌های زبانی مبتنی بر انتشار (diffusion-based language models)—مانند Mercury از Inception Labs—رویکردی کاملاً متفاوت را امتحان کردند: به جای پیش‌بینی یک توکن در یک زمان، آنها با نویز شروع می‌کنند و به صورت تکراری کل خروجی را پالایش می‌کنند. این روش روی کاغذ سریع است، اما مدل‌های زبانی بزرگ مبتنی بر انتشار (diffusion LLMs) در تطابق با کیفیت مدل‌های ترنسفورمر سنتی مشکل داشته‌اند و آنها را بیشتر به یک کنجکاوی تحقیقاتی تا یک ابزار عملی تبدیل کرده است.

کدگشایی گمانه‌زنانه (speculative decoding) متفاوت است زیرا مدل زیربنایی را اصلاً تغییر نمی‌دهد. این یک بهینه‌سازی سرویس‌دهی است، نه جایگزینی معماری. همان Gemma 4 که قبلاً اجرا می‌کردید، سریع‌تر می‌شود.

مزیت عملی آن واقعی است. یک مدل Gemma 4 26B که روی یک پردازنده گرافیکی دسکتاپ Nvidia RTX Pro 6000 اجرا می‌شود، با فعال بودن پیش‌نویس‌کننده MTP، طبق بنچمارک‌های خود گوگل، تقریباً دو برابر توکن در ثانیه تولید می‌کند. در Apple Silicon، اندازه‌های دسته‌ای (batch sizes) ۴ تا ۸ درخواست، حدود ۲.۲ برابر افزایش سرعت را ممکن می‌سازند. در همه سناریوها دقیقاً به سقف ۳ برابر نمی‌رسد، اما همچنان تفاوت معناداری بین «به سختی قابل استفاده» و «به اندازه کافی سریع برای کار کردن» ایجاد می‌کند.

زمینه در اینجا اهمیت دارد. زمانی که مدل چینی DeepSeek در ژانویه ۲۰۲۵ بازار را شوکه کرد—و ۶۰۰ میلیارد دلار از ارزش بازار انویدیا را در یک روز محو کرد—درس اصلی این بود که بهبود کارایی می‌تواند تأثیر بیشتری نسبت به قدرت پردازشی خام داشته باشد. هوشمندانه‌تر کار کردن بهتر از این است که سخت‌افزار بیشتری به مشکل پرتاب کنید. پیش‌نویس‌کننده MTP گوگل گامی دیگر در این راستا است، اما مستقیماً بازار مصرف‌کننده را هدف قرار داده است.

کل صنعت هوش مصنوعی در حال حاضر یک مثلث است که استنتاج، آموزش و حافظه را در نظر می‌گیرد. هر پیشرفتی در هر یک از این زمینه‌ها تمایل دارد که کل اکوسیستم را تقویت یا شوکه کند. رویکرد آموزشی DeepSeek (دستیابی به مدل‌های قدرتمند با سخت‌افزارهای رده پایین‌تر) یک نمونه بود، در حالی که مقاله TurboQuant گوگل (کوچک کردن حافظه هوش مصنوعی بدون از دست دادن کیفیت) نمونه دیگری بود. هر دو باعث سقوط بازارها شدند زیرا شرکت‌ها تلاش می‌کردند بفهمند چه باید بکنند.

گوگل می‌گوید این پیش‌نویس‌کننده «پاسخگویی بهبود یافته: کاهش چشمگیر تأخیر برای چت‌های تقریباً بی‌درنگ، برنامه‌های صوتی فراگیر و گردش‌کار‌های عاملیت‌محور (agentic workflows)» را فراهم می‌کند—انواع وظایفی که برای مفید بودن به تأخیر کم نیاز دارند.

موارد استفاده به سرعت مشخص می‌شوند: یک دستیار کدنویسی محلی که تاخیر ندارد؛ یک رابط صوتی که قبل از اینکه سؤال خود را فراموش کنید پاسخ می‌دهد؛ یک گردش‌کار عاملیت‌محور (agentic workflow) که شما را مجبور نمی‌کند بین مراحل سه ثانیه صبر کنید. همه اینها، روی سخت‌افزاری که از قبل دارید.

پیش‌نویس‌کننده‌های MTP اکنون در Hugging Face، Kaggle و Ollama، تحت مجوز Apache 2.0 در دسترس هستند. آنها به صورت آماده با vLLM، MLX، SGLang و Hugging Face Transformers کار می‌کنند.

رمزارز های محبوب
همین حالا ثبت‌نام کنید، هیچ به‌روزرسانی‌ای را از دست ندهید!