
تشغيل نموذج ذكاء اصطناعي على جهاز الكمبيوتر الخاص بك أمر رائع—حتى لا يصبح كذلك.
الوعد هو الخصوصية، لا رسوم اشتراك، ولا بيانات تغادر جهازك. ولكن الواقع، بالنسبة لمعظم الناس، هو مشاهدة مؤشر الفأرة يومض لمدة خمس ثوانٍ بين الجمل.
هذا العنق الزجاجي له اسم: سرعة الاستدلال. وليس له علاقة بمدى ذكاء النموذج. إنها مشكلة في الأجهزة. تولّد نماذج الذكاء الاصطناعي القياسية النص قطعة كلمة واحدة—تسمى رمزًا—في كل مرة. يجب على الأجهزة نقل مليارات المعلمات من الذاكرة إلى وحدات الحوسبة الخاصة بها فقط لإنتاج كل رمز على حدة. إنه بطيء بطبيعته. على أجهزة المستهلك، إنه أمر مؤلم.
الحل البديل الذي يلجأ إليه معظم الناس هو تشغيل نماذج أصغر وأضعف—أو إصدارات مضغوطة بشدة، تسمى النماذج الكمّية، والتي تضحي ببعض الجودة من أجل السرعة. لا يوجد حل منهما رائع. تحصل على شيء يعمل، لكنه ليس النموذج الذي كنت تريده بالفعل.
الآن لدى جوجل فكرة مختلفة. فقد أصدرت الشركة للتو نماذج المسودة للتنبؤ متعدد الرموز (MTP) لسلسلة نماذجها المفتوحة Gemma 4—وهي تقنية يمكنها توفير سرعة تصل إلى 3 أضعاف دون المساس بجودة النموذج أو قدرته على التفكير على الإطلاق.
يُطلق على هذا النهج فك التشفير التخميني، وقد كان موجودًا كمفهوم لسنوات. نشر باحثو جوجل الورقة التأسيسية في عام 2022. لم تنتشر الفكرة على نطاق واسع حتى الآن لأنها تطلبت البنية الصحيحة لكي تعمل على نطاق واسع.
إليكم نسخة مختصرة لكيفية عمله. بدلاً من جعل النموذج الكبير والقوي يقوم بكل العمل بمفرده، تقوم بإقرانه بنموذج "مسودة" صغير. نموذج المسودة سريع ورخيص—يتنبأ بعدة رموز دفعة واحدة في وقت أقل مما يستغرقه النموذج الرئيسي لإنتاج رمز واحد فقط. ثم يتحقق النموذج الكبير من كل هذه التخمينات في تمريرة واحدة. إذا كانت التخمينات صحيحة، فستحصل على التسلسل بأكمله بسعر تمريرة أمامية واحدة.
وفقًا لجوجل، "إذا وافق النموذج الهدف على المسودة، فإنه يقبل التسلسل بأكمله في تمريرة أمامية واحدة—وحتى يولد رمزًا إضافيًا خاصًا به في هذه العملية."
لا يوجد أي تضحية: النموذج الكبير—مثل نسخة Gemma 4 الكثيفة بحجم 31 مليار معلمة—لا يزال يتحقق من كل رمز، وجودة المخرجات متطابقة. أنت تستغل فقط قوة الحوسبة الخاملة التي كانت غير مستخدمة خلال الأجزاء البطيئة.
تقول جوجل إن نماذج المسودة تشارك ذاكرة التخزين المؤقت KV للنموذج الهدف—وهي بنية ذاكرة تخزن السياق المعالج مسبقًا—لذلك لا تضيع وقتًا في إعادة حساب الأمور التي يعرفها النموذج الأكبر بالفعل. بالنسبة لنماذج الحافة الأصغر المصممة للهواتف وأجهزة Raspberry Pi، بنى الفريق تقنية تجميع فعالة لتقليل وقت التوليد بشكل أكبر.
هذه ليست المحاولة الوحيدة التي قام بها عالم الذكاء الاصطناعي لموازاة توليد النصوص. حاولت نماذج اللغة القائمة على الانتشار—مثل Mercury من Inception Labs—اتباع نهج مختلف تمامًا: بدلاً من التنبؤ برمز واحد في كل مرة، تبدأ بالضوضاء وتصقل المخرجات بأكملها بشكل متكرر. هذا سريع نظريًا، لكن نماذج LLM القائمة على الانتشار واجهت صعوبة في مطابقة جودة نماذج المحولات التقليدية، مما يجعلها فضولًا بحثيًا أكثر من كونها أداة عملية.
فك التشفير التخميني مختلف لأنه لا يغير النموذج الأساسي على الإطلاق. إنه تحسين خدمة، وليس استبدالًا للهندسة المعمارية. نفس نموذج Gemma 4 الذي كنت تشغله بالفعل يصبح أسرع.
الفائدة العملية حقيقية. يحصل نموذج Gemma 4 26B الذي يعمل على وحدة معالجة رسومات Nvidia RTX Pro 6000 لسطح المكتب على ما يقرب من ضعف الرموز في الثانية مع تمكين نموذج المسودة MTP، وفقًا لمعايير جوجل الخاصة. على شرائح Apple Silicon، تتيح أحجام الدفعات من 4 إلى 8 طلبات تسريعًا حوالي 2.2 ضعفًا. ليس بالضبط سقف 3 أضعاف في كل سيناريو، ولكنه لا يزال فرقًا ذا معنى بين "بالكاد قابل للاستخدام" و "سريع بما يكفي للعمل معه بالفعل".
السياق مهم هنا. عندما صدم النموذج الصيني DeepSeek السوق في يناير 2025—مسحًا 600 مليار دولار من القيمة السوقية لشركة Nvidia في يوم واحد—كان الدرس الأساسي هو أن مكاسب الكفاءة يمكن أن تكون أقوى من قوة الحوسبة الخام. التشغيل بشكل أكثر ذكاءً يتفوق على إلقاء المزيد من الأجهزة على المشكلة. نموذج المسودة MTP من جوجل هو خطوة أخرى في هذا الاتجاه، باستثناء أنه يستهدف مباشرة المستهلك النهائي في السوق.
صناعة الذكاء الاصطناعي بأكملها حاليًا هي مثلث يأخذ في الاعتبار الاستدلال والتدريب والذاكرة. يميل كل تقدم في أي من هذه المجالات إلى تعزيز أو صدمة النظام البيئي بأكمله. كان نهج تدريب DeepSeek (تحقيق نماذج قوية بأجهزة منخفضة المواصفات) مثالًا واحدًا، بينما كانت ورقة TurboQuant من جوجل (تقليص ذاكرة الذكاء الاصطناعي دون فقدان الجودة) مثالًا آخر. وقد أدى كلاهما إلى انهيار الأسواق حيث حاولت الشركات معرفة ما يجب فعله.
تقول جوجل إن نموذج المسودة يفتح "استجابة محسّنة: تقليل زمن الوصول بشكل كبير للمحادثة شبه الفورية، وتطبيقات الصوت الغامرة، وسير العمل القائم على الوكلاء"—وهو نوع المهام التي تتطلب زمن وصول منخفض لتكون مفيدة على الإطلاق.
تتضح حالات الاستخدام بسرعة: مساعد برمجة محلي لا يتأخر؛ واجهة صوتية تستجيب قبل أن تنسى ما طلبته؛ سير عمل قائم على الوكلاء لا يجعلك تنتظر ثلاث ثوانٍ بين الخطوات. كل هذا، على الأجهزة التي تمتلكها بالفعل.
تتوفر نماذج المسودة MTP الآن على Hugging Face و Kaggle و Ollama، بموجب ترخيص Apache 2.0. وهي تعمل مع vLLM و MLX و SGLang و Hugging Face Transformers فورًا.