
在自己的電腦上運行 AI 模型非常棒——直到它變得不那麼棒為止。
其承諾是隱私、無需訂閱費,且資料不會離開您的機器。但對大多數人來說,現實是看著游標在句子之間閃爍五秒鐘。
這個瓶頸有一個名稱:推論速度。它與模型有多聰明毫無關係,而是一個硬體問題。標準 AI 模型一次生成一個詞語片段——稱為「代幣」(token)。硬體必須在記憶體和其計算單元之間傳輸數十億個參數,才能產生每一個單一代幣。這種設計本來就慢。在消費級硬體上,更是令人痛苦。
大多數人採用的解決方案是運行更小、更弱的模型,或是高度壓縮的版本,稱為量化模型(quantized models),這些模型為了速度而犧牲了一些品質。這兩種解決方案都不理想。您得到的東西可以運行,但它並不是您真正想要的模型。
現在 Google 有了不同的想法。該公司剛為其開源模型 Gemma 4 系列發布了多代幣預測(MTP)草稿生成器——這項技術可以在完全不影響模型品質或推理能力的情況下,提供高達三倍的速度提升。
這種方法稱為推測解碼(speculative decoding),其概念已經存在多年。Google 的研究人員早在 2022 年就發表了基礎論文。但直到現在,它才主流化,因為它需要正確的架構才能大規模運行。
以下是其運作方式的簡短說明:它不是讓大型、強大的模型單獨完成所有工作,而是將其與一個微小的「草稿生成器」(drafter)模型配對。這個草稿生成器速度快且成本低——它能在比主模型產生一個代幣所需時間更短的時間內,一次預測多個代幣。然後,主模型在一次處理中檢查所有這些猜測。如果猜測正確,那麼您就能以一次正向傳遞(forward pass)的成本獲得整個序列。
根據 Google 的說法:「如果目標模型同意草稿,它會在單次正向傳遞中接受整個序列——甚至在此過程中額外生成一個自己的代幣。」
沒有任何犧牲:大型模型——例如 Gemma 4 的 31B 密集版本——仍然驗證每個代幣,並且輸出品質完全相同。您只是利用了在緩慢部分閒置的計算能力。
Google 表示,草稿生成器模型共享目標模型的 KV 快取(KV cache)——一個儲存已處理上下文的記憶體結構——因此它們不會浪費時間重新計算大型模型已經知道的內容。對於專為手機和 Raspberry Pi 設備設計的較小型邊緣模型,該團隊甚至開發了一種高效的叢集技術,以進一步縮短生成時間。
這並不是 AI 界唯一試圖平行化文字生成的方法。基於擴散的語言模型——例如 Inception Labs 的 Mercury——嘗試了一種完全不同的方法:它們不一次預測一個代幣,而是從雜訊開始,迭代地完善整個輸出。這在理論上很快,但擴散大型語言模型一直難以與傳統的 Transformer 模型相媲美,使其更多地是一種研究上的好奇心,而非實用的工具。
推測解碼之所以不同,是因為它根本不改變底層模型。它是一種服務最佳化,而非架構替代。您運行過的 Gemma 4 模型將變得更快。
實際的好處是顯而易見的。根據 Google 自己的基準測試,在 Nvidia RTX Pro 6000 桌上型 GPU 上運行的 Gemma 4 26B 模型,啟用 MTP 草稿生成器後,每秒可產生約兩倍的代幣。在 Apple Silicon 上,4 到 8 個請求的批次大小可實現約 2.2 倍的速度提升。雖然並非在所有情況下都能達到三倍的上限,但這仍然是「勉強可用」和「實際夠快到可以工作」之間有意義的區別。
這裡的背景很重要。當中國模型 DeepSeek 在 2025 年 1 月震驚市場——一天之內讓 Nvidia 市值蒸發 6000 億美元——其核心教訓是,效率提升的衝擊力可能比原始算力更大。更智慧的運行方式勝過投入更多硬體來解決問題。Google 的 MTP 草稿生成器是朝這個方向邁出的另一步,只是它直接針對消費市場。
整個 AI 產業目前是一個考慮推論、訓練和記憶體的三角關係。任何一個領域的突破都傾向於提振或衝擊整個生態系統。DeepSeek 的訓練方法(以較低階的硬體實現強大的模型)是一個例子,而 Google 的 TurboQuant(在不損失品質的情況下縮小 AI 記憶體)論文則是另一個例子。兩者都讓市場崩潰,因為公司都在努力弄清楚該怎麼做。
Google 表示,這個草稿生成器解鎖了「改進的響應能力:顯著降低即時聊天、沉浸式語音應用程式和代理工作流程的延遲」——這類任務要求低延遲才能感到有用。
使用案例迅速聚焦:一個不卡頓的本地程式碼助手;一個在您忘記問題之前就能回應的語音介面;一個無需在步驟之間等待三秒鐘的代理工作流程。所有這些,都在您已經擁有的硬體上實現。
MTP 草稿生成器現已在 Hugging Face、Kaggle 和 Ollama 上提供,遵循 Apache 2.0 許可證。它們可直接與 vLLM、MLX、SGLang 和 Hugging Face Transformers 配合使用。