加密新聞標籤聚合與專題資訊

google-make-local-ai-3x-faster-no-new-hardware

谷歌找到提升本地 AI 運算速度至三倍的方法—無需新硬體

Google 全新多代幣預測草稿器可讓 Gemma 4 在您自己的硬體上運行速度提升至 3 倍，無需雲端，且質量不受影響。

2026-05-07 來源:decrypt.co

本地 AI 加速

多代幣預測

推測性解碼

簡述

Google 為 Gemma 4 發布了多代幣預測（Multi-Token Prediction, MTP）草稿生成器，可在不降低輸出品質的情況下，將推論速度提升高達三倍。
這項技術稱為推測解碼（speculative decoding），它使用一個輕量級的「草稿生成器」模型一次預測多個代幣，然後由主模型平行驗證這些預測，從而繞過一次一個代幣的瓶頸。
MTP 草稿生成器已在 Hugging Face、Kaggle 和 Ollama 上提供，遵循與 Gemma 4 相同的 Apache 2.0 許可證，並可與 vLLM、MLX 和 SGLang 等工具搭配使用。

在自己的電腦上運行 AI 模型非常棒——直到它變得不那麼棒為止。

其承諾是隱私、無需訂閱費，且資料不會離開您的機器。但對大多數人來說，現實是看著游標在句子之間閃爍五秒鐘。

這個瓶頸有一個名稱：推論速度。它與模型有多聰明毫無關係，而是一個硬體問題。標準 AI 模型一次生成一個詞語片段——稱為「代幣」（token）。硬體必須在記憶體和其計算單元之間傳輸數十億個參數，才能產生每一個單一代幣。這種設計本來就慢。在消費級硬體上，更是令人痛苦。

大多數人採用的解決方案是運行更小、更弱的模型，或是高度壓縮的版本，稱為量化模型（quantized models），這些模型為了速度而犧牲了一些品質。這兩種解決方案都不理想。您得到的東西可以運行，但它並不是您真正想要的模型。

現在 Google 有了不同的想法。該公司剛為其開源模型 Gemma 4 系列發布了多代幣預測（MTP）草稿生成器——這項技術可以在完全不影響模型品質或推理能力的情況下，提供高達三倍的速度提升。

這種方法稱為推測解碼（speculative decoding），其概念已經存在多年。Google 的研究人員早在 2022 年就發表了基礎論文。但直到現在，它才主流化，因為它需要正確的架構才能大規模運行。

以下是其運作方式的簡短說明：它不是讓大型、強大的模型單獨完成所有工作，而是將其與一個微小的「草稿生成器」（drafter）模型配對。這個草稿生成器速度快且成本低——它能在比主模型產生一個代幣所需時間更短的時間內，一次預測多個代幣。然後，主模型在一次處理中檢查所有這些猜測。如果猜測正確，那麼您就能以一次正向傳遞（forward pass）的成本獲得整個序列。

根據 Google 的說法：「如果目標模型同意草稿，它會在單次正向傳遞中接受整個序列——甚至在此過程中額外生成一個自己的代幣。」

沒有任何犧牲：大型模型——例如 Gemma 4 的 31B 密集版本——仍然驗證每個代幣，並且輸出品質完全相同。您只是利用了在緩慢部分閒置的計算能力。

Google 表示，草稿生成器模型共享目標模型的 KV 快取（KV cache）——一個儲存已處理上下文的記憶體結構——因此它們不會浪費時間重新計算大型模型已經知道的內容。對於專為手機和 Raspberry Pi 設備設計的較小型邊緣模型，該團隊甚至開發了一種高效的叢集技術，以進一步縮短生成時間。

這並不是 AI 界唯一試圖平行化文字生成的方法。基於擴散的語言模型——例如 Inception Labs 的 Mercury——嘗試了一種完全不同的方法：它們不一次預測一個代幣，而是從雜訊開始，迭代地完善整個輸出。這在理論上很快，但擴散大型語言模型一直難以與傳統的 Transformer 模型相媲美，使其更多地是一種研究上的好奇心，而非實用的工具。

推測解碼之所以不同，是因為它根本不改變底層模型。它是一種服務最佳化，而非架構替代。您運行過的 Gemma 4 模型將變得更快。

實際的好處是顯而易見的。根據 Google 自己的基準測試，在 Nvidia RTX Pro 6000 桌上型 GPU 上運行的 Gemma 4 26B 模型，啟用 MTP 草稿生成器後，每秒可產生約兩倍的代幣。在 Apple Silicon 上，4 到 8 個請求的批次大小可實現約 2.2 倍的速度提升。雖然並非在所有情況下都能達到三倍的上限，但這仍然是「勉強可用」和「實際夠快到可以工作」之間有意義的區別。

這裡的背景很重要。當中國模型 DeepSeek 在 2025 年 1 月震驚市場——一天之內讓 Nvidia 市值蒸發 6000 億美元——其核心教訓是，效率提升的衝擊力可能比原始算力更大。更智慧的運行方式勝過投入更多硬體來解決問題。Google 的 MTP 草稿生成器是朝這個方向邁出的另一步，只是它直接針對消費市場。

整個 AI 產業目前是一個考慮推論、訓練和記憶體的三角關係。任何一個領域的突破都傾向於提振或衝擊整個生態系統。DeepSeek 的訓練方法（以較低階的硬體實現強大的模型）是一個例子，而 Google 的 TurboQuant（在不損失品質的情況下縮小 AI 記憶體）論文則是另一個例子。兩者都讓市場崩潰，因為公司都在努力弄清楚該怎麼做。

Google 表示，這個草稿生成器解鎖了「改進的響應能力：顯著降低即時聊天、沉浸式語音應用程式和代理工作流程的延遲」——這類任務要求低延遲才能感到有用。

使用案例迅速聚焦：一個不卡頓的本地程式碼助手；一個在您忘記問題之前就能回應的語音介面；一個無需在步驟之間等待三秒鐘的代理工作流程。所有這些，都在您已經擁有的硬體上實現。

MTP 草稿生成器現已在 Hugging Face、Kaggle 和 Ollama 上提供，遵循 Apache 2.0 許可證。它們可直接與 vLLM、MLX、SGLang 和 Hugging Face Transformers 配合使用。

熱門閱讀

MoonPay 表示穩定幣監管開啟了大門，但基礎設施必須跟上

2026-05-09

美國銀行在參議院投票前數日否決CLARITY法案穩定幣協議

2026-05-09

杜克法學講師主張與川普相關的世界自由金融發行了證券

2026-05-09

其它文章

Arbitrum 7100萬美元以太坊已批准轉移至 Aave，北韓恐怖主義債權人保留法律索賠權