Gemma 4 助手模型加速草稿 Token

Q: Centroid masking 到底改了什麼?

先講白話版。一般 LLM 在選下一個 token 時，會對整個詞彙表打分。詞彙表越大，lm_head 越吃算力。

Q: 數字怎麼看，和一般草稿模型差在哪?

先看數字。262K 變 4K，差了 65.5 倍的候選範圍縮減。vLLM 的說法是，lm_head 計算量大約少 45 倍。

OraCore Editors

返回首頁

[TOOLS] 2026年5月9日5 分鐘閱讀OraCore 編輯部

Gemma 4 助手模型加速草稿 Token

Gemma 4 的 E2B 與 E4B 助手模型用 centroid masking，把草稿 token 的 lm_head 計算量砍到約 45 倍，且品質損失很小。

Gemma 4 speculative decoding vLLM centroid masking LLM 推理

分享 LinkedIn

Gemma 4 助手模型用 centroid masking，讓草稿 token 生成更快，vLLM 也能直接吃到這個優化。

Google 的 Gemma 4 助手模型，這次不是在比參數量。重點是它把 speculative decoding 的草稿路徑，切得更省算力。

原本要掃大約 26.2 萬個詞彙。現在先縮到約 4,000 個 centroid。講白了，就是少做很多 dot product。

項目	數值	意義
完整詞彙表	約 262,000	原本 lm_head 的基礎成本
Centroid 候選集	約 4,000	草稿 token 先看的小集合
計算量下降	約 45x	lm_head 少做很多工作
最大上下文	8,192	vLLM 範例的 context window
每步草稿 token	4	speculative decoding 的預測數量

Centroid masking 到底改了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

先講白話版。一般 LLM 在選下一個 token 時，會對整個詞彙表打分。詞彙表越大，lm_head 越吃算力。

Gemma 4 的 E2B 與 E4B assistant checkpoints，用的是 centroid masking。它不是完全不算，而是先把候選範圍縮小，再去做選擇。

這招很適合 speculative decoding。因為草稿模型要夠快，才有意義。草稿如果自己就很慢，主模型還沒驗證，時間就先燒掉了。

完整詞彙表約 262K
候選集縮到約 4K
vLLM 回報 lm_head 計算量約降 45x
有 ordered embeddings 時會自動啟用

為什麼跑 vLLM 的人會在意

對 vLLM 使用者來說，這種優化最討喜的地方是不用手動魔改。只要 checkpoint 帶有 centroid weights，設定裡的 use_ordered_embeddings: true 就能啟動。

這比很多 inference 技巧好用。很多方案要改 kernel、改環境變數，或是找特定 fork。說真的，工程師最煩的就是這種「看起來很美，實作很醜」的東西。

Gemma 4 這次比較務實。你如果已經在跑 speculative decoding，這個草稿路徑優化就能直接吃到。

“Speculative decoding can significantly accelerate generation when the draft model is much cheaper than the target model.” — Yaniv Leviathan、Matan Kalman、Yossi Matias

這句話很直白。草稿模型便宜，整體才會快。草稿模型如果不便宜，所有優化都只是紙上談兵。

數字怎麼看，和一般草稿模型差在哪

先看數字。262K 變 4K，差了 65.5 倍的候選範圍縮減。vLLM 的說法是，lm_head 計算量大約少 45 倍。

但別直接把 45x 當成端到端速度。因為主模型還要驗證草稿 token。真正的總體加速，還要看拒絕率、batch size、GPU 型號，和上下文長度。

不過，這個優化還是很實在。它砍掉的是 speculative decoding 裡最常見的浪費之一，也就是草稿階段的詞彙打分成本。

普通草稿模型：每步仍要掃大詞彙表
Gemma 4 助手模型：先用 centroid 篩候選
結果：草稿路徑更省算力
影響：更容易把 speculative decoding 放進 production

跟其他推理做法比，差在哪

很多人一聽到加速，就想到量化、KV cache、flash attention。那些都重要，但它們處理的是不同瓶頸。

centroid masking 處理的是草稿 token 的選擇成本。它不是把模型變小，也不是把精度硬壓下去。它是把不必要的候選先擋掉。

這種作法比較像工程上的省錢術。不是喊口號，而是直接少算一大段。對伺服器成本敏感的團隊，這種東西很有感。

量化：主要省記憶體與部分算力
KV cache：主要省長上下文推理成本
speculative decoding：靠草稿模型先猜 token
centroid masking：再把草稿模型的候選集縮小

這個做法放在產業裡怎麼看

LLM 服務現在很現實。大家不只看 benchmark，也看每秒 token、每張 GPU 的吞吐量，還有延遲抖動。

Gemma 4 這種做法，對雲端推理很有意義。因為草稿路徑越便宜，越容易把 speculative decoding 變成預設選項，而不是實驗室裡的 demo。

另一個重點是可部署性。這次不是叫你重寫整個 serving stack，而是讓 checkpoint 自帶 centroid weights。這點很務實。

如果你在看開源模型，還是可以把它跟 Hugging Face 上其他 checkpoint 一起比較。重點不是誰名氣大，而是誰在 production 比較省錢。

接下來該看什麼

我覺得下一步要觀察兩件事。第一，這種 ordered embeddings 會不會變成更多模型的標配。第二，vLLM 之外的 serving 框架會不會跟進。

如果更多 assistant checkpoints 都內建 centroid weights，speculative decoding 會更容易落地。反過來說，如果只有少數模型有這個設計，它就還是特定場景的加速技巧。

對開發者來說，現在最實際的動作很簡單。你如果在跑 Gemma 4，去確認自己是不是用了 assistant checkpoint。沒用對版本，等於白白浪費一大段草稿效率。

// 相關文章

Gemma 4 助手模型加速草稿 Token

Centroid masking 到底改了什麼

訂閱 AI 趨勢週報

為什麼跑 vLLM 的人會在意

數字怎麼看，和一般草稿模型差在哪

跟其他推理做法比，差在哪

這個做法放在產業裡怎麼看

接下來該看什麼

為什麼 VidHub 會員互通不是「買一次全設備通用」

為什麼 Bun 的 Zig-to-Rust 實驗是對的

為什麼 OpenAI API 定價是產品策略，不是註腳

為什麼 Claude Code 的提示設計贏過 IDE Copilot

為什麼 Databricks Model Serving 是生產推論的正確預設

為什麼 IBM 的 Bob 才是對的 AI 寫碼助手