標籤
2 篇文章
Gemma 4 的 E2B 與 E4B 助手模型用 centroid masking,把草稿 token 的 lm_head 計算量砍到約 45 倍,且品質損失很小。
SpecKV 把推測解碼的 token 預算改成逐步自動調整,利用 draft 模型訊號在不同壓縮設定下挑出更合適的 gamma。