標籤

vLLM

vLLM 是面向大型語言模型的高吞吐推理引擎，重點在 PagedAttention、KV cache 管理與連續批次處理，讓 GPU 更有效率地服務聊天、RAG、批次生成與多模型部署。

7 篇文章

TurboQuant 與 FP8 實測結果

vLLM 首次大規模比較 TurboQuant 與 FP8 KV-cache。結果很直白：FP8 在速度上更穩，TurboQuant 的高壓縮版本則常掉準確率。

Gemma 4 的 E2B 與 E4B 助手模型用 centroid masking，把草稿 token 的 lm_head 計算量砍到約 45 倍，且品質損失很小。

這份 GitHub 清單收錄可直接上線的開源 AI 專案，從 PyTorch 到 vLLM 都有，2,486 顆星，適合想找模型、推理、RAG 和代理工具的工程師。

Unsloth 新增 Qwen3.5 視覺模型分層微調，能只訓練 vision、language、attention 或 MLP。VRAM 更省，訓練也更快，對多模態團隊很實用。

Google 的 TurboQuant 盯上 LLM 的 KV cache 瓶頸，用低位元量化降低記憶體用量與推論成本。這篇帶你看它在解什麼問題、和其他優化法差在哪。

TurboQuant 把 KV cache 壓到 4.6 倍，GPU state restore 盯上 32B 模型冷啟動，Rust 也更深入 CUDA 開發。

NVIDIA 在 MLPerf Inference v6.0 再交出新成績，GB300 NVL72 對 DeepSeek-R1 伺服器推論提升 2.7x，Llama 3.1 405B 也提升 1.5x。