標籤

llama.cpp

llama.cpp 是把大型語言模型帶到本機與邊緣裝置的推論框架，重點在低記憶體占用、量化、KV cache 管理與啟動速度。相關議題常延伸到 GPU/CPU 混合推論、Rust/CUDA 整合，以及多模態與微調工具鏈的相容性。

3 篇文章

Unsloth 讓 Qwen3.5 可分層微調

工具應用/4月3日

Unsloth 讓 Qwen3.5 可分層微調

Unsloth 新增 Qwen3.5 視覺模型分層微調，能只訓練 vision、language、attention 或 MLP。VRAM 更省，訓練也更快，對多模態團隊很實用。

TurboQuant 是什麼？Google 新論文重點

技術研究/4月3日

TurboQuant 是什麼？Google 新論文重點

Google 的 TurboQuant 盯上 LLM 的 KV cache 瓶頸，用低位元量化降低記憶體用量與推論成本。這篇帶你看它在解什麼問題、和其他優化法差在哪。

TurboQuant、冷啟動與 GPU Rust

工具應用/4月3日

TurboQuant、冷啟動與 GPU Rust

TurboQuant 把 KV cache 壓到 4.6 倍，GPU state restore 盯上 32B 模型冷啟動，Rust 也更深入 CUDA 開發。