返回首頁

標籤

llama.cpp

llama.cpp 是把大型語言模型帶到本機與邊緣裝置的推論框架,重點在低記憶體占用、量化、KV cache 管理與啟動速度。相關議題常延伸到 GPU/CPU 混合推論、Rust/CUDA 整合,以及多模態與微調工具鏈的相容性。

3 篇文章