llama.cpp 把本地推理做進 C/C++
llama.cpp 強調在 C/C++ 中做本地 LLM 推理,支援多種硬體與 OpenAI 相容伺服器,適合離線、邊緣與隱私場景。

llama.cpp 提供 C/C++ 本地 LLM 推理,支援多種硬體,還能直接開 OpenAI 相容伺服器。
llama.cpp 來自 ggml-org,主打低依賴、可在筆電、桌機、伺服器與瀏覽器跑模型。README 也把本地載入、從 Hugging Face 下載,以及 OpenAI 相容 API server 放在最前面。
| 項目 | 數值 |
|---|---|
| GitHub stars | 112k |
| GitHub forks | 18.6k |
| Open issues | 697 |
| Open pull requests | 1k |
| Commits | 9,293 |
發生了什麼
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
llama.cpp 現在把三條路徑講得很清楚:用 llama-cli 直接跑本地模型、從 Hugging Face 拉模型後執行,或啟動 llama-server 提供 API。對開發者來說,這等於把「測試模型」和「接進產品」放在同一套工具裡。

專案核心仍是純 C/C++,沒有強制第三方堆疊,這讓它在嵌入式、桌面工具和內網服務都比較好落地。相較於常見的 Python 推理框架,它更像一個可直接編進產品的 runtime,而不是只給研究或原型用的包裝層。
硬體支援範圍也很廣。README 列出 Apple silicon、x86、RISC-V,以及 CUDA、HIP、Metal、Vulkan、SYCL、WebGPU 等後端,代表同一個專案可以覆蓋 CPU、GPU、甚至瀏覽器情境。
- 本地推理:llama-cli
- 模型來源:Hugging Face
- API 服務:llama-server
- 瀏覽器執行:WebGPU
為什麼重要
對開發者來說,最大價值是控制權。模型可以留在本機或內網,不必把資料送到外部雲端,也不用為單一雲服務綁死部署方式,這對離線工具、隱私敏感應用和邊緣裝置特別實用。
它也降低了跨平台維護成本。當同一套推理層同時支援 Apple silicon、x86、RISC-V 與多種 GPU 後端,團隊就能用更少的代碼分支去覆蓋不同機器,這對需要在混合環境交付產品的公司很有吸引力。
從產業角度看,llama.cpp 已經不只是工具,而是很多周邊專案的底層參考。它支援的綁定橫跨 Python、Go、Node.js、Rust、Java、Swift 等語言,意味著不少團隊會先接它,再往外包裝自己的產品介面。
這也是本地 AI 工具競爭的重點:不是能不能跑,而是誰能用最少依賴、最少轉譯、最少維運,把模型真正送進應用。llama.cpp 目前仍在搶這個位置。
延伸觀察
如果雲端推理主打的是集中管理,那 llama.cpp 主打的就是可攜性與可控性。這種路線對想把 LLM 放進桌面軟體、內部助手或工業設備的團隊,通常更直接。

問題也很現實:當模型尺寸、延遲和硬體差異同時存在時,誰能把部署流程做得最簡單,誰就更接近成為預設方案。llama.cpp 現在賣的不是概念,而是「今天就能跑」的入口。
下一個值得追的點,是它會不會繼續把 server、browser 和原生裝置之間的界線拉得更近。對開發者來說,這比單純再多一個模型名稱更有用。