標籤
2 篇文章
llama-benchy 把 llama-bench 類型測試搬到 OpenAI 相容 API,能看上下文變長、併發增加時的延遲與吞吐。
llama.cpp 強調在 C/C++ 中做本地 LLM 推理,支援多種硬體與 OpenAI 相容伺服器,適合離線、邊緣與隱私場景。