返回首頁

標籤

AI inference

AI inference 指模型在部署後進行即時推論的過程,重點在延遲、記憶體與算力成本。從住宅型節點、KV cache 壓縮到長上下文下的 DRAM 壓力,都直接影響雲端與邊緣部署的經濟性。

1 篇文章