標籤

AI inference

AI inference 指模型在部署後進行即時推論的過程，重點在延遲、記憶體與算力成本。從住宅型節點、KV cache 壓縮到長上下文下的 DRAM 壓力，都直接影響雲端與邊緣部署的經濟性。

1 篇文章

Span把 AI 算力搬進住宅

Span 先在 100 戶新屋測試 1.25 MW 的 AI inference 節點。它想把資料中心從年建改成月建，成本也從每 MW 1,500 萬美元壓到約 300 萬美元。