標籤
AI inference 指模型在部署後進行即時推論的過程,重點在延遲、記憶體與算力成本。從住宅型節點、KV cache 壓縮到長上下文下的 DRAM 壓力,都直接影響雲端與邊緣部署的經濟性。
1 篇文章
Span 先在 100 戶新屋測試 1.25 MW 的 AI inference 節點。它想把資料中心從年建改成月建,成本也從每 MW 1,500 萬美元壓到約 300 萬美元。