返回首頁

標籤

推論成本

推論成本指的是模型在實際服務時,每次生成、回應或代理執行所消耗的算力、記憶體、延遲與雲端費用。從 GPU/CPU 架構、模型大小到批次與快取策略,這些取捨直接影響 AI 產品能否規模化。

6 篇文章