標籤

推論成本

推論成本指的是模型在實際服務時，每次生成、回應或代理執行所消耗的算力、記憶體、延遲與雲端費用。從 GPU/CPU 架構、模型大小到批次與快取策略，這些取捨直接影響 AI 產品能否規模化。

7 篇文章

OpenAI 的 Sora 停止服務證明：AI 不是贏在聲量，而是算得過單位經濟

Sora 停止服務說明了一件事：再大的 AI 聲量，只要單位經濟不成立，就撐不起產品。

GPT-4 常被估到 1.6 兆參數，但 GPT-4o 可能只有 200B 到 300B。Claude Opus 4.5 的真實大小沒公開，重點其實是成本、延遲和效能比。

Q4 2025 全球雲端基礎設施支出達 1109 億美元，年增 29%。AI 訓練、推論與雲端工作負載一起拉高 hyperscaler 投資。

阿里巴巴 DAMO 推出 64 位元 RISC-V CPU，最高 3.2 GHz、採 TSMC 5nm，瞄準 agentic AI 與伺服器推論，直接碰 Arm、x86 和 Nvidia 的地盤。

NVIDIA Rubin 以六顆晶片組成平台，主打推論成本最高降 10 倍，並把 Vera Rubin NVL72 推向雲端與企業 AI。

OpenAI 年化營收傳出已超過 200 億美元，但晶片、電力與資料中心支出也一路暴衝。需求很真實，問題是帳怎麼算得過去，這正是 AI 產業現在最難迴避的現實。

OpenAI 可能在 2026 年衝出高營收，但算力、推論成本、廣告計畫與競爭壓力也一起放大。問題不在成長夠不夠快，而是收入能不能追上 GPU、資料中心與企業銷售的帳單。