標籤
2 篇文章
B300 有 288GB HBM3e 和 8TB/s 頻寬。這篇直接比 H200,拆解 DeepSeek 推論、KV cache、雲端成本與部署取捨。
Google 的 TurboQuant 盯上 LLM 的 KV cache 瓶頸,用低位元量化降低記憶體用量與推論成本。這篇帶你看它在解什麼問題、和其他優化法差在哪。