標籤
inference
Inference 指的是模型在部署後進行推理與生成的階段,牽涉延遲、吞吐量、GPU 排程、記憶體壓縮與成本控制。從 Kubernetes AI 控制平面到量化與 TensorRT-LLM,這是 AI 走向生產環境的核心層。
4 篇文章

技術研究/5月6日
AE-LLM 要讓大模型更省算力
AE-LLM 主打大型語言模型的自適應效率最佳化,想在不固定耗算力的前提下,讓模型依工作負載調整效率;但摘要沒有公開完整 benchmark 細節。

產業動態/4月3日
Kubernetes 正在變成 AI 控制平面
KubeCon Europe 2026 釋出明確訊號:Kubernetes 正從容器編排,轉向 AI 基礎設施控制平面,重點落在 inference、GPU 與開放標準。

產業動態/4月3日
Bessemer 看準的 5 個 AI 基礎設施前線
Bessemer 2026 AI infra 藍圖指向 memory、continual learning、RL、inference 與 world models。重點不是更大模型,而是讓 AI 真正進到生產環境。

技術研究/4月3日
Google TurboQuant 壓低 LLM 記憶體成本
Google 推出 TurboQuant,結合 QJL 與 PolarQuant,主打壓低 vector quantization 的記憶體開銷,並宣稱 LLM inference 最高可快 8 倍。