標籤

inference

Inference 指的是模型在部署後進行推理與生成的階段，牽涉延遲、吞吐量、GPU 排程、記憶體壓縮與成本控制。從 Kubernetes AI 控制平面到量化與 TensorRT-LLM，這是 AI 走向生產環境的核心層。

4 篇文章

AE-LLM 要讓大模型更省算力

AE-LLM 主打大型語言模型的自適應效率最佳化，想在不固定耗算力的前提下，讓模型依工作負載調整效率；但摘要沒有公開完整 benchmark 細節。

KubeCon Europe 2026 釋出明確訊號：Kubernetes 正從容器編排，轉向 AI 基礎設施控制平面，重點落在 inference、GPU 與開放標準。

Bessemer 2026 AI infra 藍圖指向 memory、continual learning、RL、inference 與 world models。重點不是更大模型，而是讓 AI 真正進到生產環境。

Google 推出 TurboQuant，結合 QJL 與 PolarQuant，主打壓低 vector quantization 的記憶體開銷，並宣稱 LLM inference 最高可快 8 倍。