[IND] 8 分鐘閱讀OraCore 編輯部

Kubernetes 正在變成 AI 控制平面

KubeCon Europe 2026 釋出明確訊號:Kubernetes 正從容器編排,轉向 AI 基礎設施控制平面,重點落在 inference、GPU 與開放標準。

分享 LinkedIn
Kubernetes 正在變成 AI 控制平面

KubeCon Europe 2026 吸引超過 13,500 人。年增約 10%。說真的,這數字不是重點。重點是 CNCF 這次講得很直白:Kubernetes 不再只是跑網站和微服務。它正在變成 AI 基礎設施的控制平面,尤其是 inference。

這件事很現實。AI 已經不是 demo 場面。現在大家在意的是模型怎麼穩定服務、怎麼省 GPU、怎麼把延遲壓下來。講白了,訓練很貴,但 inference 才是每天都在燒錢的地方。

如果你是做平台、SRE、或 MLOps,這波你躲不掉。因為 AI 工作負載開始長得像大型分散式系統。只是它更吃 GPU,也更怕配置亂掉。

KubeCon 為什麼這麼吵

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

這場在阿姆斯特丹舉辦的 KubeCon,是到目前為止最大的一屆。官方數字很猛:超過 13,500 名與會者,來自 100 多個國家,3,000 多家組織,還有接近 900 場 session。這不是小圈圈在自嗨。這是整個雲原生圈的主場。

Kubernetes 正在變成 AI 控制平面

更有意思的是,CNCF 還提到雲原生開發者人數快接近 2,000 萬。這代表什麼?代表 Kubernetes 不是邊角料工具。它早就變成很多公司預設的基礎層。

今年的風向也很明顯。以前大家談 Kubernetes,常常是在講容器、service mesh、GitOps。這次不一樣。大家開始直接談 AI 基礎設施,還是從 inference 這種很難看的地方談起。這才是真實世界會碰到的問題。

  • 13,500+ 人參加 KubeCon Europe 2026
  • 100+ 國家的人來現場
  • 3,000+ 組織參與
  • 接近 900 場 session
  • 雲原生開發者接近 2,000 萬

這些數字背後的意思很簡單。Kubernetes 的生態夠大,才撐得住 AI 的新需求。GPU 排程、模型服務、流量路由、策略控管,這些都不是傳統 web app 會天天碰到的問題。現在它們全都進來了。

所以這次 KubeCon 的訊號,不是「AI 很熱門」。而是「AI 已經進到基礎設施層」。這差很多。

AI 訊息為什麼這次真的落地

今年最值得注意的,不是某個花俏 demo,而是生態系本身的動作。NVIDIA 加入 CNCF 成為 platinum member,還把 GPU driver 捐給 Kubernetes SIG Node,當作 vendor-neutral DRA API 的參考實作。再加上 3 年 400 萬美元的支援計畫,這訊號很清楚。

硬體廠願意把手伸進標準討論,代表 GPU 這層不能再各做各的。你如果還把 GPU 管理鎖在自家工具裡,最後只會讓部署更碎。AI 基礎設施最怕這種碎片化。因為碎片化就代表成本高,還很難移植。

另外,CNCF 也宣布 LLMD 進入 sandbox。這個專案主打 Kubernetes 上的分散式 inference。這不是玩票。這代表社群開始把 inference 當成一級基礎設施問題,而不是附加功能。

“Inference is where the money is,” said Jensen Huang, CEO of NVIDIA, onstage at GTC 2025.

這句話很直白,也很殘酷。訓練是一次性的。Inference 才是持續性的。只要使用者一直問、agent 一直跑、Token 一直吐,伺服器就一直在燒。

CNCF 這次還把 Kubernetes AI conformance 擴大了。新的要求包含 Gateway API、inference-aware routing、disaggregated inference。這些名詞看起來很硬,但意思不難懂。傳統 load balancer 只管流量平均分配。AI inference 還要管 cache、prompt 延遲、GPU 記憶體利用率。這完全不是同一種問題。

  • NVIDIA 捐出 GPU driver 參考實作
  • 3 年 400 萬美元支援 CNCF 專案
  • LLMD 進入 CNCF sandbox
  • AI conformance 新增 inference-aware routing
  • Gateway API 變成 AI 基礎設施的一部分

講白了,這次不是 conference theater。這是整個 stack 在對齊新的工作負載。AI 不是先有平台再找用途。是用途先爆量,平台只好跟著改。

數字告訴你,inference 才是主角

這次 keynote 提到一個很重要的預測。2023 年,大約三分之二的 AI 算力用在 training,三分之一用在 inference。到 2026 年底,這個比例預計會翻過來。到這個十年末,inference 需求還可能衝到 93.3 gigawatts 的算力規模。

Kubernetes 正在變成 AI 控制平面

這種預測不能當成天條,但方向很明確。AI 的使用型態變了。以前大家是跑模型、看結果。現在是聊天、代理、工具呼叫、持續互動。每一次互動都會多吃 Token,也多吃 GPU。

所以經濟模型也變了。Training 像一次性專案。Inference 像長期水電費。你可以不喜歡,但帳單每個月都會來。

  • 2023 年:training 約占 2/3 AI 算力
  • 2023 年:inference 約占 1/3 AI 算力
  • 2026 年底:inference 預計超過 training
  • 十年末:inference 需求預估達 93.3 GW

這也解釋了為什麼 Kubernetes 被重新定義。它不是只管容器啟停。它要開始管 GPU 排程、模型服務、流量導向、資源切片。換句話說,它正在往 AI 的控制平面靠攏。

如果你是平台團隊,這時候最該問的不是「能不能跑 AI」。而是「哪個地方最先炸」。通常會是 GPU 配額、路由策略、快取命中率,或者多叢集政策不一致。這些才是真正的痛點。

Uber 的案例很有說服力

這次大會也拿出一個很實際的案例:Uber。官方分享說,Uber 的 Michelangelo 平台支援公司 100% 的 mission-critical ML。每個月訓練 20,000 個模型,5,300 個在 production,峰值每秒超過 3,000 萬次預測,還有大約 1,000 個 serving nodes。

這些數字很有感。因為它證明 AI 基礎設施不是未來式。大公司早就在做,而且規模大到不能靠手工維運。你如果還把模型服務當成實驗室專案,現場很快就會教你做人。

Uber 的案例也提醒我們,AI 平台跟一般 Web 平台有共通點,但差異更大。共通的是都要可觀測、可擴展、可回滾。差異是 AI 多了 GPU、模型版本、推論延遲、Token 成本,還有更難抓的資源競爭。

如果你把這些工具拼在一起看,會發現一件事。AI 基礎設施不需要從零發明新 OS。它需要的是雲原生堆疊往 GPU 和 inference 方向延伸,還要保有可攜性。這就是 Kubernetes 的價值。

我自己的看法很直接。真正有用的不是某個單點產品,而是整套開放標準能不能接住這波需求。只要還能換供應商、能跨雲、能維持策略一致,企業就比較敢上量。

歐洲為什麼特別在意這件事

這次還有一個背景不能漏掉。CNCF 提到,歐洲目前是 CNCF 專案最大的區域貢獻者。這件事跟 AI 監管、資料主權、跨境部署都有關。

在歐洲,大家對資料治理本來就比較敏感。當 AI 基礎設施進到 production,企業就會更在意資料放哪裡、模型怎麼跑、日誌怎麼存、誰能碰到哪些資料。這時候開放標準就很重要。

因為標準一旦碎掉,企業就會被綁死。尤其是 inference 這種長期成本高的工作負載,誰都不想把未來 3 年的預算押在某一家黑盒平台上。

歐洲也很適合推這類技術討論。因為它同時有大型企業、主權雲需求、開源社群,還有明確的法規壓力。這些因素疊在一起,會逼大家把 AI 基礎設施做得更透明。

接下來該怎麼看

我覺得這次 KubeCon 的訊號很清楚。Kubernetes 正在從 app orchestration,往 AI operations 移動。不是口號,是工作負載真的變了。inference、GPU、routing、policy,這些都已經是主戰場。

如果你是平台工程師,現在最實際的做法是先盤點自己的 AI 服務。你有沒有 GPU 排程策略?有沒有 inference-aware routing?有沒有把模型服務跟一般 HTTP 流量混在一起?如果有,最好現在就拆。

我的預測很簡單。接下來 12 到 18 個月,會有更多團隊把 Kubernetes 當成 AI 控制平面來用。先做標準化的人,會比較省錢,也比較好維運。你如果還在用零散腳本撐場面,之後會很痛。

所以問題不是「Kubernetes 能不能做 AI」。問題是「你準備好把 AI 當 production 了嗎?」