Gemma 4 登上 Google Cloud

OraCore Editors

返回首頁

[MODEL] 2026年4月4日7 分鐘閱讀OraCore 編輯部

Gemma 4 登上 Google Cloud

Gemma 4 進入 Google Cloud，支援 256K context、vision、audio 與 Apache 2.0 授權，還能跑在 Vertex AI、Cloud Run、GKE 與 TPU 上。

Gemma 4 multimodal AI TPU Apache 2.0 LLM Cloud Run Google Cloud open model

分享 LinkedIn

Google Cloud 這次把 Gemma 4 接進來，數字很直接：上下文最高 256K tokens。這代表它不只會看圖、聽音檔，還能讀很長的資料。對開發者來說，這種規格不是拿來炫技，是拿來省時間。

更有意思的是，Google 沒有只丟一個模型檔案就收工。它把 Model Garden、Cloud Run、Google Kubernetes Engine，還有 Google Cloud TPUs 一起包進來。講白了，就是你可以選 managed、serverless，或自己控到底。

Google 這次到底丟了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

先講重點。Gemma 4 是 Google 目前最完整的開放模型家族之一。它不是單一 checkpoint，而是一整套版本。從較小的型號，到 31B dense model，再到 26B mixture-of-experts，選項很齊。

這種設計很務實。因為不是每個團隊都需要大模型硬扛。很多產品只需要低延遲、便宜、可控。你如果拿 31B 去做簡單客服，八成是在燒錢。

Gemma 4 的賣點很直白。長上下文、多模態、還支援 140 多種語言。再加上 Apache 2.0 授權，商用門檻比很多閉源模型低很多。這點對台灣團隊很實際，因為法務溝通常常比模型測試還慢。

最高 256K token context
原生 vision 與 audio
支援 140+ 語言
Apache 2.0 授權
2B 到 31B，多一個 26B MoE 版本

我覺得這次最聰明的地方，是 Google 把模型和雲端路徑綁在一起。你不是只拿到權重。你是拿到一條能上線的路。

Google 也把 Gemma 4 跟自家研究線連在一起，說它和 Gemini 3 用的是同一脈研究成果。這不代表兩者一樣強，但很明顯，Google 想把開放模型做得更像它的旗艦產品。

為什麼企業團隊會在意

企業最怕的不是模型不夠強。最怕的是資料出不去，合規過不了，採購卡住。Gemma 4 的部署方式，剛好就是在處理這些麻煩事。

Google Cloud 把它放進不同環境。你可以跑在公有雲，也可以用資料邊界控制。你甚至可以看 Sovereign Cloud、S3NS in France，或 Google Distributed Cloud 這類路線。這對金融、醫療、政府案子都很重要。

講白了，很多 AI 專案不是死在技術，而是死在流程。POC 做完很漂亮，到了資安審查就卡住。Gemma 4 至少把這些地雷先拆掉一半。

“I think the biggest thing is we’re seeing companies realize that AI is not a science project anymore.” — Thomas Kurian, Google Cloud Next 2024 keynote

Thomas Kurian 這句話很準。現在企業要的不是 demo，是能交付的軟體。Google 這次的打法也很清楚，就是把模型當基礎設施賣，不是當玩具展示。

還有一個細節很值得看。Google 說 26B MoE 版本很快會在 Model Garden 變成 fully managed 和 serverless。這很像在對開發者說：你可以保留 open model 的自由，但不用自己扛全部 MLOps。

部署選項才是主菜

如果你是工程師，你會發現這次最有價值的不是 benchmark，而是部署選擇。Vertex AI 適合想快速上線的人。Cloud Run 適合想省維運的人。GKE 則適合想自己控資源的人。

Google 也很明顯在推 agent 工作流。Gemma 4 支援 reasoning、function calling、code generation、structured output，還能搭配 Agent Development Kit 做 AI agents。這不是空話，因為現在很多團隊真的在做工具型 agent，不是在做聊天機器人。

如果你想跑 inference，Cloud Run 也能接 NVIDIA RTX PRO 6000 Blackwell GPUs，而且有 96GB vGPU memory。這種配置對中型模型很實用，尤其是流量忽高忽低的產品。

Cloud Run 可 scale to zero
GKE 可搭配 vLLM
TPU 可用於 serving、pretraining、post-training
vLLM 與 NVIDIA NeMo 都在建議工具鏈內
GKE Agent Sandbox 可隔離執行 LLM 產生的 code

我覺得 GKE Agent Sandbox 這點很有戲。Google 說它能做到 sub-second cold starts，還能到每秒 300 個 sandboxes。這種數字如果在真實環境站得住，對多步驟 agent 會很有幫助。

因為 agent 最怕什麼？不是模型不會想，是工具呼叫亂掉。Sandbox 做得好，至少能把風險隔離開來。

跟其他開放模型比，差在哪

Gemma 4 的對手很多。Llama、Mistral、還有一堆自家微調版本，都在搶同一批開發者。差別不在「誰最會講」，而在「誰比較好上線」。

Llama 的生態很大。Mistral 的效率也不差。但 Google 這次把模型、雲端、TPU、Sovereign Cloud 一起打包，這就很像把整套廚房都搬給你。你不用自己找瓦斯、找鍋子、找水電。

Gemma 4 的優勢也很實際。256K context 很適合長文件、codebase、法規資料。vision 和 audio 則讓它比純文字模型更好用。對做客服、文件分析、會議摘要、內部知識庫的人來說，這些都不是加分題，是基本盤。

Gemma 4：256K context、vision、audio、140+ languages、Apache 2.0
Llama：生態大，但部署與合規常要自己處理
Mistral：效率不錯，適合自架，但雲端整合較分散
Gemma 4 on Google Cloud：managed、serverless、TPU、GKE 一次到位

成本也是重點。Cloud Run 的 scale to zero 很適合有尖峰流量的服務。GKE 可以把 autoscaling 玩得很細。TPU 則適合大規模推理或訓練。這些選項放一起，對財務部門會比較好交代。

如果你是已經在 Google Cloud 上的團隊，這次幾乎可以直接試。因為整合成本低。反過來說，如果你不在 Google 生態裡，Gemma 4 也還是值得看，因為它把 open model 的商用路徑講得更完整了。

這件事放回產業脈絡看

現在的 open model 市場，已經不是單純比誰權重開得多。大家開始比的是：誰能讓你少養幾個平台工程師。這才是現實。

過去很多團隊下載模型後，還要自己處理 serving、監控、快取、版本控管、權限、資料隔離。這一套做下來，很容易變成半個平台專案。Google 這次就是想把這些東西收進自己的雲服務裡。

這也解釋了為什麼 Apache 2.0 這麼重要。因為企業不是只看準不準，還看能不能放心用。授權不清楚的模型，再強也會被法務擋下來。

另外一個背景是，多模態 AI 已經變成主流需求。很多內部系統不只吃文字，還要吃圖、吃語音、吃 PDF、吃截圖。Gemma 4 的定位，剛好踩在這個需求上。

我自己的判斷是，接下來 6 到 12 個月，會有更多雲端業者把 open model 和 managed serving 綁在一起賣。因為大家都知道，模型本身只是入口，真正能留住客戶的是部署體驗。

接下來該怎麼看

如果你正在做內部助理、文件解析、code tool，或多模態 agent，Gemma 4 很值得排進測試清單。先從最小型號開始，別一上來就衝大模型。很多場景根本不需要那麼重。

我會特別注意 26B MoE 在 Model Garden 上線後的價格、延遲、吞吐量。這三個數字會決定它是不是能成為很多 Google Cloud 客戶的預設選項。

問題很簡單：你要的是一個很會聊天的模型，還是一條能真的上線的路？如果你要後者，Gemma 4 這次給的東西，確實值得動手試。

// 相關文章

Gemma 4 登上 Google Cloud

Google 這次到底丟了什麼

訂閱 AI 趨勢週報

為什麼企業團隊會在意

部署選項才是主菜

跟其他開放模型比，差在哪

這件事放回產業脈絡看

接下來該怎麼看

MiniMax-M1：開源 1M Token 推理模型

Gemini Omni 影片模型怎麼了

為什麼 Xiaomi 的 MiMo-V2.5-Pro 改變的是 Coding …

OpenAI 即時音訊模型瞄準語音互動

Anthropic推10款金融AI Agent

為什麼 Claude 的「無限」上下文窗口，仍然不會讓 AI 自主運作