[MODEL] 7 分鐘閱讀OraCore 編輯部

Gemma 4 登上 Google Cloud

Gemma 4 進入 Google Cloud,支援 256K context、vision、audio 與 Apache 2.0 授權,還能跑在 Vertex AI、Cloud Run、GKE 與 TPU 上。

分享 LinkedIn
Gemma 4 登上 Google Cloud

Google Cloud 這次把 Gemma 4 接進來,數字很直接:上下文最高 256K tokens。這代表它不只會看圖、聽音檔,還能讀很長的資料。對開發者來說,這種規格不是拿來炫技,是拿來省時間。

更有意思的是,Google 沒有只丟一個模型檔案就收工。它把 Model GardenCloud RunGoogle Kubernetes Engine,還有 Google Cloud TPUs 一起包進來。講白了,就是你可以選 managed、serverless,或自己控到底。

Google 這次到底丟了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

先講重點。Gemma 4 是 Google 目前最完整的開放模型家族之一。它不是單一 checkpoint,而是一整套版本。從較小的型號,到 31B dense model,再到 26B mixture-of-experts,選項很齊。

Gemma 4 登上 Google Cloud

這種設計很務實。因為不是每個團隊都需要大模型硬扛。很多產品只需要低延遲、便宜、可控。你如果拿 31B 去做簡單客服,八成是在燒錢。

Gemma 4 的賣點很直白。長上下文、多模態、還支援 140 多種語言。再加上 Apache 2.0 授權,商用門檻比很多閉源模型低很多。這點對台灣團隊很實際,因為法務溝通常常比模型測試還慢。

  • 最高 256K token context
  • 原生 vision 與 audio
  • 支援 140+ 語言
  • Apache 2.0 授權
  • 2B 到 31B,多一個 26B MoE 版本

我覺得這次最聰明的地方,是 Google 把模型和雲端路徑綁在一起。你不是只拿到權重。你是拿到一條能上線的路。

Google 也把 Gemma 4 跟自家研究線連在一起,說它和 Gemini 3 用的是同一脈研究成果。這不代表兩者一樣強,但很明顯,Google 想把開放模型做得更像它的旗艦產品。

為什麼企業團隊會在意

企業最怕的不是模型不夠強。最怕的是資料出不去,合規過不了,採購卡住。Gemma 4 的部署方式,剛好就是在處理這些麻煩事。

Google Cloud 把它放進不同環境。你可以跑在公有雲,也可以用資料邊界控制。你甚至可以看 Sovereign CloudS3NS in France,或 Google Distributed Cloud 這類路線。這對金融、醫療、政府案子都很重要。

講白了,很多 AI 專案不是死在技術,而是死在流程。POC 做完很漂亮,到了資安審查就卡住。Gemma 4 至少把這些地雷先拆掉一半。

“I think the biggest thing is we’re seeing companies realize that AI is not a science project anymore.” — Thomas Kurian, Google Cloud Next 2024 keynote

Thomas Kurian 這句話很準。現在企業要的不是 demo,是能交付的軟體。Google 這次的打法也很清楚,就是把模型當基礎設施賣,不是當玩具展示。

還有一個細節很值得看。Google 說 26B MoE 版本很快會在 Model Garden 變成 fully managed 和 serverless。這很像在對開發者說:你可以保留 open model 的自由,但不用自己扛全部 MLOps。

部署選項才是主菜

如果你是工程師,你會發現這次最有價值的不是 benchmark,而是部署選擇。Vertex AI 適合想快速上線的人。Cloud Run 適合想省維運的人。GKE 則適合想自己控資源的人。

Gemma 4 登上 Google Cloud

Google 也很明顯在推 agent 工作流。Gemma 4 支援 reasoning、function calling、code generation、structured output,還能搭配 Agent Development Kit 做 AI agents。這不是空話,因為現在很多團隊真的在做工具型 agent,不是在做聊天機器人。

如果你想跑 inference,Cloud Run 也能接 NVIDIA RTX PRO 6000 Blackwell GPUs,而且有 96GB vGPU memory。這種配置對中型模型很實用,尤其是流量忽高忽低的產品。

  • Cloud Run 可 scale to zero
  • GKE 可搭配 vLLM
  • TPU 可用於 serving、pretraining、post-training
  • vLLM 與 NVIDIA NeMo 都在建議工具鏈內
  • GKE Agent Sandbox 可隔離執行 LLM 產生的 code

我覺得 GKE Agent Sandbox 這點很有戲。Google 說它能做到 sub-second cold starts,還能到每秒 300 個 sandboxes。這種數字如果在真實環境站得住,對多步驟 agent 會很有幫助。

因為 agent 最怕什麼?不是模型不會想,是工具呼叫亂掉。Sandbox 做得好,至少能把風險隔離開來。

跟其他開放模型比,差在哪

Gemma 4 的對手很多。LlamaMistral、還有一堆自家微調版本,都在搶同一批開發者。差別不在「誰最會講」,而在「誰比較好上線」。

Llama 的生態很大。Mistral 的效率也不差。但 Google 這次把模型、雲端、TPU、Sovereign Cloud 一起打包,這就很像把整套廚房都搬給你。你不用自己找瓦斯、找鍋子、找水電。

Gemma 4 的優勢也很實際。256K context 很適合長文件、codebase、法規資料。vision 和 audio 則讓它比純文字模型更好用。對做客服、文件分析、會議摘要、內部知識庫的人來說,這些都不是加分題,是基本盤。

  • Gemma 4:256K context、vision、audio、140+ languages、Apache 2.0
  • Llama:生態大,但部署與合規常要自己處理
  • Mistral:效率不錯,適合自架,但雲端整合較分散
  • Gemma 4 on Google Cloud:managed、serverless、TPU、GKE 一次到位

成本也是重點。Cloud Run 的 scale to zero 很適合有尖峰流量的服務。GKE 可以把 autoscaling 玩得很細。TPU 則適合大規模推理或訓練。這些選項放一起,對財務部門會比較好交代。

如果你是已經在 Google Cloud 上的團隊,這次幾乎可以直接試。因為整合成本低。反過來說,如果你不在 Google 生態裡,Gemma 4 也還是值得看,因為它把 open model 的商用路徑講得更完整了。

這件事放回產業脈絡看

現在的 open model 市場,已經不是單純比誰權重開得多。大家開始比的是:誰能讓你少養幾個平台工程師。這才是現實。

過去很多團隊下載模型後,還要自己處理 serving、監控、快取、版本控管、權限、資料隔離。這一套做下來,很容易變成半個平台專案。Google 這次就是想把這些東西收進自己的雲服務裡。

這也解釋了為什麼 Apache 2.0 這麼重要。因為企業不是只看準不準,還看能不能放心用。授權不清楚的模型,再強也會被法務擋下來。

另外一個背景是,多模態 AI 已經變成主流需求。很多內部系統不只吃文字,還要吃圖、吃語音、吃 PDF、吃截圖。Gemma 4 的定位,剛好踩在這個需求上。

我自己的判斷是,接下來 6 到 12 個月,會有更多雲端業者把 open model 和 managed serving 綁在一起賣。因為大家都知道,模型本身只是入口,真正能留住客戶的是部署體驗。

接下來該怎麼看

如果你正在做內部助理、文件解析、code tool,或多模態 agent,Gemma 4 很值得排進測試清單。先從最小型號開始,別一上來就衝大模型。很多場景根本不需要那麼重。

我會特別注意 26B MoE 在 Model Garden 上線後的價格、延遲、吞吐量。這三個數字會決定它是不是能成為很多 Google Cloud 客戶的預設選項。

問題很簡單:你要的是一個很會聊天的模型,還是一條能真的上線的路?如果你要後者,Gemma 4 這次給的東西,確實值得動手試。