[MODEL] 8 分鐘閱讀OraCore 編輯部

GLM-5V-Turbo 在 Design2Code 贏了…

Z.ai 的 GLM-5V-Turbo 在 Design2Code 拿下 94.8,壓過 Claude Opus 4.6 的 77.3。它還用 Huawei Ascend 完成訓練,主打視覺轉程式與 GUI agent 工作流。

分享 LinkedIn
GLM-5V-Turbo 在 Design2Code 贏了…

Z.ai 這次丟出一個很直接的數字:94.8。這是 Design2Code 上,GLM-5V-Turbo 拿到的分數。對比 Claude Opus 4.6 的 77.3,差距很明顯。說白了,這不是聊天能力比賽,這是看誰比較會把畫面變成程式。

更有意思的是,它不是靠 NVIDIA 堆出來的。Z.ai 說,這個模型是用 Huawei Ascend 晶片訓練,搭配 MindSpore,整條訓練鏈都沒碰 NVIDIA。這件事對硬體供應鏈、成本結構、還有中國 AI 生態,都很有意思。

如果你在做 UI agent、screenshot-to-code、或設計稿自動轉前端,這個模型就不是新聞稿而已。它是在直接碰你的工作流程。這種東西,開發者通常會先懷疑,再偷偷拿去測。

這顆模型到底在做什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

GLM-5V-Turbo 不是那種「先做聊天,再補上圖片」的模型。它從一開始就瞄準視覺理解、介面操作、和程式生成。你丟給它截圖、設計稿、文件版面、圖片,甚至影片畫面,它會試著把這些視覺資訊轉成程式碼,或直接變成操作動作。

GLM-5V-Turbo 在 Design2Code 贏了…

它屬於 GLM-5 家族。官方說法是 7450 億參數、256 個 experts、每次推理大約啟用 440 億參數。這種 Mixture of Experts 架構,重點不是把全部參數都燒起來,而是讓模型在不同任務上切不同子網路。講白了,就是更會分工。

視覺部分則加上 CogViT。這是新的 vision encoder。它的價值在於,模型不是把圖片當成附加檔案,而是直接吃進視覺訊號。這差很多。前者常常像貼圖,後者才像真的看懂。

  • Design2Code 分數:94.8
  • Claude Opus 4.6:77.3
  • 模型家族:GLM-5
  • 總參數:約 7450 億
  • Experts:256
  • 每次推理啟用:約 440 億參數
  • Context window:20 萬 tokens
  • 輸出上限:12.8 萬 tokens

為什麼這個分數很重要

Design2Code 這種測試,比一般聊天排行榜更有意義。它不是問模型會不會講道理,而是問它能不能把設計圖真的做出來。你給它一張 Figma mockup,或一張產品截圖,它要能吐出可用的 HTML、CSS、甚至元件結構。這很貼近真實開發。

對很多團隊來說,這才是 AI 最值錢的地方。不是幫你寫一段漂亮文案,而是把設計、前端、和自動化串起來。94.8 代表什麼?代表它在這條路上,至少在這個 benchmark 上,比 Claude Opus 4.6 更像一個會做事的工具。

Z.ai 也說,GLM-5V-Turbo 在 AndroidWorldWebVoyager 這類 GUI agent 環境也有不錯表現。這類測試很煩,但很真實。模型不是只要會答題,而是要會在軟體介面裡走路、點按鈕、找欄位、處理錯誤。

“The future of AI will be about systems that can act, not just answer.” — Satya Nadella

這句話是 Satya Nadella 說的。放在這裡很貼切。現在很多產品都在往 agent 走。不是只有回你一段文字,而是直接幫你跑流程。GLM-5V-Turbo 就是朝這個方向下手。

但先別急著說它把 Claude 打趴了。Z.ai 自己的說法也暗示,Claude 在純文字 coding、後端推理、repo 探索,可能還是更穩。這比較像分工,不是通殺。視覺轉程式這條線,它很強。純文字重度推理,未必。

價格跟硬體,才是另一個重點

Z.ai 的定價很殺。API 標價是每百萬 input tokens 1.20 美元,output tokens 4.00 美元,cached reads 0.24 美元。這不是小差距。對要跑 agent loop 的團隊來說,這種差距會直接反映在月帳單上。

GLM-5V-Turbo 在 Design2Code 贏了…

為什麼?因為 GUI agent 很燒 token。它要看畫面、想下一步、叫工具、再修正輸出。一次任務常常不是一個 prompt 就結束,而是十幾輪來回。這時候,便宜 60% 到 80% 的模型,就會變成很實際的選項。

OpenRouter 的早期數據也有參考價值。據平台統計,這個模型上線前兩天大約有 5.9 萬次請求,63.6 百萬 reasoning tokens,還有 18,900 次 tool function calls。這不像只是大家試玩一下。比較像開發者真的在拿它做事。

  • Input 價格:每百萬 tokens 1.20 美元
  • Output 價格:每百萬 tokens 4.00 美元
  • Cached reads:每百萬 tokens 0.24 美元
  • OpenRouter 兩天請求量:約 59,000
  • Reasoning tokens:6,360 萬
  • Tool function calls:18,900

硬體這件事也不能跳過。用 Ascend 訓練,代表 Z.ai 可以少碰一些 NVIDIA 供應風險。對中國公司來說,這不是口號,是實際的採購和部署問題。能不能訓練、能不能擴容、能不能穩定跑,全部都跟硬體綁在一起。

如果它真的能在 Ascend 上把模型品質維持住,那就很有看頭。因為這代表 AI 訓練不再只剩一條路。對生態系來說,這種選擇會影響成本,也會影響供應鏈談判力。

跟 Claude、其他模型比,差在哪

先講白一點,這不是「所有任務都贏」的故事。GLM-5V-Turbo 的強項很明確,就是視覺輸入轉程式、GUI 操作、和設計稿重建。Claude 的優勢則比較像文字推理、長文理解、程式碼審查、還有比較成熟的通用對話能力。

如果你把兩者放進同一個工作流,結果可能是分工。GLM-5V-Turbo 負責看畫面、拉結構、產出前端骨架。Claude 負責讀 repo、看 API、補商業邏輯、檢查 edge cases。這種組合,比硬要選一個更合理。

從數據上看,94.8 對 77.3 的差距很大,但要注意 benchmark 屬性。Design2Code 本來就偏向視覺還原與結構生成。它很適合測這類模型,但不代表它能完整代表所有 coding 場景。這點很多人會偷懶忽略,我覺得不行。

  • Design2Code:GLM-5V-Turbo 94.8,Claude Opus 4.6 77.3
  • 定位差異:前者偏視覺轉程式,後者偏通用推理
  • 適合場景:Figma、截圖、網頁重建、GUI agent
  • 較穩場景:後端推理、長 repo 分析、文字密集任務
  • 成本面:Z.ai 定價明顯更低

如果你是產品團隊,這個差異很現實。你不會拿一個最強聊天模型,硬去做所有介面自動化。那樣太貴,也太浪費。你會想找一個更便宜、而且在特定任務上更準的模型。GLM-5V-Turbo 看起來就是衝這個位置。

老實說,這種產品策略比「我們什麼都最強」更可信。因為 AI 現在就是分工時代。沒有人有空等一個萬能模型。大家要的是能直接上線的工具。

中國 AI 硬體路線,現在更清楚了

GLM-5V-Turbo 的訓練方式,放大看很有代表性。它不是單純一個模型發布,而是把中國 AI 生態裡幾個元素串起來:自家模型、國產晶片、國產訓練框架。這條路線,跟美系雲端和 NVIDIA 堆疊的主流打法,差很多。

這也反映出一個現實。AI 模型不只是演算法競賽。它同時是供應鏈競賽、算力競賽、還有部署成本競賽。誰能在限制較多的環境裡,把模型訓練和推理都跑順,誰就有更多商業空間。

Z.ai 今年 1 月完成香港 IPO,募得約 5.58 億美元。這筆錢不只是拿來講故事。它可以燒在訓練、推理基礎設施、還有產品落地。對一家還在擴張的公司來說,這種資金彈性很重要。

放到產業脈絡看,這也代表一件事:未來的 AI 競爭,不會只看「誰的模型分數高」。還要看誰能在特定硬體、特定法規、特定成本條件下,把產品做出來。這才是能活下去的路。

接下來,開發者該看什麼

我覺得最值得觀察的,不是單次 benchmark,而是它能不能變成日常工具。你可以先問自己一個很實際的問題:你的工作起點是什麼?如果是截圖、Figma、瀏覽器畫面、或文件版面,那 GLM-5V-Turbo 很值得試。

如果你的工作主要是後端邏輯、程式碼重構、或大型 repo 分析,那你可能還是會偏向 Claude,或其他更擅長文字推理的模型。這很正常。工具就是工具,不需要神化。

接下來幾個月,我會盯兩件事。第一,它在真實產品裡的錯誤率。第二,社群會不會把它接進現有的 UI agent 工具鏈。只要這兩件事做得起來,這顆模型就不只是 benchmark 贏家,而是會被放進 production 的選項。

說真的,現在最該做的不是喊口號,而是找一個你手上的 design-to-code 任務,直接丟去測。看它能不能少改 30% 的前端草稿。這種數字,比任何形容詞都實在。