[MODEL] 8 分鐘閱讀OraCore 編輯部

Grok 4.20 怎麼看

xAI 的 Grok 4.20 主打 200 萬 token 長上下文、多代理推理與 API 價格。這篇拆解它的定位、規格、競品差異與開發者該注意的坑。

分享 LinkedIn
Grok 4.20 怎麼看

xAI 在 2026 年 2 月 17 日推了 Grok 4.20 beta。3 月又開放正式版和 API。最吸睛的數字很直接:200 萬 token 上下文、每百萬 input token 2 美元、output token 6 美元。

講白了,這不是單純聊天模型。它想吃下長文件、工具呼叫、研究整理,還有那種很亂的問題。你丟一堆資料給它,它還能不能把線拉回來,這才是重點。

對台灣開發者來說,這種規格很有感。因為很多產品卡的不是模型會不會說話,而是能不能記住上下文。200 萬 token 這個級別,已經可以拿來玩大型 codebase、長會議紀錄、法務文件和客服工單了。

Grok 4.20 到底在做什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

Grok 4.20 也有人寫成 Grok 4.2 或 Grok 420。它是 xAI 在 Grok 系列裡的旗艦模型。官方主打的方向很明確,就是代理式工具呼叫、推理、嚴格遵守提示詞,還有更低的幻覺率。

Grok 4.20 怎麼看

時間軸也很密。Grok 4 在 2025 年 7 月出現,Grok 4.1 在 2025 年 11 月跟上,Grok 4.20 則接著往前推。這不是那種一年只大改一次的路線。xAI 比較像是一直丟小版本,節奏很快。

這對工程團隊很重要。因為模型行為可能一個月一變。你今天測過可用,不代表下個月還是一樣。做產品的人最好把版本、日期、checkpoint 都記清楚,不然 debug 會很痛苦。

  • beta 上線:2026 年 2 月 17 日
  • API 開放:2026 年 3 月
  • 公開模型選單:2026 年 3 月中旬
  • 上下文長度:最高 2,000,000 tokens
  • API 價格:input 每百萬 2 美元,output 每百萬 6 美元

這些數字看起來很兇,但背後其實是產品定位。xAI 想把 Grok 4.20 放到「長記憶、快工具、能處理髒問題」這個區間。它不是只想陪你聊天而已。

如果你做的是 AI workflow、知識助理、RAG 系統,這種模型就很值得試。因為上下文一長,很多以前要切片處理的東西,可以直接整包塞進去。

多代理設計才是重點

Grok 4.20 最有意思的地方,是它把多代理設計做成賣點。xAI 說系統裡有四個專門角色。Grok 負責協調,Harper 做研究和查核,Benjamin 負責邏輯、數學和程式,Lucas 則負責創意挑戰和反向思考。

這種設計比單一聊天機器人更像團隊合作。不是一個模型硬扛全部工作,而是先拆任務,再整合答案。說真的,這思路蠻合理。因為很多難題本來就不是靠一口氣吐完,而是靠分工。

對開發者來說,這代表兩件事。第一,模型可能在長推理和工具使用上更穩。第二,你也要更小心評估。因為多代理架構會讓輸出更複雜,debug 也更難。

“We are going to open source all our code and all our models.” — Elon Musk, xAI livestream announcement, July 12, 2023

這句話雖然是 2023 年講的,但很能看出 xAI 的敘事風格。它喜歡講快、講大、講公開。Grok 4.20 其實也延續這個路線,只是現在更偏向產品化,不再只是口號。

xAI 也做了自訂代理功能。使用者可以建立自己的 Grok 實例,改名字、改語氣、改指令。這讓它更像工具箱,不像單一聊天頁面。對需要內部助理的團隊,這會比單純聊天更實用。

  • 內建代理:Grok、Harper、Benjamin、Lucas
  • 自訂代理:部分訂閱方案最多 4 個
  • 使用入口:grok.com、iOS、Android、X 整合
  • 常見用途:寫程式、研究整理、學習輔助、創作草稿

如果你有做 internal copilot,這種代理分工很值得參考。因為它把「誰負責查資料、誰負責算數、誰負責寫文」拆開了。這比單一 prompt 硬塞一堆要求,通常更好管。

跟前代 Grok 比,差在哪

Grok 4.20 不是只是改名。xAI 明顯把它往多代理系統推。這點很重要,因為以前很多模型都在比誰回得快。現在大家更在意,誰能把長任務做完,而且不亂跑。

Grok 4.20 怎麼看

公開排行榜也有一些訊號。Grok 4.20 的 LMSYS Arena Elo 大約落在 1505 到 1535。Grok 4.1 則是 1483。差距不算誇張,但在模型排名裡,幾十分就可能代表一段使用體驗差異。

它的 benchmark 也比較偏務實。xAI 提到某個 reasoning checkpoint 在 IFBench 的 instruction following 來到 82.9%。另外,幻覺率也有下降的說法。這些數字聽起來沒那麼炫,但對實際上線很重要。

  • Grok 4.1 Arena Elo:1483
  • Grok 4.20 Arena Elo:1505–1535
  • IFBench instruction following:82.9%
  • 幻覺率下降:部分測試宣稱最高 65%
  • Alpha Arena Season 1.5:12.11% 總報酬

那個 12.11% 很值得看一下。Alpha Arena Season 1.5 裡,匿名的 Mystery Model 被外界對上 Grok 4.20。它在兩週內把 1 萬美元做成約 1 萬 2193 美元。這個結果比 OpenAIGoogle DeepMind 的參賽項目還亮眼。

但別太快高潮。交易競賽只代表一種能力。它測得出模型能不能在限制條件下推理。它測不出所有真實部署問題。像是安全性、穩定度、回應一致性,這些都還要看。

API 對開發者有什麼用

真正讓人想測的,是 API。xAI 提供的版本包括 grok-4.20-0309-reasoning、grok-4.20-0309-non-reasoning、grok-4.20-multi-agent-0309。這些名字很工程師,至少看得出來不是只包裝成一個聊天按鈕。

價格也算有競爭力。input 每百萬 token 2 美元,output 每百萬 token 6 美元。這個價位對新創和內部專案都算能碰。至少你可以先跑 eval,不會一開局就燒太兇。

200 萬 token 上下文才是大招。這代表你可以把大型 repo、長文件、會議紀錄、客服歷史直接塞進去。以前很多工作要切 chunk、做檢索、再拼回來。現在可以少繞一點路。

  • 模型版本:reasoning、non-reasoning、multi-agent
  • input 價格:$2 / 百萬 tokens
  • output 價格:$6 / 百萬 tokens
  • 上下文長度:200 萬 tokens
  • 官方文件:xAI model docsrelease notes

不過我還是要潑冷水。長上下文不等於一定更準。你還是要做 prompt 設計、測試集、guardrail。否則模型看得再多,也可能答得很飄。

但實務上,這種規格很適合做 agent。尤其是要頻繁查資料、反覆修正、還要記住上下文的產品。像法遵助理、研究助理、程式碼審查工具,都很對味。

它跟其他模型怎麼比

如果把 Grok 4.20 放到市場裡看,它的定位其實很清楚。OpenAI 的 GPT 系列強在整體生態,Anthropic 的 Claude 強在長文理解和文字穩定,Google 的 Gemini 則很會吃大上下文和多模態。Grok 4.20 則在多代理、X 整合、以及價格上打自己的牌。

這也代表它不是萬用答案。你如果重視企業治理和成熟工具鏈,Claude 和 GPT 還是很強。你如果想試長上下文和 agent workflow,Grok 4.20 就值得拿來比。

更直接一點說,它的吸引力不在「最會聊天」。它的吸引力在「能不能把一堆亂資料整理完,還順手幫你呼叫工具」。這才是很多團隊真正要的。

如果你在做產品選型,建議直接比三件事。第一,長文件任務準不準。第二,工具呼叫穩不穩。第三,成本會不會炸。這三項比單看 benchmark 更有用。

為什麼這波更新值得看

Grok 4.20 反映的是一個很現實的方向。大家已經不太只問模型會不會寫詩。大家更在意它能不能接 API,能不能記住長內容,能不能在一個工作流裡真的幫忙做事。

xAI 這次把價格、上下文和多代理一起端出來,就是在告訴市場,它想搶的是實作場景,不只是聊天熱度。這點我覺得很實際。因為最後會留下來的,通常不是最會講的模型,而是最能穩定做事的模型。

如果你是工程師,現在最該做的不是看宣傳圖。你應該拿自己的資料去測。放一個 10 萬 token 的專案文件,丟一個有工具呼叫的任務,再比對你現在用的模型。結果會很誠實。

接下來怎麼看 Grok 4.20

我會先看兩個月。第一個觀察點,是 xAI 能不能把版本更新節奏穩住。第二個觀察點,是 Grok 4.20 在真實工作流裡會不會亂掉。只要這兩件事做得好,它就不只是話題模型。

如果你現在在選 LLM,建議先做小規模測試。找 3 種任務。長文件摘要、程式碼問答、工具呼叫。各跑 20 筆。你很快就知道它適不適合你。別只看 headline 數字,真的會踩雷。

說白了,Grok 4.20 的價值不在聲量。它的價值在於,它把「長上下文 + 多代理 + 低價 API」放在同一張桌上。這組合如果跑順,很多團隊會開始重新算帳。