[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-grok-420-xai-flagship-model-explained-zh":3,"tags-grok-420-xai-flagship-model-explained-zh":33,"related-lang-grok-420-xai-flagship-model-explained-zh":46,"related-posts-grok-420-xai-flagship-model-explained-zh":50,"series-model-release-f0fb0635-5207-4fc5-b913-a4ab205ebb66":87},{"id":4,"title":5,"content":6,"summary":7,"source":8,"source_url":9,"author":10,"image_url":11,"keywords":12,"language":21,"translated_content":10,"views":22,"is_premium":23,"created_at":24,"updated_at":24,"cover_image":11,"published_at":25,"rewrite_status":26,"rewrite_error":10,"rewritten_from_id":27,"slug":28,"category":29,"related_article_id":30,"status":31,"google_indexed_at":32,"x_posted_at":10,"tweet_text":10,"title_rewritten_at":10,"title_original":10,"key_takeaways":10,"topic_cluster_id":10,"embedding":10,"is_canonical_seed":23},"f0fb0635-5207-4fc5-b913-a4ab205ebb66","Grok 4.20 怎麼看","\u003Cp>\u003Ca href=\"https:\u002F\u002Fx.ai\" target=\"_blank\" rel=\"noopener\">xAI\u003C\u002Fa> 在 2026 年 2 月 17 日推了 \u003Ca href=\"https:\u002F\u002Fgrok.com\" target=\"_blank\" rel=\"noopener\">Grok\u003C\u002Fa> 4.20 beta。3 月又開放正式版和 API。最吸睛的數字很直接：200 萬 token 上下文、每百萬 input token 2 美元、output token 6 美元。\u003C\u002Fp>\u003Cp>講白了，這不是單純聊天模型。它想吃下長文件、工具呼叫、研究整理，還有那種很亂的問題。你丟一堆資料給它，它還能不能把線拉回來，這才是重點。\u003C\u002Fp>\u003Cp>對台灣開發者來說，這種規格很有感。因為很多產品卡的不是模型會不會說話，而是能不能記住上下文。200 萬 token 這個級別，已經可以拿來玩大型 codebase、長會議紀錄、法務文件和客服工單了。\u003C\u002Fp>\u003Ch2>Grok 4.20 到底在做什麼\u003C\u002Fh2>\u003Cp>\u003Ca href=\"\u002Fnews\u002Fgrok-420-xai-truth-first-bet-zh\">Grok\u003C\u002Fa> 4.20 也有人寫成 Grok 4.2 或 Grok 420。它是 xAI 在 Grok 系列裡的旗艦模型。官方主打的方向很明確，就是代理式工具呼叫、推理、嚴格遵守提示詞，還有更低的幻覺率。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775175176314-zyny.png\" alt=\"Grok 4.20 怎麼看\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>時間軸也很密。Grok 4 在 2025 年 7 月出現，Grok 4.1 在 2025 年 11 月跟上，Grok 4.20 則接著往前推。這不是那種一年只大改一次的路線。xAI 比較像是一直丟小版本，節奏很快。\u003C\u002Fp>\u003Cp>這對工程團隊很重要。因為模型行為可能一個月一變。你今天測過可用，不代表下個月還是一樣。做產品的人最好把版本、日期、checkpoint 都記清楚，不然 debug 會很痛苦。\u003C\u002Fp>\u003Cul>\u003Cli>beta 上線：2026 年 2 月 17 日\u003C\u002Fli>\u003Cli>API 開放：2026 年 3 月\u003C\u002Fli>\u003Cli>公開模型選單：2026 年 3 月中旬\u003C\u002Fli>\u003Cli>上下文長度：最高 2,000,000 tokens\u003C\u002Fli>\u003Cli>API 價格：input 每百萬 2 美元，output 每百萬 6 美元\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這些數字看起來很兇，但背後其實是產品定位。xAI 想把 Grok 4.20 放到「長記憶、快工具、能處理髒問題」這個區間。它不是只想陪你聊天而已。\u003C\u002Fp>\u003Cp>如果你做的是 AI workflow、知識助理、RAG 系統，這種模型就很值得試。因為上下文一長，很多以前要切片處理的東西，可以直接整包塞進去。\u003C\u002Fp>\u003Ch2>多代理設計才是重點\u003C\u002Fh2>\u003Cp>Grok 4.20 最有意思的地方，是它把多代理設計做成賣點。xAI 說系統裡有四個專門角色。Grok 負責協調，Harper 做研究和查核，Benjamin 負責邏輯、數學和程式，Lucas 則負責創意挑戰和反向思考。\u003C\u002Fp>\u003Cp>這種設計比單一聊天機器人更像團隊合作。不是一個模型硬扛全部工作，而是先拆任務，再整合答案。說真的，這思路蠻合理。因為很多難題本來就不是靠一口氣吐完，而是靠分工。\u003C\u002Fp>\u003Cp>對開發者來說，這代表兩件事。第一，模型可能在長推理和工具使用上更穩。第二，你也要更小心評估。因為多代理架構會讓輸出更複雜，debug 也更難。\u003C\u002Fp>\u003Cblockquote>“We are going to open source all our code and all our models.” — Elon Musk, xAI livestream announcement, July 12, 2023\u003C\u002Fblockquote>\u003Cp>這句話雖然是 2023 年講的，但很能看出 xAI 的敘事風格。它喜歡講快、講大、講公開。Grok 4.20 其實也延續這個路線，只是現在更偏向產品化，不再只是口號。\u003C\u002Fp>\u003Cp>xAI 也做了自訂代理功能。使用者可以建立自己的 Grok 實例，改名字、改語氣、改指令。這讓它更像工具箱，不像單一聊天頁面。對需要內部助理的團隊，這會比單純聊天更實用。\u003C\u002Fp>\u003Cul>\u003Cli>內建代理：Grok、Harper、Benjamin、Lucas\u003C\u002Fli>\u003Cli>自訂代理：部分訂閱方案最多 4 個\u003C\u002Fli>\u003Cli>使用入口：grok.com、iOS、Android、X 整合\u003C\u002Fli>\u003Cli>常見用途：寫程式、研究整理、學習輔助、創作草稿\u003C\u002Fli>\u003C\u002Ful>\u003Cp>如果你有做 internal copilot，這種代理分工很值得參考。因為它把「誰負責查資料、誰負責算數、誰負責寫文」拆開了。這比單一 prompt 硬塞一堆要求，通常更好管。\u003C\u002Fp>\u003Ch2>跟前代 Grok 比，差在哪\u003C\u002Fh2>\u003Cp>Grok 4.20 不是只是改名。xAI 明顯把它往多代理系統推。這點很重要，因為以前很多模型都在比誰回得快。現在大家更在意，誰能把長任務做完，而且不亂跑。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775175182451-8f7j.png\" alt=\"Grok 4.20 怎麼看\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>公開排行榜也有一些訊號。Grok 4.20 的 LMSYS Arena Elo 大約落在 1505 到 1535。Grok 4.1 則是 1483。差距不算誇張，但在模型排名裡，幾十分就可能代表一段使用體驗差異。\u003C\u002Fp>\u003Cp>它的 benchmark 也比較偏務實。xAI 提到某個 reasoning checkpoint 在 IFBench 的 instruction following 來到 82.9%。另外，幻覺率也有下降的說法。這些數字聽起來沒那麼炫，但對實際上線很重要。\u003C\u002Fp>\u003Cul>\u003Cli>Grok 4.1 Arena Elo：1483\u003C\u002Fli>\u003Cli>Grok 4.20 Arena Elo：1505–1535\u003C\u002Fli>\u003Cli>IFBench instruction following：82.9%\u003C\u002Fli>\u003Cli>幻覺率下降：部分測試宣稱最高 65%\u003C\u002Fli>\u003Cli>Alpha Arena Season 1.5：12.11% 總報酬\u003C\u002Fli>\u003C\u002Ful>\u003Cp>那個 12.11% 很值得看一下。Alpha Arena Season 1.5 裡，匿名的 Mystery Model 被外界對上 Grok 4.20。它在兩週內把 1 萬美元做成約 1 萬 2193 美元。這個結果比 \u003Ca href=\"https:\u002F\u002Fopenai.com\" target=\"_blank\" rel=\"noopener\">OpenAI\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Fdeepmind.google\" target=\"_blank\" rel=\"noopener\">Google DeepMind\u003C\u002Fa> 的參賽項目還亮眼。\u003C\u002Fp>\u003Cp>但別太快高潮。交易競賽只代表一種能力。它測得出模型能不能在限制條件下推理。它測不出所有真實部署問題。像是安全性、穩定度、回應一致性，這些都還要看。\u003C\u002Fp>\u003Ch2>API 對開發者有什麼用\u003C\u002Fh2>\u003Cp>真正讓人想測的，是 API。xAI 提供的版本包括 grok-4.20-0309-reasoning、grok-4.20-0309-non-reasoning、grok-4.20-multi-agent-0309。這些名字很工程師，至少看得出來不是只包裝成一個聊天按鈕。\u003C\u002Fp>\u003Cp>價格也算有競爭力。input 每百萬 token 2 美元，output 每百萬 token 6 美元。這個價位對新創和內部專案都算能碰。至少你可以先跑 eval，不會一開局就燒太兇。\u003C\u002Fp>\u003Cp>200 萬 token 上下文才是大招。這代表你可以把大型 repo、長文件、會議紀錄、客服歷史直接塞進去。以前很多工作要切 chunk、做檢索、再拼回來。現在可以少繞一點路。\u003C\u002Fp>\u003Cul>\u003Cli>模型版本：reasoning、non-reasoning、multi-agent\u003C\u002Fli>\u003Cli>input 價格：$2 \u002F 百萬 tokens\u003C\u002Fli>\u003Cli>output 價格：$6 \u002F 百萬 tokens\u003C\u002Fli>\u003Cli>上下文長度：200 萬 tokens\u003C\u002Fli>\u003Cli>官方文件：\u003Ca href=\"https:\u002F\u002Fdocs.x.ai\u002Fdevelopers\u002Fmodels\" target=\"_blank\" rel=\"noopener\">xAI model docs\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fdocs.x.ai\u002Fdevelopers\u002Frelease-notes\" target=\"_blank\" rel=\"noopener\">release notes\u003C\u002Fa>\u003C\u002Fli>\u003C\u002Ful>\u003Cp>不過我還是要潑冷水。長上下文不等於一定更準。你還是要做 prompt 設計、測試集、guardrail。否則模型看得再多，也可能答得很飄。\u003C\u002Fp>\u003Cp>但實務上，這種規格很適合做 agent。尤其是要頻繁查資料、反覆修正、還要記住上下文的產品。像法遵助理、研究助理、程式碼審查工具，都很對味。\u003C\u002Fp>\u003Ch2>它跟其他模型怎麼比\u003C\u002Fh2>\u003Cp>如果把 Grok 4.20 放到市場裡看，它的定位其實很清楚。\u003Ca href=\"\u002Fnews\u002Fopenai-april-2026-codex-updates-zh\">Open\u003C\u002Fa>AI 的 GPT 系列強在整體生態，Anthropic 的 \u003Ca href=\"\u002Fnews\u002Fzocks-mcp-chatgpt-claude-fintech-advisors-zh\">Clau\u003C\u002Fa>de 強在長文理解和文字穩定，Google 的 Gemini 則很會吃大上下文和多模態。Grok 4.20 則在多代理、X 整合、以及價格上打自己的牌。\u003C\u002Fp>\u003Cp>這也代表它不是萬用答案。你如果重視企業治理和成熟工具鏈，Claude 和 GPT 還是很強。你如果想試長上下文和 agent workflow，Grok 4.20 就值得拿來比。\u003C\u002Fp>\u003Cp>更直接一點說，它的吸引力不在「最會聊天」。它的吸引力在「能不能把一堆亂資料整理完，還順手幫你呼叫工具」。這才是很多團隊真正要的。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Ca href=\"https:\u002F\u002Fopenai.com\" target=\"_blank\" rel=\"noopener\">OpenAI\u003C\u002Fa>：生態完整，工具多\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\" target=\"_blank\" rel=\"noopener\">Anthropic\u003C\u002Fa>：長文與文字品質穩\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fdeepmind.google\u002Ftechnologies\u002Fgemini\u002F\" target=\"_blank\" rel=\"noopener\">Google Gemini\u003C\u002Fa>：大上下文與多模態強\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fdocs.x.ai\" target=\"_blank\" rel=\"noopener\">xAI docs\u003C\u002Fa>：Grok 4.20 的 API 與 release notes\u003C\u002Fli>\u003C\u002Ful>\u003Cp>如果你在做產品選型，建議直接比三件事。第一，長文件任務準不準。第二，工具呼叫穩不穩。第三，成本會不會炸。這三項比單看 benchmark 更有用。\u003C\u002Fp>\u003Ch2>為什麼這波更新值得看\u003C\u002Fh2>\u003Cp>Grok 4.20 反映的是一個很現實的方向。大家已經不太只問模型會不會寫詩。大家更在意它能不能接 API，能不能記住長內容，能不能在一個工作流裡真的幫忙做事。\u003C\u002Fp>\u003Cp>xAI 這次把價格、上下文和多代理一起端出來，就是在告訴市場，它想搶的是實作場景，不只是聊天熱度。這點我覺得很實際。因為最後會留下來的，通常不是最會講的模型，而是最能穩定做事的模型。\u003C\u002Fp>\u003Cp>如果你是工程師，現在最該做的不是看宣傳圖。你應該拿自己的資料去測。放一個 10 萬 token 的專案文件，丟一個有工具呼叫的任務，再比對你現在用的模型。結果會很誠實。\u003C\u002Fp>\u003Ch2>接下來怎麼看 Grok 4.20\u003C\u002Fh2>\u003Cp>我會先看兩個月。第一個觀察點，是 xAI 能不能把版本更新節奏穩住。第二個觀察點，是 Grok 4.20 在真實工作流裡會不會亂掉。只要這兩件事做得好，它就不只是話題模型。\u003C\u002Fp>\u003Cp>如果你現在在選 LLM，建議先做小規模測試。找 3 種任務。長文件摘要、程式碼問答、工具呼叫。各跑 20 筆。你很快就知道它適不適合你。別只看 headline 數字，真的會踩雷。\u003C\u002Fp>\u003Cp>說白了，Grok 4.20 的價值不在聲量。它的價值在於，它把「長上下文 + 多代理 + 低價 API」放在同一張桌上。這組合如果跑順，很多團隊會開始重新算帳。\u003C\u002Fp>","xAI 的 Grok 4.20 主打 200 萬 token 長上下文、多代理推理與 API 價格。這篇拆解它的定位、規格、競品差異與開發者該注意的坑。","grokipedia.com","https:\u002F\u002Fgrokipedia.com\u002Fpage\u002FGrok_420",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775175176314-zyny.png",[13,14,15,16,17,18,19,20],"Grok 4.20","xAI","LLM","多代理推理","200萬token","API價格","長上下文","人工智慧","zh",0,false,"2026-04-03T00:12:37.401835+00:00","2026-04-03T00:12:37.033+00:00","done","df9672df-9f9a-4710-abf2-3b2a64ef4402","grok-420-xai-flagship-model-explained-zh","model-release","c0e85793-59d6-47ba-9c97-f856a4544baf","published","2026-04-07T07:41:14.147+00:00",[34,35,37,39,40,41,43,45],{"name":20,"slug":20},{"name":14,"slug":36},"xai",{"name":15,"slug":38},"llm",{"name":19,"slug":19},{"name":17,"slug":17},{"name":13,"slug":42},"grok-420",{"name":18,"slug":44},"api價格",{"name":16,"slug":16},{"id":30,"slug":47,"title":48,"language":49},"grok-420-xai-flagship-model-explained-en","Grok 4.20: xAI's new flagship model explained","en",[51,57,63,69,75,81],{"id":52,"slug":53,"title":54,"cover_image":55,"image_url":55,"created_at":56,"category":29},"bd8cfc0e-66db-4546-9b9e-fa328f7538d6","weishenme-google-yincang-de-gemini-live-moxing-bi-yanshi-gen-zh","為什麼 Google 隱藏的 Gemini Live 模型，比演示更重要","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778869245574-c25w.png","2026-05-15T18:20:23.111559+00:00",{"id":58,"slug":59,"title":60,"cover_image":61,"image_url":61,"created_at":62,"category":29},"5b5fa24f-5259-4e9e-8270-b08b6805f281","minimax-m1-open-hybrid-attention-reasoning-model-zh","MiniMax-M1：開源 1M Token 推理模型","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778797859209-ea1g.png","2026-05-14T22:30:38.636592+00:00",{"id":64,"slug":65,"title":66,"cover_image":67,"image_url":67,"created_at":68,"category":29},"b1da56ac-8019-4c6b-a8dc-22e6e22b1cb5","gemini-omni-video-review-text-rendering-zh","Gemini Omni 影片模型怎麼了","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778779280109-lrrk.png","2026-05-14T17:20:42.608312+00:00",{"id":70,"slug":71,"title":72,"cover_image":73,"image_url":73,"created_at":74,"category":29},"d63e9d93-e613-4bbf-8135-9599fde11d08","why-xiaomi-mimo-v25-pro-changes-coding-agents-zh","為什麼 Xiaomi 的 MiMo-V2.5-Pro 改變的是 Coding …","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778689858139-v38e.png","2026-05-13T16:30:27.893951+00:00",{"id":76,"slug":77,"title":78,"cover_image":79,"image_url":79,"created_at":80,"category":29},"8f0c9185-52f9-46f2-82c6-5baec126ba2e","openai-realtime-audio-models-live-voice-zh","OpenAI 即時音訊模型瞄準語音互動","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778451657895-2iu7.png","2026-05-10T22:20:32.443798+00:00",{"id":82,"slug":83,"title":84,"cover_image":85,"image_url":85,"created_at":86,"category":29},"52106dc2-4eba-4ca0-8318-fa646064de97","anthropic-10-finance-ai-agents-zh","Anthropic推10款金融AI Agent","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778389843399-vclb.png","2026-05-10T05:10:22.778762+00:00",[88,93,98,103,108,113,118,123,128,133],{"id":89,"slug":90,"title":91,"created_at":92},"58b64033-7eb6-49b9-9aab-01cf8ae1b2f2","nvidia-rubin-six-chips-one-ai-supercomputer-zh","NVIDIA Rubin 把六顆晶片塞進 AI 機櫃","2026-03-26T07:18:45.861277+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"0dcc2c61-c2a6-480d-adb8-dd225fc68914","march-2026-ai-model-news-what-mattered-zh","2026 年 3 月 AI 模型新聞重點","2026-03-26T07:32:08.386348+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"214ab08b-5ce5-4b5c-8b72-47619d8675dd","why-small-models-are-winning-on-device-ai-zh","小模型為何吃下裝置端 AI","2026-03-26T07:36:30.488966+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"785624b2-0355-4b82-adc3-de5e45eecd88","midjourney-v8-faster-images-higher-costs-zh","Midjourney V8 變快了，也變貴了","2026-03-26T07:52:03.562971+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"cda76b92-d209-4134-86c1-a60f5bc7b128","xiaomi-mimo-trio-agents-robots-voice-zh","小米 MiMo 三模型瞄準代理、機器人與語音","2026-03-28T03:05:08.779489+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"9e1044b4-946d-47fe-9e2a-c2ee032e1164","xiaomi-mimo-v2-pro-1t-moe-agents-zh","小米 MiMo-V2-Pro 登場：1T MoE 模型","2026-03-28T03:06:19.002353+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"d68e59a2-55eb-4a8f-95d6-edc8fcbff581","cursor-composer-2-started-from-kimi-zh","Cursor Composer 2 其實從 Kimi 起步","2026-03-28T03:11:58.893796+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"c4b6186f-bd84-4598-997e-c6e31d543c0d","cursor-composer-2-agentic-coding-model-zh","Cursor Composer 2 走向代理式寫碼","2026-03-28T03:13:06.422716+00:00",{"id":129,"slug":130,"title":131,"created_at":132},"45812c46-99fc-4b1f-aae1-56f64f5c9024","openai-shuts-down-sora-video-app-api-zh","OpenAI 關閉 Sora App 與 API","2026-03-29T04:47:48.974108+00:00",{"id":134,"slug":135,"title":136,"created_at":137},"e112e76f-ec3b-408f-810e-e93ae21a888a","apple-siri-gemini-distilled-models-zh","Apple Siri 牽手 Gemini 的真相","2026-03-29T04:52:57.886544+00:00"]