[AGENT] 11 分鐘閱讀OraCore 編輯部

5 個 Grok 更新把聊天變工具

拆解 xAI 5 個 5 月更新,順手給你一份可直接貼上的 Grok 工作流模板。

分享 LinkedIn
5 個 Grok 更新把聊天變工具

我拆解 xAI 5 個 5 月更新,順手給你一份可直接貼上的 Grok 工作流模板。

我用 Grok 有一陣子了,但老實說,它一直像一個很會回話的分頁,關掉又有點可惜,留著又不太能幹活。回答快、嘴也算利,但一碰到真正工作就露餡:它不記得我怎麼做事,不懂我想要的輸出格式,也很少真的幫我把事情往前推。我想要的是一個能接住我工作流的東西,不是另一個只會講道理的聊天框。

結果 xAI 在 5 月連發幾個更新,方向突然對了。不是因為每個功能都神到不行,而是它開始把 Grok 從「會聊天」往「能插進工作」推。這篇我用 Basenor 的整理當起點,再對照 xAI 官方 Grok 頁面xAI 文件 和相關產品頁,拆給你看它到底在改什麼。

Grok 4.3 不是更會聊,是更能扛資料

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

"Launched on May 4, Grok 4.3 is xAI's current cost-efficient flagship. It ships with built-in reasoning, a 1-million-token context window, and native video input."

翻譯一下就是:xAI 終於把 Grok 往「能處理真實工作集」的方向推了。1 million token 不是拿來發 PR 用的漂亮數字,它代表你可以把更完整的專案背景、規格、討論串、甚至長篇文件一次丟進去,不用每次都像在整理行李,刪東西刪到心累。

5 個 Grok 更新把聊天變工具

我之前最煩的就是這種事。拿一個 bug thread、兩份設計稿、再加一段 repo 摘要給模型,結果它每次都像只看了前兩頁就開始亂補。不是模型笨,是上下文不夠,整個對話像在霧裡開車。上下文窗大一點,不會自動變聰明,但至少少掉很多低級摩擦。

實操上,我會把 Grok 4.3 用在這幾種場景:

  • 一次塞完整 spec,請它找矛盾和缺漏
  • 把 PR 描述、issue、設計備註放同一串,請它做 review
  • 長專案研究時,讓它先抓脈絡再下結論

我現在看這類模型,不先問「它聰不聰明」,我先問「它能不能扛住我的 working set」。能扛住,才有資格進工作流。

Skills 這個設計,才像真的在用人類工作方式

"Skills were officially introduced on May 18. The feature adds persistent custom expertise that carries across conversations."

這句我看了很有感。因為大多數 AI 工作流死掉,不是死在回答品質,而是死在每次都要重講一次規則。我要它幫我寫 release note,就得再講一次格式;我要它整理會議紀錄,就得再講一次順序;我要它先列風險,再講建議,也得再講一次。講到最後,我根本不是在用 AI,我是在幫 AI 做 onboarding。

Persistent Skills 的價值就在這裡:把重複的工作習慣存起來。不是存一段「請你很有幫助」這種廢話,而是存流程。像是固定先問缺什麼資訊、固定先列風險、固定用某種輸出格式。這種東西才真的省時間。

我以前試過把 prompt 存在筆記軟體裡,結果就是一堆模板散落各處,找起來像在翻垃圾桶。Skill 式的做法比較像把規則放回工具本身,少掉那個每次都要手動搬運的破流程。

如果你要自己做,別從「helpful assistant」開始,太空了。直接做成任務型規則:

  • 會議摘要固定輸出決策、阻塞點、下一步
  • PR review 固定輸出風險、邊界條件、建議修改
  • 規格整理固定輸出目標、假設、未解問題

我想要的是一個記得團隊規矩的助理,不是一個每週一早上都像新來的同事。

Grok Build 0.1 在講一件事:聊天和寫程式本來就不是同一種工作

"Released in early access on May 14, Grok Build 0.1 is a purpose-built coding model trained specifically for agentic workflows."

這句很直接,也很誠實。xAI 等於承認:一般聊天模型和真正做 coding / agent workflow 的模型,本來就不是同一種東西。前者擅長回答,後者要能接工具、跑多步驟、處理中途失敗,還要記得自己現在做到哪一步。這差很多。

5 個 Grok 更新把聊天變工具

這類模型如果真的要進工作流,我會先看三件事:它能不能理解多步任務、能不能維持狀態、能不能在失敗後繼續往下走。因為很多模型的問題不是不會寫,而是寫到一半就飄了。它會回答得很像樣,但不會完成。對開發者來說,這種半成品很煩,真的很煩。

Basenor 提到 Grok Build 0.1 有 256,000 token context,支援 text 和 image input,輸出 text,API 價格是 input 每百萬 token $1、output 每百萬 token $2。這些資訊不代表品質保證,但至少讓我知道它被設計來放在哪裡:不是單純聊天,而是放進 agent loop、放進編輯器、放進自動化流程。

我會這樣用它:

  • 先叫它列出要檢查的檔案
  • 再叫它提出修改步驟
  • 最後要求它把風險和人工 review 點列清楚

如果它能穩穩做完這三步,那才叫有用。不能完成任務的模型,再會講也只是會講而已。

訂閱制接入,重點不是便宜,是少一個阻力

"As of May 21, SuperGrok and X Premium subscribers can access Grok Build through OpenCode, a developer-focused coding environment, using their existing subscriptions."

這種更新乍看很小,但我覺得它很實際。xAI 不只是在賣模型,還在把訂閱層變成分發入口。意思很簡單:如果你本來就有 SuperGrok 或 X Premium,你就少了一道申請、綁定、切帳號、再測試的麻煩。少一個摩擦,使用率就會上來。

對開發者來說,這種設計比廣告詞有用多了。因為我們不是缺 AI,我們是缺一個不會一直打斷工作的接法。模型如果不能順手進到你現有工具裡,它再強也常常只是「等我有空再說」。而「等我有空」基本上就是產品死亡宣告。

Basenor 提到這個入口是 OpenCode。我很買單這種方向,因為開發者要的不是多一個聊天頁面,而是它能不能待在 editor、terminal、agent framework 裡,別逼我一直跳來跳去。

我自己會用三個標準看這種接入:

  • 登入步驟有沒有被壓到最少
  • 模型能不能直接進工作環境
  • 我會不會因為切頁而中斷思路

如果答案都偏正面,那這個功能才算有在幫忙,不然只是換個地方排隊。

OpenClaw 的價值,不是名字,是它把 Grok 塞進 agent 生態

"On May 19, xAI integrated Grok with OpenClaw, an open-source AI agent platform."

我對這種 open-source agent 平台的整合很有感,因為真正的實驗通常都發生在這裡,不是在官網 demo。OpenClaw 這種東西的意思是,Grok 不只是在官方頁面裡被展示,而是被丟進一個大家真的會拿來拼 agent 的環境裡。這才是測試模型耐不耐操的地方。

Agent framework 最煩的地方,我想每個開發者都懂:模型設定、授權、工具鏈、狀態同步,任何一個地方出包,整條流程就卡死。能不能在這種環境裡順利接上,通常比「它會不會講笑話」重要太多。

這裡最值得看的不是品牌,而是整合形狀:

  • 能不能用最少步驟完成 auth
  • 能不能同時處理 chat 和 generation
  • 能不能維持在 agent loop 裡,不一直跳出去

如果你自己在做 agent 系統,我會建議你把這種整合當成參考樣板。不是抄功能,而是抄接法。少一層摩擦,整個系統就比較不會像拼裝車。

真正的重點是:Grok 被拆成不同工作角色了

"What's notable is the strategic coherence: Grok 4.3 handles the general-purpose and enterprise use case, Grok Build 0.1 targets the developer/agentic layer, Skills adds stickiness for everyday users, and the OpenClaw and OpenCode integrations push Grok into ecosystems where developers already live."

這段我覺得講得很準。xAI 不是在亂丟功能,它是在把 Grok 拆成幾個職務:一個負責長上下文和通用工作,一個負責 coding 和 agent,一個負責讓日常使用有記憶,另外幾個接入負責把它塞進開發者真的會待的地方。

這種拆法我認為是對的,因為一個模型硬要同時做所有事,最後通常只會做得很平均,平均到沒人記得它。工具本來就該分工:聊天不是 coding,記憶不是推理,接入不是模型本體。把這些混在一起,只會讓產品定位越來越糊。

所以我現在看 Grok,不是看它有幾個新名詞,而是看它能不能對應到具體工作:

  • 長文件研究與摘要,用 Grok 4.3
  • 團隊固定流程,用 Skills
  • 多步驟 coding 與自動化,用 Grok Build 0.1
  • 要進工作環境,就用 OpenCode 或 OpenClaw 這類整合

這樣看,產品就不再是一堆散裝功能,而是一組可以安排進工作流的零件。這才像工具,不像宣傳頁。

可抄的模板

# Grok 工作流模板:把聊天變成可重複使用的工具

## 1. 先選工作,不要先選模型
今天只讓 Grok 做一種事:
- 長上下文研究
- 固定格式摘要
- coding / agent 任務
- 連接工具後的執行

## 2. 一次給足工作集
把以下內容放同一串:
- 目標
- 現況
- 限制
- 相關文件 / 程式碼 / 討論串
- 什麼叫完成

## 3. 做一個可重複的「技能」規則
如果你的環境支援 persistent instruction,就存這段:

你是我的開發工作助理。
每次都先做這 5 件事:
1. 用一句話重述任務。
2. 先列出缺少的資訊。
3. 優先給可執行步驟,不要空話。
4. coding 任務要列出要看哪些檔案、要改哪些檔案、有哪些風險。
5. 摘要任務要固定輸出:決策、阻塞點、下一步。

## 4. Coding 任務固定 prompt
Task: {{task}}
Context: {{context}}
Repo/files: {{files}}
Constraints: {{constraints}}
Output format:
- short diagnosis
- proposed approach
- step-by-step actions
- risks
- what I should review manually

## 5. 長文件 / 大上下文 prompt
你已經有完整上下文。
在開始總結前,先找出:
- 主要目標
- 目前狀態
- 最高風險假設
- 接下來 3 個動作

然後輸出:
1. executive summary
2. detailed findings
3. action list
4. unresolved questions

## 6. 會議紀錄 / 文件整理 prompt
Task: 把下面筆記整理成可交付文件。
Notes: {{notes}}
Audience: {{audience}}
Tone: direct, concise, practical
Must include:
- summary
- key points
- open questions
- recommended next steps

## 7. 每次都檢查這四件事
- 有沒有照格式輸出
- 有沒有亂補不存在的細節
- 有沒有漏掉限制條件
- 下一步是不是能真的做

## 8. 一條死規則
如果 Grok 不能穩定待在你的工作流裡,就不要拿它當 workflow tool。
讓它做它真的擅長的事,不要硬拗成萬用神物。

我用 Basenor 的整理當入口,再對照 xAI 官方頁面和文件做了這篇拆解。前半段是我自己的判讀,後半段模板是我整理後能直接貼進工作裡的版本。原始來源:https://www.basenor.com/blogs/news/5-xai-grok-updates-you-may-have-missed-this-may;官方參考:https://x.ai/grokhttps://docs.x.ai/https://www.opencode.ai/