Claude Code 的 Harness 工程思路
Claude Code 把 MCP、Skills、Hooks 和 Subagents 直接端上檯面,讓人看到 Anthropic 怎麼把 Harness Engineering 做進產品。

Claude Code 很有意思。它不是單純的聊天框。它把怎麼讓模型幹活,直接攤開來給你看。
Anthropic 把 MCP、Skills、Hooks、Subagents 一起放進產品。這等於把 Harness 設計公開了。說白了,它在示範一件事:模型再強,外層執行系統爛掉,結果還是會亂。
我覺得這點很值得看。因為現在很多 AI 工具,還停在「會講」這一層。Claude Code 則把工具接入、上下文管理、權限控制、任務拆分,做成一套能跑的工作流。
Claude Code 為什麼值得單獨看
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
Claude Code 不是把 Claude 塞進終端機而已。它更像一個圍繞模型搭起來的執行系統。模型負責理解和生成,外層 Harness 負責拆任務、接工具、壓風險,再把結果送回去繼續迭代。

這種做法,和很多 IDE 外掛不太一樣。很多工具只是把提示詞丟給模型,再把輸出貼回編輯器。Claude Code 則更像模型驅動的操作外殼。它把上下文、工具、權限、子任務,放在同一條流程裡。
從產品角度看,這種設計很實際。第一,使用者更清楚模型做了什麼。第二,團隊可以把最佳做法固定下來。你不用期待每個人都會寫超強提示詞。
這也是它會被反覆討論的原因。它不只是 AI 編程工具。它更像 Anthropic 在公開展示自己的 Harness Engineering 思路。
- MCP 讓 Claude Code 接外部工具更標準。
- Skills 把常見任務包成可重用能力。
- Hooks 可以插入檢查、確認、審計動作。
- Subagents 能把大任務拆成小角色。
Harness Engineering 到底在解什麼
Anthropic 的重點,一直不是只讓模型會回話。重點是讓它在真實任務裡穩定做事。這也是 Harness Engineering 的核心。模型能力只是起點,外層執行系統才決定能不能進生產環境。
你可以把它想成兩種工作流。第一種是純提示詞流程,輸入問題,拿到答案。第二種是完整 Harness,把工具呼叫、狀態保存、錯誤恢復、權限邊界都放進流程。前者適合 demo,後者才適合長期用。
"The most important thing we can do is make AI systems that are helpful, harmless, and honest." — Dario Amodei
這句話來自 Anthropic CEO Dario Amodei。放在 Claude Code 上看,很貼切。因為 helpful、harmless、honest,不是靠一句系統提示就能搞定。
它需要工具層、任務層、權限層一起配合。講白了就是,模型要做事,但不能亂做事。這就是 Harness Engineering 真正在管的東西。
Claude Code 把這種想法直接產品化。它沒有把複雜性藏起來,而是拆成幾個可以配置的接口。你可以按任務,選擇要不要開啟某些能力。
MCP、Skills、Hooks、Subagents 怎麼分工
把 Claude Code 拆開看,四個機制各有角色。MCP 負責外部連接。Skills 負責能力封裝。Hooks 負責流程控制。Subagents 負責任務分解。它們不是重複,而是分層處理同一件事。

MCP 的價值很明確。它把接什麼工具、讀什麼資料,從應用內部邏輯裡抽出來,變成標準協議。對開發者來說,接 Git、資料庫、內部知識庫、部署系統時,不用每次都重寫一套接口。
Skills 比較像可重用的任務模板。像程式碼審查、文件整理、測試生成、遷移腳本,這些高頻動作都能包成技能包。這樣做的好處,是輸出風格比較穩,團隊也比較好統一標準。
Hooks 則是安全和治理的抓手。像高風險操作前確認,或是在輸出前做靜態檢查,都可以交給 Hook。它讓模型不只是會做,還要照規則做。
Subagents 解的是上下文膨脹。當一個代理同時做規劃、搜尋、編輯、驗證,很容易亂掉。拆成多個子代理後,每個角色只盯一小塊,通常會更穩。
- MCP 解決工具接入標準化。
- Skills 解決任務重用。
- Hooks 解決流程控制和審計。
- Subagents 解決複雜任務拆分。
和其他 AI 編程工具比,差在哪
把 Claude Code 和常見 AI 編程工具放一起看,差異就很明顯。很多工具比較像增強版聊天視窗,重點在生成速度和互動順手。Claude Code 則更像可編排的執行層,重點在任務治理和系統整合。
這種差異會直接反映在實際使用上。第一,它更適合接企業內部工具鏈。第二,它更容易把流程固定住。第三,它更適合做可審計的自動化動作,而不是只做一次性問答。
如果只看表面體驗,你可能會覺得它比較工程化。沒那麼輕巧。可是從長期維護看,工程化反而是優點。模型工具一旦進到團隊協作和生產流程,最怕的就是不可預測。
可以直接這樣比:
- 一般聊天式工具:適合探索和草稿。
- IDE 插件:適合局部補全和改寫。
- Claude Code:適合把模型放進真實工作流。
- 企業代理平台:適合跨系統自動化和權限管理。
還有一個很現實的點。當模型能力越來越接近時,真正拉開差距的,往往是 Harness。誰能更好地組織上下文、接工具、控風險,誰就更容易把模型能力變成可交付結果。
這背後其實是產業方向
Claude Code 透露的訊號,不只關於一個產品。它也在說,AI 工具競爭會越來越像執行系統競爭。不是誰回得更會講,而是誰能穩定做完事情。
這點在企業場景特別重要。你做內部自動化,最怕不是模型不夠聰明,而是流程失控。像誤刪資料、亂發指令、權限越界,這些都不是單靠 prompt 能壓住的。
所以我會把 Claude Code 看成一個樣板。它把工具接入、任務拆分、審計、上下文管理,直接做成產品的一部分。這種思路,比單純追求更長上下文或更大參數,來得更接近實戰。
如果你在做 AI 軟體,接下來該問的問題很直接:你的 Harness 有沒有設計好?你有沒有定義哪些動作要確認?哪些資料能讀?哪些任務要拆?這些問題,比模型分數更接近生產現場。
結尾:我會怎麼看這件事
我自己的判斷很簡單。接下來真正有價值的 AI 編程工具,會越來越像 Claude Code。它們不會只賣模型能力,而是把 Harness 當成產品核心。
如果你現在還在用「一個提示詞解全部」的思路做工具,遲早會碰到穩定性和治理問題。比較實際的做法,是先把工具接入、權限邊界、任務拆分、審計機制做好,再談模型要多強。
你可以先問團隊一個問題:如果模型今天答對 80%,剩下 20% 的錯誤,誰來接?這個答案,往往就是你產品能不能上線的分水嶺。