[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-agent-harness-ai-engineering-2026-zh":3,"tags-agent-harness-ai-engineering-2026-zh":33,"related-lang-agent-harness-ai-engineering-2026-zh":51,"related-posts-agent-harness-ai-engineering-2026-zh":55,"series-industry-bc3cc36d-ee23-4731-8583-3517df995e09":92},{"id":4,"title":5,"content":6,"summary":7,"source":8,"source_url":9,"author":10,"image_url":11,"keywords":12,"language":21,"translated_content":10,"views":22,"is_premium":23,"created_at":24,"updated_at":24,"cover_image":11,"published_at":25,"rewrite_status":26,"rewrite_error":10,"rewritten_from_id":27,"slug":28,"category":29,"related_article_id":30,"status":31,"google_indexed_at":32,"x_posted_at":10,"tweet_text":10,"title_rewritten_at":10,"title_original":10,"key_takeaways":10,"topic_cluster_id":10,"embedding":10,"is_canonical_seed":23},"bc3cc36d-ee23-4731-8583-3517df995e09","Agent Harness 正在定義 AI 工程","\u003Cp>2026 年 2 月，Martin Fowler 給了一個名字：\u003Ca href=\"https:\u002F\u002Fmartinfowler.com\u002F\" target=\"_blank\" rel=\"noopener\">Harness Engineering\u003C\u002Fa>。這不是新玩具。這是很多團隊早就在做的事，只是現在終於有共同語言。\u003C\u002Fp>\u003Cp>同一時間，\u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002F\" target=\"_blank\" rel=\"noopener\">Anthropic\u003C\u002Fa> 公布 long-running agent 的 harness 指南。\u003Ca href=\"https:\u002F\u002Fopenai.com\u002F\" target=\"_blank\" rel=\"noopener\">OpenAI\u003C\u002Fa> 也提到，Codex 團隊已經產出超過 100 萬行 production code，而且沒有人工逐行輸入。講白了，模型很重要，但外層系統更決定結果能不能落地。\u003C\u002Fp>\u003Cp>如果你在做 agent，這件事很值得盯。像 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fanthropics\u002Fclaude-code\" target=\"_blank\" rel=\"noopener\">Claude Code\u003C\u002Fa> 這種工作流，或你自己做的 agent stack，都可能讓同一個模型表現差很多。包得好，像樣。包得爛，像昂貴的重試機器。\u003C\u002Fp>\u003Ch2>Agent harness 到底是什麼\u003C\u002Fh2>\u003Cp>\u003Ca href=\"\u002Fnews\u002Fagent-infra-rewrites-ai-infrastructure-zh\">Agen\u003C\u002Fa>t harness，就是包在 LLM 外面的控制層。它決定 agent 看得到什麼、能做什麼、什麼時候停、出錯後怎麼回來。你可以把模型當成推理引擎，把 harness 當成外面的操作系統。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775057899717-8ljm.png\" alt=\"Agent Harness 正在定義 AI 工程\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這個分工很重要。因為原始輸出通常不能直接上 production。模型可以寫 code、摘要文件、規劃任務，但真正能跑的流程，需要一層層控制。沒有這層，agent 很容易飄掉。\u003C\u002Fp>\u003Cp>實作上，harness 通常會包這些東西：\u003C\u002Fp>\u003Cul>\u003Cli>工具呼叫，像檔案、搜尋、API、執行環境\u003C\u002Fli>\u003Cli>狀態管理，讓 agent 記得任務進度\u003C\u002Fli>\u003Cli>驗證點，先檢查再往下走\u003C\u002Fli>\u003Cli>重試邏輯，處理 timeout 和工具失敗\u003C\u002Fli>\u003Cli>權限控制，避免亂動 production 資料\u003C\u002Fli>\u003Cli>log 和 trace，方便事後追查\u003C\u002Fli>\u003C\u002Ful>\u003Cp>很多 demo 很會演。你看到的是 agent 一路順順跑。你沒看到的是工具壞掉、上下文遺失、還有它差點把錯誤操作送進正式環境。真正難的地方，通常都藏在 harness 裡。\u003C\u002Fp>\u003Cp>Martin Fowler 會提這個詞，不是沒原因。他長期在講軟體系統怎麼在真實世界壞掉。這種人一出手，通常代表產業已經從玩票，走到工程化。\u003C\u002Fp>\u003Ch2>為什麼模型只算一半\u003C\u002Fh2>\u003Cp>現在很多人還在用「模型更強，所以產品更好」這種線性思維。說真的，這只對一半。模型分數變高，不代表長任務就會穩。只要工具鏈不行，整個 agent 一樣會翻車。\u003C\u002Fp>\u003Cp>Anthropic 對 long-running agents 的討論，把這點講得很清楚。任務一拉長，漂移、忘記、誤操作的機會就會增加。harness 的工作，就是把 agent 拉回來，讓它不要一直偏題。\u003C\u002Fp>\u003Cp>Open\u003Ca href=\"\u002Fnews\u002Ffeishu-open-source-cli-ai-agent-office-zh\">AI\u003C\u002Fa> 提到 Codex 團隊產出超過 100 萬行 production code，這個數字很有意思。這不是玩具 demo。這代表一套周邊流程，已經能吞下大量真實工程工作。重點不是模型自己多神，而是整個執行層夠不夠穩。\u003C\u002Fp>\u003Cblockquote>“The most important thing is to be able to understand what the model is doing.” — Dario Amodei\u003C\u002Fblockquote>\u003Cp>這句話很直白。你如果看不懂 agent 在做什麼，就談不上工程。那只是把一個機率黑盒，包成很會聊天的介面。\u003C\u002Fp>\u003Cp>現在做得認真的團隊，都在往同一個方向走。可觀測性、工具紀律、失敗回復，這些才是可靠性的核心。不是祈禱模型今天心情好一點。\u003C\u002Fp>\u003Ch2>好的 harness 現在長什麼樣\u003C\u002Fh2>\u003Cp>目前還沒有單一標準答案。可是真的看幾個做得好的系統，結構都很像。它們不是靠一句 prompt，而是靠一堆小控制點，把 agent 限制在可預期範圍內。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775057917120-wf0q.png\" alt=\"Agent Harness 正在定義 AI 工程\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>你可以把常見層級分成這樣：\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>基本 chat wrapper：\u003C\u002Fstrong> 一個 prompt 接一個回應，狀態很少，變動很大\u003C\u002Fli>\u003Cli>\u003Cstrong>Task agent：\u003C\u002Fstrong> 有工具、短期記憶、基本重試，適合範圍明確的工作\u003C\u002Fli>\u003Cli>\u003Cstrong>Production harness：\u003C\u002Fstrong> 有驗證、audit log、policy check、sandbox、rollback\u003C\u002Fli>\u003Cli>\u003Cstrong>Long-running agent system：\u003C\u002Fstrong> 有持久狀態、評估迴圈、人工審核、失敗復原\u003C\u002Fli>\u003C\u002Ful>\u003Cp>從第一層跳到第四層，差很多。chat wrapper 一個下午就能做。production harness 不是。因為每一次 tool call，都可能新增一種失敗模式。\u003C\u002Fp>\u003Cp>這也是為什麼現在團隊開始看營運指標，而不是只看模型指標。像 task completion rate、tool error rate、time to recovery、unsafe action blocked 次數，這些都比單純 bench\u003Ca href=\"\u002Fnews\u002Famazon-ads-mcp-server-open-beta-zh\">ma\u003C\u002Fa>rk 更接近真實世界。\u003C\u002Fp>\u003Cp>如果 agent 會碰 codebase、客服系統、或客戶資料，這些數字比模型分數更有用。分數高，不代表能少出事。出事少，才是真的。\u003C\u002Fp>\u003Cp>我覺得這裡還有一個文化轉變。早期 AI 產品是「模型本身就是產品」。現在更像是「工作流才是產品」。agent 能做什麼、不能做什麼、出錯怎麼救，這些才是核心。\u003C\u002Fp>\u003Ch2>競品怎麼比，差距在哪\u003C\u002Fh2>\u003Cp>如果只看表面，大家都在做 agent。可是底下的 harness 差很多。有人只做一層 prompt，有人把 sandbox、verifier、policy、trace 全包進去。這差距會直接反映在穩定性上。\u003C\u002Fp>\u003Cp>先看最簡單的比較：\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>單純聊天介面：\u003C\u002Fstrong> 成本最低，但狀態弱，容易失控\u003C\u002Fli>\u003Cli>\u003Cstrong>內建工具的 IDE agent：\u003C\u002Fstrong> 適合 coding，能做檔案操作和測試\u003C\u002Fli>\u003Cli>\u003Cstrong>企業級 agent 平台：\u003C\u002Fstrong> 強調權限、稽核、資料隔離、流程控管\u003C\u002Fli>\u003Cli>\u003Cstrong>自建 harness：\u003C\u002Fstrong> 彈性最高，但工程成本也最高\u003C\u002Fli>\u003C\u002Ful>\u003Cp>\u003Ca href=\"https:\u002F\u002Fwww.cursor.com\u002F\" target=\"_blank\" rel=\"noopener\">Cursor\u003C\u002Fa> 這類產品，讓很多開發者第一次感受到 agent 工作流的效率。但你一旦進到企業環境，就會碰到權限、稽核、資料界線。這時候，單靠好 prompt 根本不夠。\u003C\u002Fp>\u003Cp>另一個現實是，模型越強，不代表你可以少做控制。反而常常是模型越強，越要管住它。因為它能做的事更多，出錯的代價也更高。\u003C\u002Fp>\u003Cp>如果拿 coding agent 來比，差異通常在這幾點：\u003C\u002Fp>\u003Cul>\u003Cli>是否有測試先行，而不是直接改檔\u003C\u002Fli>\u003Cli>是否能回滾，而不是一改到底\u003C\u002Fli>\u003Cli>是否有權限邊界，而不是全開\u003C\u002Fli>\u003Cli>是否有 trace，而不是只看最後答案\u003C\u002Fli>\u003C\u002Ful>\u003Cp>OpenAI、Anthropic、還有一堆新創，現在其實都在往同一個方向走。差別只在包裝。核心都一樣：把不穩定的模型，放進能管理失誤的系統裡。\u003C\u002Fp>\u003Ch2>這背後其實是軟體工程回歸\u003C\u002Fh2>\u003Cp>這波 agent 熱潮，看起來像 AI 新玩意。其實很像軟體工程老問題回來了。只是以前我們管的是服務、queue、job、worker。現在要管的是會推理的工作者。\u003C\u002Fp>\u003Cp>這件事讓很多 AI 團隊開始補以前沒補好的基本功。像 permissioning、observability、testing、rollback、audit trail。這些名詞聽起來很老派，但它們才是 production 的底線。\u003C\u002Fp>\u003Cp>台灣很多團隊很愛先問模型選哪個。這題不是不能問，但順序常常錯了。你應該先問，這個任務能不能切成可驗證步驟。再問，哪一段要人工審核。最後才是模型選型。\u003C\u002Fp>\u003Cp>如果你把 agent 當成一個會犯錯的 junior engineer，很多設計就合理了。你不會讓新人直接改 production database。你也不該讓 agent 這樣做。這不是保守。這是正常。\u003C\u002Fp>\u003Cp>我覺得 2026 年開始，真正成熟的 AI 團隊會長得很像傳統平台團隊。只是他們多了一層 model orchestration。表面在做 AI，骨子裡還是在做工程紀律。\u003C\u002Fp>\u003Ch2>接下來該怎麼看\u003C\u002Fh2>\u003Cp>如果你現在在做 agent，我的建議很直接：先做 harness，再談聰明。先把工具邊界、驗證流程、失敗回復、權限控管弄好，再去追更大的模型。順序錯了，後面會很痛。\u003C\u002Fp>\u003Cp>我也押一個判斷。接下來 12 個月，harness 會變成架構審查裡的固定項目，像 auth、logging、testing 一樣。不是因為它潮，而是因為沒有它，agent 很難進正式環境。\u003C\u002Fp>\u003Cp>所以問題不是「哪個模型最強」。問題是「你的 harness 能不能讓它穩定做完 100 次任務」。如果答案還不行，那就先補系統。別急著怪模型。\u003C\u002Fp>","Martin Fowler、Anthropic、OpenAI 都指向同一件事：LLM 能不能上線，不只看模型，還看外層的 harness。","zhuanlan.zhihu.com","https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F2022027288405976801",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775057899717-8ljm.png",[13,14,15,16,17,18,19,20],"agent harness","AI engineering","LLM agent","Anthropic","OpenAI","Martin Fowler","Claude Code","harness engineering","zh",1,false,"2026-04-01T10:15:34.775599+00:00","2026-04-01T10:15:34.713+00:00","done","0f1c5784-ada0-4ee1-8293-a836bf5bfa26","agent-harness-ai-engineering-2026-zh","industry","a9b22aa6-768c-44b1-967a-1b4ea3c28ce9","published","2026-04-09T09:00:53.991+00:00",[34,36,38,40,43,45,47,49],{"name":14,"slug":35},"ai-engineering",{"name":15,"slug":37},"llm-agent",{"name":17,"slug":39},"openai",{"name":41,"slug":42},"Harness Engineering","harness-engineering",{"name":19,"slug":44},"claude-code",{"name":13,"slug":46},"agent-harness",{"name":16,"slug":48},"anthropic",{"name":18,"slug":50},"martin-fowler",{"id":30,"slug":52,"title":53,"language":54},"agent-harness-ai-engineering-2026-en","Agent Harness Is Quietly Defining AI Engineering","en",[56,62,68,74,80,86],{"id":57,"slug":58,"title":59,"cover_image":60,"image_url":60,"created_at":61,"category":29},"e6379f8a-3305-4862-bd15-1192d3247841","why-nebius-ai-pivot-is-more-real-than-hype-zh","為什麼 Nebius 的 AI 轉型比炒作更真實","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778823044520-9mfz.png","2026-05-15T05:30:24.978992+00:00",{"id":63,"slug":64,"title":65,"cover_image":66,"image_url":66,"created_at":67,"category":29},"66c4e357-d84d-43ef-a2e7-120c4609e98e","nvidia-backs-corning-factories-with-billions-zh","Nvidia 出資 Corning 工廠擴產","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778822450270-trdb.png","2026-05-15T05:20:27.701475+00:00",{"id":69,"slug":70,"title":71,"cover_image":72,"image_url":72,"created_at":73,"category":29},"31d8109c-8b0b-46e2-86bc-d274a03269d1","why-anthropic-gates-foundation-ai-public-goods-zh","為什麼 Anthropic 和 Gates Foundation 應該投資 A…","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778796636474-u508.png","2026-05-14T22:10:21.138177+00:00",{"id":75,"slug":76,"title":77,"cover_image":78,"image_url":78,"created_at":79,"category":29},"17cafb6e-9f2c-43c4-9ba3-ef211d2780b1","why-observability-is-critical-cloud-native-systems-zh","為什麼可觀測性是雲原生系統的生存條件","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778794245143-tfqn.png","2026-05-14T21:30:25.97324+00:00",{"id":81,"slug":82,"title":83,"cover_image":84,"image_url":84,"created_at":85,"category":29},"2fb441af-d3c6-4af8-a356-a40b25a67c00","data-centers-pushing-homeowners-to-solar-zh","資料中心推升房主裝太陽能","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778793651300-gi06.png","2026-05-14T21:20:40.899115+00:00",{"id":87,"slug":88,"title":89,"cover_image":90,"image_url":90,"created_at":91,"category":29},"387bddd8-e5fc-4aa9-8d1b-43a34b0ece43","how-to-choose-gpu-for-yihuan-zh","怎麼選《异环》GPU","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778786461303-39mx.png","2026-05-14T19:20:29.220124+00:00",[93,98,103,108,113,118,123,128,133,138],{"id":94,"slug":95,"title":96,"created_at":97},"ee073da7-28b3-4752-a319-5a501459fb87","ai-in-2026-what-actually-matters-now-zh","2026 AI 真正重要的事","2026-03-26T07:09:12.008134+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"83bd1795-8548-44c9-9a7e-de50a0923f71","trump-ai-framework-power-speech-state-preemption-zh","川普 AI 框架瞄準電力、言論與州權","2026-03-26T07:12:18.695466+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"ea6be18b-c903-4e54-97b7-5f7447a612e0","nvidia-gtc-2026-big-ai-announcements-zh","NVIDIA GTC 2026 重點拆解","2026-03-26T07:14:26.62638+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"4bcec76f-4c36-4daa-909f-54cd702f7c93","claude-users-spreading-out-and-getting-better-zh","Claude 用戶更分散，也更會用","2026-03-26T07:22:52.325888+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"bd903b15-2473-4178-9789-b7557816e535","openclaw-raises-hard-question-for-ai-models-zh","OpenClaw 逼問 AI 模型價值","2026-03-26T07:24:54.707486+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"eeac6b9e-ad9d-4831-8eec-8bba3f9bca6a","gap-google-gemini-checkout-fashion-search-zh","Gap 把結帳搬進 Gemini","2026-03-26T07:28:23.937768+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"0740e53f-605d-4d57-8601-c10beb126f3c","google-pushes-gemini-transition-to-march-2026-zh","Google 把 Gemini 轉換延到 2026 年 3…","2026-03-26T07:30:12.825269+00:00",{"id":129,"slug":130,"title":131,"created_at":132},"e660d801-2421-4529-8fa9-86b82b066990","metas-llama-4-benchmark-scandal-gets-worse-zh","Meta Llama 4 分數風波又擴大","2026-03-26T07:34:21.156421+00:00",{"id":134,"slug":135,"title":136,"created_at":137},"183f9e7c-e143-40bb-a6d5-67ba84a3a8bc","accenture-mistral-ai-sovereign-enterprise-deal-zh","Accenture 攜手 Mistral AI 賣主權 AI","2026-03-26T07:38:14.818906+00:00",{"id":139,"slug":140,"title":141,"created_at":142},"191d9b1b-768a-478c-978c-dd7431a38149","mistral-ai-faces-its-hardest-year-yet-zh","Mistral AI 迎來最硬的一年","2026-03-26T07:40:23.716374+00:00"]