[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-hermes-agent-agent-harness-framework-zh":3,"tags-hermes-agent-agent-harness-framework-zh":35,"related-lang-hermes-agent-agent-harness-framework-zh":50,"related-posts-hermes-agent-agent-harness-framework-zh":54,"series-ai-agent-2e3a7869-d773-4c82-a8ab-d992934e0e47":91},{"id":4,"title":5,"content":6,"summary":7,"source":8,"source_url":9,"author":10,"image_url":11,"keywords":12,"language":23,"translated_content":10,"views":24,"is_premium":25,"created_at":26,"updated_at":26,"cover_image":11,"published_at":27,"rewrite_status":28,"rewrite_error":10,"rewritten_from_id":29,"slug":30,"category":31,"related_article_id":32,"status":33,"google_indexed_at":34,"x_posted_at":10,"tweet_text":10,"title_rewritten_at":10,"title_original":10,"key_takeaways":10,"topic_cluster_id":10,"embedding":10,"is_canonical_seed":25},"2e3a7869-d773-4c82-a8ab-d992934e0e47","Hermes Agent：代理測試框架怎麼看","\u003Cp>現在做 \u003Ca href=\"\u002Fnews\u002Fai-maps-navigation-mcp-baidu-autonavi-tencent-zh\">AI\u003C\u002Fa> agent，最常見的痛點很土。工具呼叫會炸，重試會卡死，log 還缺一半。講白了，你不是在做 AI，你是在跟流程打架。\u003C\u002Fp>\u003Cp>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002F\" target=\"_blank\" rel=\"noopener\">Hermes Agent\u003C\u002Fa> 想把這些碎片收進一套 \u003Ca href=\"https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F2022015752258027715\" target=\"_blank\" rel=\"noopener\">agent harness\u003C\u002Fa>。它的目標很直接。不是只讓模型會說話，而是讓你能測、能追、能比。\u003C\u002Fp>\u003Cp>這件事很重要。因為 agent 失敗，常常不是失敗在「不會答」。而是失敗在第 3 次工具呼叫、第 2 次重試，或第 9 步狀態跑掉。這種 bug 最煩，也最貴。\u003C\u002Fp>\u003Ch2>Hermes Agent 想解什麼問題\u003C\u002Fh2>\u003Cp>先講白一點。很多 agent 框架都很愛秀 demo。畫面很漂亮，流程很順，結果一進 production 就開始亂跑。你會發現，同一個 prompt，今天成功，明天失手。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775207571413-ex0h.png\" alt=\"Hermes Agent：代理測試框架怎麼看\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002F\" target=\"_blank\" rel=\"noopener\">Hermes Agent\u003C\u002Fa> 的思路比較務實。它把 agent 當成軟體。輸入、輸出、trace、測試案例，都要能管。這種想法很像把 LLM 拉回工程世界，而不是一直泡在簡報裡。\u003C\u002Fp>\u003Cp>對台灣團隊來說，這很有感。很多公司已經把 GPT、\u003Ca href=\"\u002Fnews\u002Fclaude-opus-45-gpt-parameters-estimate-zh\">Clau\u003C\u002Fa>de、LLM 接進客服、內部知識庫、報表流程。問題是，接上去不代表能穩定跑。只要 API 回傳格式變一下，整條流程就可能歪掉。\u003C\u002Fp>\u003Cul>\u003Cli>工具邊界最容易出事。\u003C\u002Fli>\u003Cli>同一任務常有不同結果。\u003C\u002Fli>\u003Cli>trace 不完整，debug 會超痛。\u003C\u002Fli>\u003Cli>評測如果綁任務成功率，才有意義。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>Hermes Agent 的價值，就在這裡。它不是要再做一個更會聊天的模型層。它比較像一個控制台，讓你知道 agent 到底怎麼跑。\u003C\u002Fp>\u003Cp>如果你做的是內部 copilot、code assistant，或資料處理 agent，這種框架就很實際。因為你要看的不是「它有沒有靈感」。你要看的是「它有沒有把事情做完」。\u003C\u002Fp>\u003Ch2>為什麼 harness 比 demo 更重要\u003C\u002Fh2>\u003Cp>很多人第一次碰 agent，都會先玩 \u003Ca href=\"https:\u002F\u002Fplatform.openai.com\u002Fdocs\u002Fguides\u002Ffunction-calling\" target=\"_blank\" rel=\"noopener\">OpenAI function calling\u003C\u002Fa>。也有人直接接 \u003Ca href=\"https:\u002F\u002Fdocs.anthropic.com\u002Fen\u002Fdocs\u002Fagents-and-tools\u002Ftool-use\" target=\"_blank\" rel=\"noopener\">Anthropic tool use\u003C\u002Fa>。再進一步，就會碰到 \u003Ca href=\"https:\u002F\u002Fdocs.langchain.com\u002F\" target=\"_blank\" rel=\"noopener\">LangChain\u003C\u002Fa>。這些工具都能用，但它們解的層次不一樣。\u003C\u002Fp>\u003Cp>問題是，demo 很容易騙人。你在 notebook 跑一次，感覺很順。可是一旦把流程放進正式服務，狀況就變了。工具 timeout、資料格式髒掉、狀態沒保存，這些才是日常。\u003C\u002Fp>\u003Cp>所以 harness 很重要。它像是 agent 的測試台。你可以固定條件，重跑 50 次，看哪一步最常失敗。這比單看一次輸出有用太多。真的，工程師最怕的不是錯，是不知道錯在哪。\u003C\u002Fp>\u003Cblockquote>“What gets measured gets managed.” — Peter Drucker\u003C\u002Fblockquote>\u003Cp>這句話老掉牙，但放在 agent 工程超貼切。你不量 tool success rate，不量 retry 次數，不量 task completion，就只能靠感覺調參。那不是工程，那是賭運氣。\u003C\u002Fp>\u003Cp>Hermes Agent 的方向，就是把這些東西拉進同一個跑道。讓你能觀察、能比較、能回放。這種能力不花俏，但很值錢。\u003C\u002Fp>\u003Ch2>它跟其他框架差在哪\u003C\u002Fh2>\u003Cp>現在 agent 框架很多。每個都說自己能做 workflow、tool use、memory、multi-agent。問題是，大家解的層次真的不同。你不能只看名字，就以為功能都一樣。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775207581542-ldo8.png\" alt=\"Hermes Agent：代理測試框架怎麼看\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fstanfordnlp\u002Fdspy\" target=\"_blank\" rel=\"noopener\">DSPy\u003C\u002Fa> 比較偏 prompt optimization 和結構化 LLM 程式設計。\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Flangchain-ai\u002Flangchain\" target=\"_blank\" rel=\"noopener\">LangChain\u003C\u002Fa> 是大雜燴型工具箱，整合很多。\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FcrewAIInc\u002FcrewAI\" target=\"_blank\" rel=\"noopener\">CrewAI\u003C\u002Fa> 則偏多 agent 協作。\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fopenai\u002Fswarm\" target=\"_blank\" rel=\"noopener\">Swarm\u003C\u002Fa> 是 OpenAI 早期的輕量協作思路。\u003C\u002Fp>\u003Cp>Hermes Agent 比較像在 execution layer 下功夫。也就是說，它關心的是 agent 怎麼跑、怎麼記、怎麼重播。這點很像做伺服器監控。你不只要知道服務有沒有起來，還要知道是哪個 request 掛掉。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Flangchain-ai\u002Flangchain\" target=\"_blank\" rel=\"noopener\">LangChain\u003C\u002Fa>：整合廣，適合快速拼流程。\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fstanfordnlp\u002Fdspy\" target=\"_blank\" rel=\"noopener\">DSPy\u003C\u002Fa>：適合做結構化優化。\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FcrewAIInc\u002FcrewAI\" target=\"_blank\" rel=\"noopener\">CrewAI\u003C\u002Fa>：偏角色分工和多 agent。\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fopenai\u002Fswarm\" target=\"_blank\" rel=\"noopener\">Swarm\u003C\u002Fa>：輕量協作，概念簡單。\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002F\" target=\"_blank\" rel=\"noopener\">Hermes Agent\u003C\u002Fa>：重點放在 harness、trace、評測。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>我覺得這個差異很關鍵。因為很多團隊真正缺的，不是更多抽象層。缺的是一個能重跑、能比對、能找 bug 的框架。少一點炫技，多一點可觀測性，反而比較能上線。\u003C\u002Fp>\u003Ch2>數據、競品與實務判斷\u003C\u002Fh2>\u003Cp>做 agent 產品時，最怕的就是「看起來有用」。你需要的是數字。像是任務成功率、平均 latency、工具成功率、重試次數、人工介入比例。這些東西一拉出來，很多幻覺就會破掉。\u003C\u002Fp>\u003Cp>如果一個框架能讓你把 100 次跑法記錄下來，並且比較每次的差異，那它就不只是開發工具。它變成一個測試基礎設施。這種東西在初期很無聊，但到了上線階段就很香。\u003C\u002Fp>\u003Cp>拿常見競品來看，差距也很明顯。\u003Ca href=\"https:\u002F\u002Fdocs.langchain.com\u002Foss\u002Fpython\u002Flangchain\u002Foverview\" target=\"_blank\" rel=\"noopener\">LangChain\u003C\u002Fa> 常常是「先把東西串起來再說」。\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fstanfordnlp\u002Fdspy\" target=\"_blank\" rel=\"noopener\">DSPy\u003C\u002Fa> 常常是「先把 prompt 系統化」。Hermes Agent 如果真的是 harness 導向，那它更像「先把行為測清楚」。\u003C\u002Fp>\u003Cul>\u003Cli>LangChain：整合面廣，適合快速原型。\u003C\u002Fli>\u003Cli>DSPy：適合優化 prompt 與 pipeline。\u003C\u002Fli>\u003Cli>CrewAI：適合多 agent 任務分工。\u003C\u002Fli>\u003Cli>Hermes Agent：適合追蹤、回放、評測。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這裡可以再補一個現實面。很多企業現在不是缺模型，而是缺治理。當 agent 會碰資料庫、內部 API、甚至 code execution，出錯成本就會放大。少一次錯誤呼叫，可能就少一次資料污染。\u003C\u002Fp>\u003Cp>所以，若 Hermes Agent 真的能把觀測、回放、評測做順，對產品團隊會很有吸引力。因為它解的是「怎麼穩定交付」，不是「怎麼做出一次驚豔 demo」。\u003C\u002Fp>\u003Ch2>這波其實是在補 AI 工程底座\u003C\u002Fh2>\u003Cp>過去一年，大家很愛聊模型能力。誰的推理更強，誰的 context 更長，誰的 to\u003Ca href=\"\u002Fnews\u002Ftrivy-docker-images-fresh-supply-chain-attack-zh\">ke\u003C\u002Fa>n 更便宜。這些都重要。但一旦進入應用層，問題就變成工程問題。你要處理流程、狀態、例外、觀測，還有回滾。\u003C\u002Fp>\u003Cp>這也是為什麼 agent harness 會慢慢變重要。因為它補的是底座，不是表面。就像做網站，不會只看前端漂亮不漂亮。你也會看伺服器、資料庫、監控、CI\u002FCD。agent 也一樣。\u003C\u002Fp>\u003Cp>台灣很多團隊已經開始把 LLM 接進客服、內部搜尋、報價、文件整理。下一步不是再多接一個模型。下一步是把流程跑穩，把失敗模式抓出來。這才是能不能真的省人力的分水嶺。\u003C\u002Fp>\u003Cp>我自己的判斷很簡單。未來幾年，agent 框架會分成兩派。一派拚功能多，一派拚可控、可測、可回放。Hermes Agent 如果站得住，會比較像後者。這種工具通常不會最吵，但常常最實用。\u003C\u002Fp>\u003Ch2>接下來該怎麼看 Hermes Agent\u003C\u002Fh2>\u003Cp>如果你現在正在做 agent，我會建議先問三個問題。第一，失敗時能不能重播。第二，能不能量化每一步。第三，能不能知道是模型錯，還是工具錯。答不出來，就代表你還缺 harness。\u003C\u002Fp>\u003Cp>Hermes Agent 值不值得追，關鍵不在名字，而在它能不能把這三件事做紮實。若它真的能把 tool use、evals、workflow control 放在同一套流程裡，那它會很適合工程團隊試用。\u003C\u002Fp>\u003Cp>我會留意的指標很簡單。看它能不能讓同一個任務跑 50 次。看它能不能清楚標出失敗點。看它能不能跟現有 LLM 堆疊接得順。這些比任何宣傳詞都重要。\u003C\u002Fp>\u003Cp>講到底，agent 不是比誰比較會講。是比誰比較不會亂。Hermes Agent 如果能幫你把亂流壓下來，那它就值得放進工具清單。你下次做 agent，不妨先問自己：你要的是一個會回答的模型，還是一套能交付的系統？\u003C\u002Fp>","Hermes Agent 想把 agent 的工具呼叫、追蹤、評測和流程控制收進同一套框架。對要把 LLM 做進產品的團隊來說，這種 harness 比炫技 demo 更實用。","zhuanlan.zhihu.com","https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F2022015752258027715",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775207571413-ex0h.png",[13,14,15,16,17,18,19,20,21,22],"Hermes Agent","agent harness","AI agent","LLM","LangChain","DSPy","CrewAI","tool use","evals","workflow control","zh",0,false,"2026-04-03T09:12:32.90367+00:00","2026-04-03T09:12:32.818+00:00","done","4462315c-30da-407a-975e-67d9744dd98c","hermes-agent-agent-harness-framework-zh","ai-agent","574953d9-dafe-4fd3-b4da-133f2ed9f2c9","published","2026-04-07T07:41:09.485+00:00",[36,38,40,42,44,45,47,49],{"name":13,"slug":37},"hermes-agent",{"name":17,"slug":39},"langchain",{"name":14,"slug":41},"agent-harness",{"name":16,"slug":43},"llm",{"name":21,"slug":21},{"name":19,"slug":46},"crewai",{"name":20,"slug":48},"tool-use",{"name":15,"slug":31},{"id":32,"slug":51,"title":52,"language":53},"hermes-agent-agent-harness-framework-en","Hermes Agent: The Agent Harness Framework to Watch","en",[55,61,67,73,79,85],{"id":56,"slug":57,"title":58,"cover_image":59,"image_url":59,"created_at":60,"category":31},"38406a12-f833-4c69-ae22-99c31f03dd52","switch-ai-outputs-markdown-to-html-zh","怎麼把 AI 輸出改成 HTML","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778743243861-8901.png","2026-05-14T07:20:21.545364+00:00",{"id":62,"slug":63,"title":64,"cover_image":65,"image_url":65,"created_at":66,"category":31},"c7c69fe4-97e3-4edf-a9d6-a79d0c4495b4","anthropic-cat-wu-proactive-ai-assistants-zh","Cat Wu 談 Claude 的主動式 AI","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778735455993-gnw7.png","2026-05-14T05:10:30.453046+00:00",{"id":68,"slug":69,"title":70,"cover_image":71,"image_url":71,"created_at":72,"category":31},"e1d6acda-fa49-4514-aa75-709504be9f93","how-to-run-hermes-agent-on-discord-zh","如何在 Discord 執行 Hermes Agent","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778724655796-cjul.png","2026-05-14T02:10:34.362605+00:00",{"id":74,"slug":75,"title":76,"cover_image":77,"image_url":77,"created_at":78,"category":31},"4104fa5f-d95f-45c5-9032-99416cf0365c","why-ragflow-is-the-right-open-source-rag-engine-to-self-host-zh","為什麼 RAGFlow 是最適合自架的開源 RAG 引擎","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778674262278-1630.png","2026-05-13T12:10:23.762632+00:00",{"id":80,"slug":81,"title":82,"cover_image":83,"image_url":83,"created_at":84,"category":31},"7095f05c-34f5-469f-a044-2525d2010ce9","how-to-add-temporal-rag-in-production-zh","如何在正式環境加入 Temporal RAG","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778667053844-osvs.png","2026-05-13T10:10:30.930982+00:00",{"id":86,"slug":87,"title":88,"cover_image":89,"image_url":89,"created_at":90,"category":31},"10479c95-53c6-4723-9aaa-2fde5fb19ee7","github-agentic-workflows-ai-github-actions-zh","GitHub 把 AI 代理放進 Actions","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778551884342-8io7.png","2026-05-12T02:11:02.069769+00:00",[92,97,102,107,112,117,122,127,132,137],{"id":93,"slug":94,"title":95,"created_at":96},"4ae1e197-1d3d-4233-8733-eafe9cb6438b","claude-now-uses-your-pc-to-finish-tasks-zh","Claude 開始幫你操作電腦","2026-03-26T07:20:48.457387+00:00",{"id":98,"slug":99,"title":100,"created_at":101},"5bede67f-e21c-413d-9ab8-54a3c3d26227","googles-2026-ai-agent-report-decoded-zh","Google 2026 AI Agent 報告解讀","2026-03-26T11:15:22.651956+00:00",{"id":103,"slug":104,"title":105,"created_at":106},"2987d097-563f-46c7-b76f-b558d8ef7c2b","kimi-k25-review-stronger-still-not-legend-zh","Kimi K2.5 評測：更強，但還不是神作","2026-03-27T07:15:55.277513+00:00",{"id":108,"slug":109,"title":110,"created_at":111},"95c9053b-e3f4-4cb5-aace-5c54f4c9e044","claude-code-controls-mac-desktop-zh","Claude Code 也能操控 Mac 了","2026-03-28T03:01:58.58121+00:00",{"id":113,"slug":114,"title":115,"created_at":116},"dc58e153-e3a8-4c06-9b96-1aa64eabbf5f","cloudflare-100x-faster-ai-agent-sandbox-zh","Cloudflare 的 AI 沙箱跑超快","2026-03-28T03:09:44.142236+00:00",{"id":118,"slug":119,"title":120,"created_at":121},"1c8afc56-253f-47a2-979f-1065ff072f2a","openai-backs-isara-agent-swarm-bet-zh","OpenAI 挺 Isara 的 agent swarm …","2026-03-28T03:15:27.513155+00:00",{"id":123,"slug":124,"title":125,"created_at":126},"7379b422-576e-45df-ad5a-d57a0d9dd467","openai-plan-automated-ai-researcher-zh","OpenAI 想做自動化 AI 研究員","2026-03-28T03:17:42.090548+00:00",{"id":128,"slug":129,"title":130,"created_at":131},"48c9889e-86df-450b-a356-e4a4b7c83c5b","harness-engineering-ai-agent-reliability-2026-zh","駕馭工程：從「馬具」到「作業系統」，AI Agent 可靠性的終極密碼","2026-03-31T06:42:53.556721+00:00",{"id":133,"slug":134,"title":135,"created_at":136},"e41546b8-ba9e-455f-9159-88d4614ad711","openai-codex-plugin-claude-code-zh","OpenAI 把 Codex 放進 Claude Code","2026-04-01T09:21:54.687617+00:00",{"id":138,"slug":139,"title":140,"created_at":141},"96d8e8c8-1edd-475d-9145-b1e7a1b02b65","mcp-explained-from-prompts-to-production-zh","MCP 怎麼把提示詞變工作流","2026-04-01T09:24:39.321274+00:00"]