[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-agentic-ai-better-harnesses-not-just-bigger-models-zh":3,"article-related-agentic-ai-better-harnesses-not-just-bigger-models-zh":30,"series-research-115f347e-9bf9-4c9a-8bcb-f1de06eb54ad":80},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"115f347e-9bf9-4c9a-8bcb-f1de06eb54ad","agentic-ai-better-harnesses-not-just-bigger-models-zh","代理式 AI 關鍵在 Harness","\u003Cp data-speakable=\"summary\">這篇論文主張，\u003Ca href=\"\u002Fnews\u002Fmobilegym-verifiable-parallel-mobile-gui-sim-zh\">代理\u003C\u002Fa>式 AI 的進步不只靠更大模型，而是要把記憶、路由、驗證與治理這層 harness 當成核心\u003Ca href=\"\u002Fnews\u002F5-ways-coinquant-is-built-for-ai-agents-zh\">設計\u003C\u002Fa>。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：摘要無公開 benchmark 數字\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：把 harness 當主體\u003C\u002Fli>\u003C\u002Ful>\u003Cp>如果你在做 \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa>，這篇的重點很直接：真正卡住系統的，往往不是模型本身，而是模型外面那層執行架構。作者把它叫做 agent harness，涵蓋記憶、檢索、路由、編排、驗證和治理。這不是把模型包一包而已，而是把整個長流程行為，當成系統設計問題來處理。\u003C\u002Fp>\u003Cp>這個切法很重要。因為很多 agent 評估，只看最後有沒有完成任務。論文認為這樣不夠。長程表現好不好，常常取決於整套系統怎麼組，而不是模型單次輸出有多強。\u003C\u002Fp>\u003Ch2>這篇論文想解的痛點\u003C\u002Fh2>\u003Cp>作者先指出一個很常見的現實：現在的大型語言模型，已經能用工具、能查資料、能維持某種記憶，也能跑多步驟工作流。但外圍系統常被當成雜務，像是工程細節，不像核心設計。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779776174055-l7xm.png\" alt=\"代理式 AI 關鍵在 Harness\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>論文認為，這種模型中心論已經不夠用了。因為你只看最後成功率，會漏掉很多 agent 真正會出事的地方，例如 context 變髒、記憶漂移、工具協調失敗、驗證不足，或是治理機制太弱。這些問題不一定會立刻讓任務失敗，但會讓 agent 在長時間運作時不穩。\u003C\u002Fp>\u003Cp>作者把這個更大的系統層叫做「agent harness」。在他們的定義裡，harness 是把模型能力轉成長程行為的結構化執行層。論文的主張很簡單：未來的進步，不只來自模型 scaling，也要來自 harness scaling。\u003C\u002Fp>\u003Ch2>什麼是 harness scaling\u003C\u002Fh2>\u003Cp>所謂 scaling harness，重點不是單一技巧，而是把模型周邊系統做成可稽核、可持久、可模組化、可驗證。換句話說，這層執行架構不能再只是「跑得動就好」，而是要能被設計、被評估，也能被優化。\u003C\u002Fp>\u003Cp>論文把 harness 拆成幾個互相作用的部分：foundation model、memory substrate、context constructor、skill-routing layer、orchestration loop，以及 verification-and-governance layer。這些元件一起決定了模型看到\u003Ca href=\"\u002Fnews\u002Fwhy-llama-cpp-release-notes-matter-more-than-bragging-zh\">什麼\u003C\u002Fa>、記得什麼、會叫出哪些技能、怎麼協調步驟，還有最後如何自我檢查。\u003C\u002Fp>\u003Cp>這裡沒有提出單一演算法捷徑。作者要講的是系統觀。因為使用者感受到的 agent 行為，是這些元件互動後的結果，所以只改其中一塊，通常不夠。\u003C\u002Fp>\u003Ch2>論文聚焦的三個瓶頸\u003C\u002Fh2>\u003Cp>作者把討論集中在三個核心瓶頸：context governance、trustworthy memory、dynamic skill routing。除此之外，還有 orchestration 和 governance 機制，負責協調並約束這些部分。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779776152976-blx0.png\" alt=\"代理式 AI 關鍵在 Harness\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>Context governance 指的是怎麼控制哪些內容進入模型的工作上下文，以及這些內容怎麼被組裝。Trustworthy memory 則是要讓資訊的寫入與讀取，能支撐長程工作，同時不要把 agent 狀態弄壞。Dynamic skill routing 則是在合適的時間，選對能力或工具，而不是每一步都走同一條路。\u003C\u002Fp>\u003Cp>這些問題對做長流程 agent 的開發者來說都很熟。只要 context 變吵、memory 開始漂、routing 變脆弱，系統就可能失敗。即使底層模型本身很強，也一樣會翻車。\u003C\u002Fp>\u003Cp>論文的語氣其實很明確：agent 的可靠性，不是模型單獨撐起來的，而是整個 harness 一起撐起來的。\u003C\u002Fp>\u003Ch2>這篇實際證明了什麼\u003C\u002Fh2>\u003Cp>先講清楚：這篇比較像 framing 與研究議程的論文，不是重 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 的實證研究。摘要沒有公開 benchmark 數字，所以不能從摘要裡讀出 accuracy、throughput 或 cost 的具體結果。\u003C\u002Fp>\u003Cp>作者有提到一個具體參考實作：CheetahClaws，一個 Python-native 的 reference harness，並且把它和 \u003Ca href=\"\u002Ftag\u002Fclaude-code\">Claude Code\u003C\u002Fa>、\u003Ca href=\"\u002Ftag\u002Fopenclaw\">OpenClaw\u003C\u002Fa> 做比較。不過摘要沒有放出比較結果，所以目前不能根據這份來源說哪個系統比較好，也不能說差多少。\u003C\u002Fp>\u003Cp>論文真正提供的是評估方向。作者主張，harness 層級的 benchmark 不該只看一次性任務成功，而是要看 trajectory quality、memory hygiene、context efficiency、communication fidelity、verification cost，以及能不能安全地隨時間演化。\u003C\u002Fp>\u003Cp>這份清單很關鍵，因為它直接改寫了什麼叫做「好 agent」。不再只是問「有沒有做對」，而是要問「有沒有做得乾淨、有效率、夠安全，而且長期穩定」。\u003C\u002Fp>\u003Ch2>對開發者的實際影響\u003C\u002Fh2>\u003Cp>如果你在做 production agent，這篇其實是在提醒你把注意力往上一層移。模型只是其中一個元件。真正決定 agent 能不能在長時間、工具密集、狀態持續的系統裡工作的是 harness。\u003C\u002Fp>\u003Cp>這會直接影響工程設計。你要開始認真想：context 怎麼組、memory 怎麼寫入和讀取、技能怎麼路由、什麼時候做 verification、以及 loop 由誰治理。這些選擇的重要性，可能不輸 prompt 品質或模型選型。\u003C\u002Fp>\u003Cp>論文也暗示了目前的評估習慣有點不夠。系統可能在最後答案正確率上表現不錯，但一進到 agent 模式就變得脆弱、漏資料、或成本很高。若你真的要上線，這些隱性問題通常才是最先咬人的地方。\u003C\u002Fp>\u003Cp>不過，來源也很克制。摘要沒有給 benchmark 數字，也沒有在這裡宣稱新的 SOTA。所以這篇的價值，不是某個驚人的數字，而是它提供了一個看待 agent 的框架：把系統當成 harness，而不是只把它當成模型外殼。\u003C\u002Fp>\u003Ch2>限制與還沒回答的問題\u003C\u002Fh2>\u003Cp>這份來源最大的限制很明顯：摘要提供的是概念方向，不是完整實驗證據。雖然作者提到 CheetahClaws、\u003Ca href=\"\u002Ftag\u002Fclaude\">Claude\u003C\u002Fa> Code 和 OpenClaw 的比較，但摘要沒有交代比較結果。\u003C\u002Fp>\u003Cp>這也留下不少後續問題。像是 harness 的各個元件彼此高度耦合，該怎麼分開評估？哪些指標最能代表 memory hygiene 或 verification cost？更強的治理，和系統彈性之間要怎麼平衡？\u003C\u002Fp>\u003Cp>這些其實就是下一波 agent 工程最值得做的事。論文最重要的貢獻，不是某個單點技巧，而是把這些問題提升成第一級研究題目，而不是藏在模型 API 後面的實作細節。\u003C\u002Fp>\u003Cp>對開發者來說，結論很實用：如果你的 agent 只在乾淨 demo 裡表現好，缺的可能不是模型，而是 harness。\u003C\u002Fp>\u003Cul>\u003Cli>agent 的表現取決於整個系統層，不只看 foundation model。\u003C\u002Fli>\u003Cli>論文把評估重心推向 trajectory quality、memory hygiene 與 verification cost。\u003C\u002Fli>\u003Cli>CheetahClaws 被當成 Python-native reference harness，但摘要沒有結果。\u003C\u002Fli>\u003C\u002Ful>","這篇論文主張，代理式 AI 的進步不只靠更大模型，而是要把記憶、路由、驗證與治理這層 harness 當成核心設計。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.26112",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779776174055-l7xm.png","research","zh","3c6ecd70-2dd8-4498-847a-f80a264ff0d4",[17,18,19,20,21],"agentic AI","agent harness","memory","orchestration","verification",[23,24,25],"代理式 AI 的瓶頸不只在模型，還在外圍 harness。","論文主張評估要看長程行為，而不是只看最後任務成功。","CheetahClaws 被提出作為 reference harness，但摘要沒有公開比較結果。",6,"2026-05-26T06:15:28.19132+00:00","2026-05-26T06:15:28.172+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":39,"relatedPosts":43},[32,33,34,36,37],{"name":21,"slug":21},{"name":20,"slug":20},{"name":18,"slug":35},"agent-harness",{"name":19,"slug":19},{"name":17,"slug":38},"agentic-ai",{"id":15,"slug":40,"title":41,"language":42},"agentic-ai-better-harnesses-not-just-bigger-models-en","Agentic AI Needs Better Harnesses, Not Just Bigger Models","en",[44,50,56,62,68,74],{"id":45,"slug":46,"title":47,"cover_image":48,"image_url":48,"created_at":49,"category":13},"f374155a-c29e-478c-b7a5-679cad1c51e4","crdts-keep-replicas-in-sync-without-locks-zh","CRDT 讓副本不用鎖也能同步","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781011086259-4p4k.png","2026-06-09T13:17:34.493426+00:00",{"id":51,"slug":52,"title":53,"cover_image":54,"image_url":54,"created_at":55,"category":13},"4b3b5a50-45b7-4238-a38b-160f82e323ff","post-deterministic-systems-autonomous-infra-zh","後決定性分散系：自治基礎設施新框架","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781010194792-5ogb.png","2026-06-09T13:02:32.717551+00:00",{"id":57,"slug":58,"title":59,"cover_image":60,"image_url":60,"created_at":61,"category":13},"04e45398-9814-4907-b416-fcb5b8d69508","causal-learnability-formal-language-tasks-zh","用因果法量化任務可學性","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780987696075-l4g0.png","2026-06-09T06:47:34.438642+00:00",{"id":63,"slug":64,"title":65,"cover_image":66,"image_url":66,"created_at":67,"category":13},"75bcc569-5e89-45c8-b809-6f169e929f4b","rl-training-hands-off-control-gradually-zh","RL 先接管再放手","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780986786312-03yo.png","2026-06-09T06:32:32.849589+00:00",{"id":69,"slug":70,"title":71,"cover_image":72,"image_url":72,"created_at":73,"category":13},"e3ecab4b-7cc7-4246-baf6-e1c170d86ca5","omnigamearena-vlm-game-agent-benchmark-zh","OmniGameArena 讓 VLM 遊戲代理更好比","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780985893022-70pl.png","2026-06-09T06:17:32.189729+00:00",{"id":75,"slug":76,"title":77,"cover_image":78,"image_url":78,"created_at":79,"category":13},"6f25a29c-cbb8-4f53-9af7-1656b394333a","turboquant-cuts-kv-cache-memory-6x-google-tests-zh","TurboQuant 在 Google 測試中省下 6x KV 快取","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780906682236-sqe2.png","2026-06-08T08:17:21.878314+00:00",[81,86,91,96,101,106,111,116,121,126],{"id":82,"slug":83,"title":84,"created_at":85},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":87,"slug":88,"title":89,"created_at":90},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":92,"slug":93,"title":94,"created_at":95},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":97,"slug":98,"title":99,"created_at":100},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":102,"slug":103,"title":104,"created_at":105},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":107,"slug":108,"title":109,"created_at":110},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":112,"slug":113,"title":114,"created_at":115},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":117,"slug":118,"title":119,"created_at":120},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":122,"slug":123,"title":124,"created_at":125},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":127,"slug":128,"title":129,"created_at":130},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]