[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-benchlm-agent-tool-use-benchmarks-2026-zh":3,"article-related-benchlm-agent-tool-use-benchmarks-2026-zh":38,"series-research-f7bb2a7e-9b8a-45ec-bd48-c3dd41c8662a":90},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":30,"views":34,"created_at":35,"published_at":36,"topic_cluster_id":37},"f7bb2a7e-9b8a-45ec-bd48-c3dd41c8662a","benchlm-agent-tool-use-benchmarks-2026-zh","BenchLM 2026：AI Agent 模型排行","\u003Cp data-speakable=\"summary\">BenchLM \u003Ca href=\"\u002Fnews\u002Fllm-leaderboard-2026-top-models-compared-zh\">2026\u003C\u002Fa> 用 26 個基準排 \u003Ca href=\"\u002Ftag\u002Fai-agent\">AI agent\u003C\u002Fa> 模型，重點看工具呼叫、瀏覽器、終端機和電腦控制。\u003C\u002Fp>\u003Cp>這份榜單不是在比誰最會聊天。它是在比誰真的會做事。\u003Ca href=\"https:\u002F\u002Fbenchlm.ai\u002Fllm-agent-benchmarks\" target=\"_blank\" rel=\"noopener\">BenchLM\u003C\u002Fa> 現在追蹤 26 個 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa>，還把核心 agent 分數拆成 verified-only 排名。說白了，就是先把來源不清楚的資料踢掉。\u003C\u002Fp>\u003Cp>最上面那個數字很直白。\u003Ca href=\"https:\u002F\u002Fopenai.com\" target=\"_blank\" rel=\"noopener\">OpenAI\u003C\u002Fa> 的 GPT-5.5 Pro 拿到 90.1。最佳 open-weight 模型則是 \u003Ca href=\"https:\u002F\u002Fhcompany.ai\" target=\"_blank\" rel=\"noopener\">H Company\u003C\u002Fa> 的 Holo3-35B-A3B，分數是 82.6。兩者差了 7.5 分，這不是小誤差。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>指標\u003C\u002Fth>\u003Cth>數值\u003C\u002Fth>\u003Cth>意思\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>追蹤 benchmark 數\u003C\u002Ftd>\u003Ctd>26\u003C\u002Ftd>\u003Ctd>BenchLM 看的是一整包 agent 測試\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>核心加權 benchmark\u003C\u002Ftd>\u003Ctd>3\u003C\u002Ftd>\u003Ctd>Terminal-Bench 2.0、OSWorld-Verified、BrowseComp\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Agentic 權重\u003C\u002Ftd>\u003Ctd>22%\u003C\u002Ftd>\u003Ctd>工具使用是整體分數最大類別\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>驗證榜首\u003C\u002Ftd>\u003Ctd>90.1\u003C\u002Ftd>\u003Ctd>GPT-5.5 Pro\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>最佳 open-weight\u003C\u002Ftd>\u003Ctd>82.6\u003C\u002Ftd>\u003Ctd>Holo3-35B-A3B\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>為什麼 agent benchmark 比聊天分數重要\u003C\u002Fh2>\u003Cp>以前很多榜單只回答一件事。哪個模型最會寫字。這件事有用，但不夠。因為 agent 工作不是單輪問答。它要呼叫 API，要查資料，要記住前一步做了\u003Ca href=\"\u002Fnews\u002Fwhy-goland-is-more-than-just-a-go-ide-zh\">什麼\u003C\u002Fa>。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780317190055-uee0.png\" alt=\"BenchLM 2026：AI Agent 模型排行\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>你可能會想問。模型不是都能輸出很漂亮的答案嗎。對，但漂亮不等於能執行。它可能會寫得像樣，實際上一到 function calling 就亂掉。參數少一個、順序錯一個，整個流程就炸了。\u003C\u002Fp>\u003Cp>BenchLM 把 agentic 類別放到 22%。這是它整體評分裡最大的一塊。這個權重很誠實。市場現在看的不是誰話術最好，而是誰能在軟體裡把工作做完。\u003C\u002Fp>\u003Cp>這個分類也很實際。它把能力拆成幾塊：\u003C\u002Fp>\u003Cul>\u003Cli>\u003Ca href=\"https:\u002F\u002Fbenchlm.ai\u002Fllm-agent-benchmarks\" target=\"_blank\" rel=\"noopener\">核心加權 benchmark\u003C\u002Fa>，直接決定排名\u003C\u002Fli>\u003Cli>工具呼叫與 MCP 任務，測 function execution\u003C\u002Fli>\u003Cli>瀏覽器、桌面、手機控制，測真實介面操作\u003C\u002Fli>\u003Cli>研究與航空等專門工作流\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這種拆法很重要。因為 agent 能力很不平均。有的模型在結構化輸出很穩，但一進瀏覽器就卡住。有的在 terminal 很強，到了桌面 UI 又開始手忙腳亂。BenchLM 讓這些差異直接攤開。\u003C\u002Fp>\u003Ch2>驗證榜單才看得到真訊號\u003C\u002Fh2>\u003Cp>BenchLM 說得很明白。現在只顯示有 exact source record 的核心 agent rows。沒有驗證來源的手動資料，不算進 displayed agentic score。這個做法我覺得很對。leaderboard 最怕混進來一堆來源不明的東西。\u003C\u002Fp>\u003Cp>agent benchmark 本來就容易飄。今天一個版本，明天一個版本。再加上不同資料來源，分數很容易被洗得亂七八糟。把 verified-only 拉出來，至少還能知道自己在看什麼。\u003C\u002Fp>\u003Cp>榜單前段很擠。\u003Ca href=\"\u002Ftag\u002Fopenai\">OpenAI\u003C\u002Fa> 佔了前兩名，\u003Ca href=\"\u002Ftag\u002Fanthropic\">Anthropic\u003C\u002Fa> 的 \u003Ca href=\"\u002Ftag\u002Fclaude\">Claude\u003C\u002Fa> 也有多個版本進前 10。\u003Ca href=\"https:\u002F\u002Fai.google.dev\u002Fgemini-api\" target=\"_blank\" rel=\"noopener\">Google Gemini\u003C\u002Fa> 的 Gemini 3.5 Flash 則落在 77.2。open-weight 也沒缺席，Holo3、DeepSeek、Qwen 都有存在感。\u003C\u002Fp>\u003Cblockquote>“The ability to use tools and complete multi-step tasks is the strongest differentiator between models in production use.”\u003C\u002Fblockquote>\u003Cp>這句話出自 BenchLM 的 FAQ。講白了就是。模型會聊天沒什麼稀奇。能不能用工具、能不能跑完多步驟流程，才是生產環境的分水嶺。\u003C\u002Fp>\u003Cp>先看幾個 verified 排名的高分：\u003C\u002Fp>\u003Cul>\u003Cli>GPT-5.5 Pro — 90.1\u003C\u002Fli>\u003Cli>GPT-5.4 Pro — 89.3\u003C\u002Fli>\u003Cli>Holo3-35B-A3B — 82.6\u003C\u002Fli>\u003Cli>Claude Mythos Preview — 82.4\u003C\u002Fli>\u003Cli>GPT-5.5 — 81.5\u003C\u002Fli>\u003Cli>Claude Opus 4.8 — 80.1\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這個落差有意思。第一名和最佳 open-weight 差了 7.5 分。對產品團隊來說，這已經夠影響選型了。尤其你如果要做自動化客服、資料處理，或者內部系統操作，這種差距會直接反映在 retry 次數上。\u003C\u002Fp>\u003Ch2>核心 benchmark 組合，透露模型怎麼做事\u003C\u002Fh2>\u003Cp>BenchLM 的 agentic 分數，是三個 benchmark 的加權平均。Terminal-Bench 2.0 佔 40%。OSWorld-Verified 佔 35%。BrowseComp 佔 25%。這個權重很像在說。終端機最重要，桌面控制其次，網頁\u003Ca href=\"\u002Fnews\u002Fanthropic-coding-agents-research-ops-zh\">研究\u003C\u002Fa>也不能忽略。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780317191176-3egz.png\" alt=\"BenchLM 2026：AI Agent 模型排行\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這也解釋了為什麼有些模型排名會跳。終端機強的模型，會因為 code execution 穩而往上爬。UI 做得好的模型，也可能因為 terminal 不行而掉分。單看總分，很容易誤判。\u003C\u002Fp>\u003Cp>幾個例子很能看出差異：\u003C\u002Fp>\u003Cul>\u003Cli>Claude Opus 4.8 在 Terminal-Bench 2.0 是 74.6，在 OSWorld-Verified 是 83.4\u003C\u002Fli>\u003Cli>DeepSeek V4 Pro (Max) 在 Terminal-Bench 2.0 是 67.9，在 BrowseComp 是 83.4\u003C\u002Fli>\u003Cli>Qwen3.7 Max 的 overall 是 69.7，表格顯示總欄位有 92\u003C\u002Fli>\u003Cli>GPT-5.4 mini 的 overall 是 65.6，Terminal-Bench 2.0 是 60，OSWorld-Verified 是 72.1\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這些數字很像在提醒你。沒有哪個模型是全能的。你要做的是找出你的工作流最怕哪種失誤。是查錯資料。還是下錯指令。還是卡在 UI 轉換。答案不同，模型選擇就不同。\u003C\u002Fp>\u003Ch2>工具呼叫和 MCP，現在是正規考題\u003C\u002Fh2>\u003Cp>BenchLM 不只看總分。它也追蹤工具使用與 function calling 的 benchmark。像是 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fberkeley-nest\u002Fberkeley-function-call-leaderboard\" target=\"_blank\" rel=\"noopener\">BFCL v4\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Famazon-science\u002Ftoolathlon\" target=\"_blank\" rel=\"noopener\">Toolathlon\u003C\u002Fa>，還有 MCP 相關測試，像 \u003Ca href=\"https:\u002F\u002Fmodelcontextprotocol.io\" target=\"_blank\" rel=\"noopener\">MCP\u003C\u002Fa> Atlas 和 MCP-Tasks。\u003C\u002Fp>\u003Cp>這些測試很貼近現在的產品實作。因為真正麻煩的不是讓模型講話。是讓它選對工具。再把對的參數塞進去。出錯時還能自己修正。這一段才是 agent 工程最花時間的地方。\u003C\u002Fp>\u003Cp>如果模型只會吐漂亮文字，實際上還是很脆。它可能在第一步就把 API 格式打歪。也可能在第二步忘了前面查過什麼。這種錯不會出現在一般聊天評測裡，但在真實產品裡會一直燒你的伺服器和人力。\u003C\u002Fp>\u003Cp>BenchLM 的 FAQ 也把這件事講得很直接。function calling 讓 LLM 去呼叫外部工具、API 或資料庫。這對搜尋網頁、查資料庫、寄信、控制其他軟體都很重要。這就是現在 agent 的基本門檻。\u003C\u002Fp>\u003Cp>如果你想看更多評測脈絡，OraCore 也寫過 \u003Ca href=\"\u002Fnews\u002Fmodel-benchmarks-why-weights-matter\">benchmark 權重為什麼重要\u003C\u002Fa>，還有 \u003Ca href=\"\u002Fnews\u002Fagentic-evals-for-production-ai\">production AI 的 agentic evals\u003C\u002Fa>。這兩篇跟這份榜單放一起看，會比較完整。\u003C\u002Fp>\u003Ch2>開發者該怎麼看這份榜單\u003C\u002Fh2>\u003Cp>如果你今天要上 agent，這份榜單有一個很實用的價值。它把 hype 和任務適配分開了。會寫字，不代表會做事。分數高，也不代表能直接接你的工具鏈。\u003C\u002Fp>\u003Cp>我會這樣看。你要混合 terminal 和 browser 工作，就先看 verified 的前段模型。你要 open-weight，就先看 Holo3、DeepSeek、Qwen 這幾個家族。然後一定要自己跑測試。因為 benchmark 贏，不等於你家環境也能贏。\u003C\u002Fp>\u003Cp>BenchLM 這頁最後更新是 2026 年 5 月 28 日。這很重要。因為 agent 排名變得很快。今天排前面，下一版可能就掉下來。真正值得養成的習慣，不是背榜單。是每次選模型前，先問自己一句：它能不能把這個工作流做完。\u003C\u002Fp>\u003Cp>如果你在做產品，我會直接給一個建議。先挑一個模型，拿你最常見的 20 個任務去跑。看成功率。看 retry 次數。看每次完成要花多少 Token。這比盯著排行榜更有用，也更省錢。\u003C\u002Fp>\u003Ch2>下一步該看什麼\u003C\u002Fh2>\u003Cp>這份榜單的重點，不是誰第一名。重點是你要把 agent 能力拆開看。工具呼叫、瀏覽器、終端機、桌面控制，這四件事常常不是同一個模型都強。\u003C\u002Fp>\u003Cp>如果你現在正在選模型，我的建議很簡單。先看你的工作流，再看分數。不要反過來。因為真正上線之後，客戶不會管你用了哪個 benchmark。他們只會問，這個流程為什麼又失敗了。\u003C\u002Fp>\u003Cp>接下來最值得追的，不是單一模型分數，而是各家在 terminal 和 browser 的穩定度差距會不會縮小。你如果是開發者，現在就該把自己的 agent 任務做成內部小測試。這件事比追新聞更有用。\u003C\u002Fp>","BenchLM 2026 用 26 個基準測 AI agent 模型，重點看工具呼叫、瀏覽器、終端機和電腦控制，GPT-5.5 Pro 目前拿下驗證榜首。","benchlm.ai","https:\u002F\u002Fbenchlm.ai\u002Fllm-agent-benchmarks",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780317190055-uee0.png","research","zh","99b4197b-3e94-475d-bb05-7a4fa6927b3f",[17,18,19,20,21,22,23,24,25,26,27,28,29],"BenchLM","AI agent","benchmark","tool use","function calling","MCP","OSWorld","Terminal-Bench","BrowseComp","OpenAI","Claude","Qwen","DeepSeek",[31,32,33],"BenchLM 2026 把 26 個 benchmark 納入追蹤，核心 agentic 分數以 verified-only 資料計算。","GPT-5.5 Pro 以 90.1 居首，最佳 open-weight Holo3-35B-A3B 是 82.6，差距 7.5 分。","工具呼叫、瀏覽器、終端機和桌面控制，才是現在 AI agent 選型的重點。",4,"2026-06-01T12:32:37.6253+00:00","2026-06-01T12:32:37.596+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":39,"relatedLang":49,"relatedPosts":53},[40,41,43,45,47],{"name":19,"slug":19},{"name":20,"slug":42},"tool-use",{"name":18,"slug":44},"ai-agent",{"name":17,"slug":46},"benchlm",{"name":21,"slug":48},"function-calling",{"id":15,"slug":50,"title":51,"language":52},"benchlm-agent-tool-use-benchmarks-2026-en","BenchLM ranks the best AI agent models for 2026","en",[54,60,66,72,78,84],{"id":55,"slug":56,"title":57,"cover_image":58,"image_url":58,"created_at":59,"category":13},"f374155a-c29e-478c-b7a5-679cad1c51e4","crdts-keep-replicas-in-sync-without-locks-zh","CRDT 讓副本不用鎖也能同步","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781011086259-4p4k.png","2026-06-09T13:17:34.493426+00:00",{"id":61,"slug":62,"title":63,"cover_image":64,"image_url":64,"created_at":65,"category":13},"4b3b5a50-45b7-4238-a38b-160f82e323ff","post-deterministic-systems-autonomous-infra-zh","後決定性分散系：自治基礎設施新框架","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781010194792-5ogb.png","2026-06-09T13:02:32.717551+00:00",{"id":67,"slug":68,"title":69,"cover_image":70,"image_url":70,"created_at":71,"category":13},"04e45398-9814-4907-b416-fcb5b8d69508","causal-learnability-formal-language-tasks-zh","用因果法量化任務可學性","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780987696075-l4g0.png","2026-06-09T06:47:34.438642+00:00",{"id":73,"slug":74,"title":75,"cover_image":76,"image_url":76,"created_at":77,"category":13},"75bcc569-5e89-45c8-b809-6f169e929f4b","rl-training-hands-off-control-gradually-zh","RL 先接管再放手","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780986786312-03yo.png","2026-06-09T06:32:32.849589+00:00",{"id":79,"slug":80,"title":81,"cover_image":82,"image_url":82,"created_at":83,"category":13},"e3ecab4b-7cc7-4246-baf6-e1c170d86ca5","omnigamearena-vlm-game-agent-benchmark-zh","OmniGameArena 讓 VLM 遊戲代理更好比","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780985893022-70pl.png","2026-06-09T06:17:32.189729+00:00",{"id":85,"slug":86,"title":87,"cover_image":88,"image_url":88,"created_at":89,"category":13},"6f25a29c-cbb8-4f53-9af7-1656b394333a","turboquant-cuts-kv-cache-memory-6x-google-tests-zh","TurboQuant 在 Google 測試中省下 6x KV 快取","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780906682236-sqe2.png","2026-06-08T08:17:21.878314+00:00",[91,96,101,106,111,116,121,126,131,136],{"id":92,"slug":93,"title":94,"created_at":95},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":97,"slug":98,"title":99,"created_at":100},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":102,"slug":103,"title":104,"created_at":105},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":107,"slug":108,"title":109,"created_at":110},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":112,"slug":113,"title":114,"created_at":115},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":117,"slug":118,"title":119,"created_at":120},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":122,"slug":123,"title":124,"created_at":125},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":127,"slug":128,"title":129,"created_at":130},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":132,"slug":133,"title":134,"created_at":135},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":137,"slug":138,"title":139,"created_at":140},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]