BenchLM 2026：AI Agent 模型排行

OraCore Editors

返回首頁

[RSCH] 2026年6月1日8 分鐘閱讀OraCore 編輯部

BenchLM 2026：AI Agent 模型排行

BenchLM 2026 用 26 個基準測 AI agent 模型，重點看工具呼叫、瀏覽器、終端機和電腦控制，GPT-5.5 Pro 目前拿下驗證榜首。

benchmark tool use AI agent BenchLM function calling

分享 LinkedIn

BenchLM 2026 用 26 個基準排 AI agent 模型，重點看工具呼叫、瀏覽器、終端機和電腦控制。

這份榜單不是在比誰最會聊天。它是在比誰真的會做事。BenchLM 現在追蹤 26 個 benchmark，還把核心 agent 分數拆成 verified-only 排名。說白了，就是先把來源不清楚的資料踢掉。

最上面那個數字很直白。OpenAI 的 GPT-5.5 Pro 拿到 90.1。最佳 open-weight 模型則是 H Company 的 Holo3-35B-A3B，分數是 82.6。兩者差了 7.5 分，這不是小誤差。

指標	數值	意思
追蹤 benchmark 數	26	BenchLM 看的是一整包 agent 測試
核心加權 benchmark	3	Terminal-Bench 2.0、OSWorld-Verified、BrowseComp
Agentic 權重	22%	工具使用是整體分數最大類別
驗證榜首	90.1	GPT-5.5 Pro
最佳 open-weight	82.6	Holo3-35B-A3B

為什麼 agent benchmark 比聊天分數重要

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

以前很多榜單只回答一件事。哪個模型最會寫字。這件事有用，但不夠。因為 agent 工作不是單輪問答。它要呼叫 API，要查資料，要記住前一步做了什麼。

你可能會想問。模型不是都能輸出很漂亮的答案嗎。對，但漂亮不等於能執行。它可能會寫得像樣，實際上一到 function calling 就亂掉。參數少一個、順序錯一個，整個流程就炸了。

BenchLM 把 agentic 類別放到 22%。這是它整體評分裡最大的一塊。這個權重很誠實。市場現在看的不是誰話術最好，而是誰能在軟體裡把工作做完。

這個分類也很實際。它把能力拆成幾塊：

核心加權 benchmark，直接決定排名
工具呼叫與 MCP 任務，測 function execution
瀏覽器、桌面、手機控制，測真實介面操作
研究與航空等專門工作流

這種拆法很重要。因為 agent 能力很不平均。有的模型在結構化輸出很穩，但一進瀏覽器就卡住。有的在 terminal 很強，到了桌面 UI 又開始手忙腳亂。BenchLM 讓這些差異直接攤開。

驗證榜單才看得到真訊號

BenchLM 說得很明白。現在只顯示有 exact source record 的核心 agent rows。沒有驗證來源的手動資料，不算進 displayed agentic score。這個做法我覺得很對。leaderboard 最怕混進來一堆來源不明的東西。

agent benchmark 本來就容易飄。今天一個版本，明天一個版本。再加上不同資料來源，分數很容易被洗得亂七八糟。把 verified-only 拉出來，至少還能知道自己在看什麼。

榜單前段很擠。OpenAI 佔了前兩名，Anthropic 的 Claude 也有多個版本進前 10。Google Gemini 的 Gemini 3.5 Flash 則落在 77.2。open-weight 也沒缺席，Holo3、DeepSeek、Qwen 都有存在感。

“The ability to use tools and complete multi-step tasks is the strongest differentiator between models in production use.”

這句話出自 BenchLM 的 FAQ。講白了就是。模型會聊天沒什麼稀奇。能不能用工具、能不能跑完多步驟流程，才是生產環境的分水嶺。

先看幾個 verified 排名的高分：

GPT-5.5 Pro — 90.1
GPT-5.4 Pro — 89.3
Holo3-35B-A3B — 82.6
Claude Mythos Preview — 82.4
GPT-5.5 — 81.5
Claude Opus 4.8 — 80.1

這個落差有意思。第一名和最佳 open-weight 差了 7.5 分。對產品團隊來說，這已經夠影響選型了。尤其你如果要做自動化客服、資料處理，或者內部系統操作，這種差距會直接反映在 retry 次數上。

核心 benchmark 組合，透露模型怎麼做事

BenchLM 的 agentic 分數，是三個 benchmark 的加權平均。Terminal-Bench 2.0 佔 40%。OSWorld-Verified 佔 35%。BrowseComp 佔 25%。這個權重很像在說。終端機最重要，桌面控制其次，網頁研究也不能忽略。

這也解釋了為什麼有些模型排名會跳。終端機強的模型，會因為 code execution 穩而往上爬。UI 做得好的模型，也可能因為 terminal 不行而掉分。單看總分，很容易誤判。

幾個例子很能看出差異：

Claude Opus 4.8 在 Terminal-Bench 2.0 是 74.6，在 OSWorld-Verified 是 83.4
DeepSeek V4 Pro (Max) 在 Terminal-Bench 2.0 是 67.9，在 BrowseComp 是 83.4
Qwen3.7 Max 的 overall 是 69.7，表格顯示總欄位有 92
GPT-5.4 mini 的 overall 是 65.6，Terminal-Bench 2.0 是 60，OSWorld-Verified 是 72.1

這些數字很像在提醒你。沒有哪個模型是全能的。你要做的是找出你的工作流最怕哪種失誤。是查錯資料。還是下錯指令。還是卡在 UI 轉換。答案不同，模型選擇就不同。

工具呼叫和 MCP，現在是正規考題

BenchLM 不只看總分。它也追蹤工具使用與 function calling 的 benchmark。像是 BFCL v4、Toolathlon，還有 MCP 相關測試，像 MCP Atlas 和 MCP-Tasks。

這些測試很貼近現在的產品實作。因為真正麻煩的不是讓模型講話。是讓它選對工具。再把對的參數塞進去。出錯時還能自己修正。這一段才是 agent 工程最花時間的地方。

如果模型只會吐漂亮文字，實際上還是很脆。它可能在第一步就把 API 格式打歪。也可能在第二步忘了前面查過什麼。這種錯不會出現在一般聊天評測裡，但在真實產品裡會一直燒你的伺服器和人力。

BenchLM 的 FAQ 也把這件事講得很直接。function calling 讓 LLM 去呼叫外部工具、API 或資料庫。這對搜尋網頁、查資料庫、寄信、控制其他軟體都很重要。這就是現在 agent 的基本門檻。

如果你想看更多評測脈絡，OraCore 也寫過 benchmark 權重為什麼重要，還有 production AI 的 agentic evals。這兩篇跟這份榜單放一起看，會比較完整。

開發者該怎麼看這份榜單

如果你今天要上 agent，這份榜單有一個很實用的價值。它把 hype 和任務適配分開了。會寫字，不代表會做事。分數高，也不代表能直接接你的工具鏈。

我會這樣看。你要混合 terminal 和 browser 工作，就先看 verified 的前段模型。你要 open-weight，就先看 Holo3、DeepSeek、Qwen 這幾個家族。然後一定要自己跑測試。因為 benchmark 贏，不等於你家環境也能贏。

BenchLM 這頁最後更新是 2026 年 5 月 28 日。這很重要。因為 agent 排名變得很快。今天排前面，下一版可能就掉下來。真正值得養成的習慣，不是背榜單。是每次選模型前，先問自己一句：它能不能把這個工作流做完。

如果你在做產品，我會直接給一個建議。先挑一個模型，拿你最常見的 20 個任務去跑。看成功率。看 retry 次數。看每次完成要花多少 Token。這比盯著排行榜更有用，也更省錢。

下一步該看什麼

這份榜單的重點，不是誰第一名。重點是你要把 agent 能力拆開看。工具呼叫、瀏覽器、終端機、桌面控制，這四件事常常不是同一個模型都強。

如果你現在正在選模型，我的建議很簡單。先看你的工作流，再看分數。不要反過來。因為真正上線之後，客戶不會管你用了哪個 benchmark。他們只會問，這個流程為什麼又失敗了。

接下來最值得追的，不是單一模型分數，而是各家在 terminal 和 browser 的穩定度差距會不會縮小。你如果是開發者，現在就該把自己的 agent 任務做成內部小測試。這件事比追新聞更有用。

// 相關文章

BenchLM 2026：AI Agent 模型排行

為什麼 agent benchmark 比聊天分數重要

訂閱 AI 趨勢週報

驗證榜單才看得到真訊號

核心 benchmark 組合，透露模型怎麼做事

工具呼叫和 MCP，現在是正規考題

開發者該怎麼看這份榜單

下一步該看什麼

CRDT 讓副本不用鎖也能同步

後決定性分散系：自治基礎設施新框架

用因果法量化任務可學性

RL 先接管再放手

OmniGameArena 讓 VLM 遊戲代理更好比

TurboQuant 在 Google 測試中省下 6x KV 快取