BenchLM 2026:AI Agent 模型排行
BenchLM 2026 用 26 個基準測 AI agent 模型,重點看工具呼叫、瀏覽器、終端機和電腦控制,GPT-5.5 Pro 目前拿下驗證榜首。

BenchLM 2026 用 26 個基準排 AI agent 模型,重點看工具呼叫、瀏覽器、終端機和電腦控制。
這份榜單不是在比誰最會聊天。它是在比誰真的會做事。BenchLM 現在追蹤 26 個 benchmark,還把核心 agent 分數拆成 verified-only 排名。說白了,就是先把來源不清楚的資料踢掉。
最上面那個數字很直白。OpenAI 的 GPT-5.5 Pro 拿到 90.1。最佳 open-weight 模型則是 H Company 的 Holo3-35B-A3B,分數是 82.6。兩者差了 7.5 分,這不是小誤差。
| 指標 | 數值 | 意思 |
|---|---|---|
| 追蹤 benchmark 數 | 26 | BenchLM 看的是一整包 agent 測試 |
| 核心加權 benchmark | 3 | Terminal-Bench 2.0、OSWorld-Verified、BrowseComp |
| Agentic 權重 | 22% | 工具使用是整體分數最大類別 |
| 驗證榜首 | 90.1 | GPT-5.5 Pro |
| 最佳 open-weight | 82.6 | Holo3-35B-A3B |
為什麼 agent benchmark 比聊天分數重要
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
以前很多榜單只回答一件事。哪個模型最會寫字。這件事有用,但不夠。因為 agent 工作不是單輪問答。它要呼叫 API,要查資料,要記住前一步做了什麼。

你可能會想問。模型不是都能輸出很漂亮的答案嗎。對,但漂亮不等於能執行。它可能會寫得像樣,實際上一到 function calling 就亂掉。參數少一個、順序錯一個,整個流程就炸了。
BenchLM 把 agentic 類別放到 22%。這是它整體評分裡最大的一塊。這個權重很誠實。市場現在看的不是誰話術最好,而是誰能在軟體裡把工作做完。
這個分類也很實際。它把能力拆成幾塊:
- 核心加權 benchmark,直接決定排名
- 工具呼叫與 MCP 任務,測 function execution
- 瀏覽器、桌面、手機控制,測真實介面操作
- 研究與航空等專門工作流
這種拆法很重要。因為 agent 能力很不平均。有的模型在結構化輸出很穩,但一進瀏覽器就卡住。有的在 terminal 很強,到了桌面 UI 又開始手忙腳亂。BenchLM 讓這些差異直接攤開。
驗證榜單才看得到真訊號
BenchLM 說得很明白。現在只顯示有 exact source record 的核心 agent rows。沒有驗證來源的手動資料,不算進 displayed agentic score。這個做法我覺得很對。leaderboard 最怕混進來一堆來源不明的東西。
agent benchmark 本來就容易飄。今天一個版本,明天一個版本。再加上不同資料來源,分數很容易被洗得亂七八糟。把 verified-only 拉出來,至少還能知道自己在看什麼。
榜單前段很擠。OpenAI 佔了前兩名,Anthropic 的 Claude 也有多個版本進前 10。Google Gemini 的 Gemini 3.5 Flash 則落在 77.2。open-weight 也沒缺席,Holo3、DeepSeek、Qwen 都有存在感。
“The ability to use tools and complete multi-step tasks is the strongest differentiator between models in production use.”
這句話出自 BenchLM 的 FAQ。講白了就是。模型會聊天沒什麼稀奇。能不能用工具、能不能跑完多步驟流程,才是生產環境的分水嶺。
先看幾個 verified 排名的高分:
- GPT-5.5 Pro — 90.1
- GPT-5.4 Pro — 89.3
- Holo3-35B-A3B — 82.6
- Claude Mythos Preview — 82.4
- GPT-5.5 — 81.5
- Claude Opus 4.8 — 80.1
這個落差有意思。第一名和最佳 open-weight 差了 7.5 分。對產品團隊來說,這已經夠影響選型了。尤其你如果要做自動化客服、資料處理,或者內部系統操作,這種差距會直接反映在 retry 次數上。
核心 benchmark 組合,透露模型怎麼做事
BenchLM 的 agentic 分數,是三個 benchmark 的加權平均。Terminal-Bench 2.0 佔 40%。OSWorld-Verified 佔 35%。BrowseComp 佔 25%。這個權重很像在說。終端機最重要,桌面控制其次,網頁研究也不能忽略。

這也解釋了為什麼有些模型排名會跳。終端機強的模型,會因為 code execution 穩而往上爬。UI 做得好的模型,也可能因為 terminal 不行而掉分。單看總分,很容易誤判。
幾個例子很能看出差異:
- Claude Opus 4.8 在 Terminal-Bench 2.0 是 74.6,在 OSWorld-Verified 是 83.4
- DeepSeek V4 Pro (Max) 在 Terminal-Bench 2.0 是 67.9,在 BrowseComp 是 83.4
- Qwen3.7 Max 的 overall 是 69.7,表格顯示總欄位有 92
- GPT-5.4 mini 的 overall 是 65.6,Terminal-Bench 2.0 是 60,OSWorld-Verified 是 72.1
這些數字很像在提醒你。沒有哪個模型是全能的。你要做的是找出你的工作流最怕哪種失誤。是查錯資料。還是下錯指令。還是卡在 UI 轉換。答案不同,模型選擇就不同。
工具呼叫和 MCP,現在是正規考題
BenchLM 不只看總分。它也追蹤工具使用與 function calling 的 benchmark。像是 BFCL v4、Toolathlon,還有 MCP 相關測試,像 MCP Atlas 和 MCP-Tasks。
這些測試很貼近現在的產品實作。因為真正麻煩的不是讓模型講話。是讓它選對工具。再把對的參數塞進去。出錯時還能自己修正。這一段才是 agent 工程最花時間的地方。
如果模型只會吐漂亮文字,實際上還是很脆。它可能在第一步就把 API 格式打歪。也可能在第二步忘了前面查過什麼。這種錯不會出現在一般聊天評測裡,但在真實產品裡會一直燒你的伺服器和人力。
BenchLM 的 FAQ 也把這件事講得很直接。function calling 讓 LLM 去呼叫外部工具、API 或資料庫。這對搜尋網頁、查資料庫、寄信、控制其他軟體都很重要。這就是現在 agent 的基本門檻。
如果你想看更多評測脈絡,OraCore 也寫過 benchmark 權重為什麼重要,還有 production AI 的 agentic evals。這兩篇跟這份榜單放一起看,會比較完整。
開發者該怎麼看這份榜單
如果你今天要上 agent,這份榜單有一個很實用的價值。它把 hype 和任務適配分開了。會寫字,不代表會做事。分數高,也不代表能直接接你的工具鏈。
我會這樣看。你要混合 terminal 和 browser 工作,就先看 verified 的前段模型。你要 open-weight,就先看 Holo3、DeepSeek、Qwen 這幾個家族。然後一定要自己跑測試。因為 benchmark 贏,不等於你家環境也能贏。
BenchLM 這頁最後更新是 2026 年 5 月 28 日。這很重要。因為 agent 排名變得很快。今天排前面,下一版可能就掉下來。真正值得養成的習慣,不是背榜單。是每次選模型前,先問自己一句:它能不能把這個工作流做完。
如果你在做產品,我會直接給一個建議。先挑一個模型,拿你最常見的 20 個任務去跑。看成功率。看 retry 次數。看每次完成要花多少 Token。這比盯著排行榜更有用,也更省錢。
下一步該看什麼
這份榜單的重點,不是誰第一名。重點是你要把 agent 能力拆開看。工具呼叫、瀏覽器、終端機、桌面控制,這四件事常常不是同一個模型都強。
如果你現在正在選模型,我的建議很簡單。先看你的工作流,再看分數。不要反過來。因為真正上線之後,客戶不會管你用了哪個 benchmark。他們只會問,這個流程為什麼又失敗了。
接下來最值得追的,不是單一模型分數,而是各家在 terminal 和 browser 的穩定度差距會不會縮小。你如果是開發者,現在就該把自己的 agent 任務做成內部小測試。這件事比追新聞更有用。