[RSCH] 8 分鐘閱讀OraCore 編輯部

BenchLM 2026:AI Agent 模型排行

BenchLM 2026 用 26 個基準測 AI agent 模型,重點看工具呼叫、瀏覽器、終端機和電腦控制,GPT-5.5 Pro 目前拿下驗證榜首。

分享 LinkedIn
BenchLM 2026:AI Agent 模型排行

BenchLM 2026 用 26 個基準排 AI agent 模型,重點看工具呼叫、瀏覽器、終端機和電腦控制。

這份榜單不是在比誰最會聊天。它是在比誰真的會做事。BenchLM 現在追蹤 26 個 benchmark,還把核心 agent 分數拆成 verified-only 排名。說白了,就是先把來源不清楚的資料踢掉。

最上面那個數字很直白。OpenAI 的 GPT-5.5 Pro 拿到 90.1。最佳 open-weight 模型則是 H Company 的 Holo3-35B-A3B,分數是 82.6。兩者差了 7.5 分,這不是小誤差。

指標數值意思
追蹤 benchmark 數26BenchLM 看的是一整包 agent 測試
核心加權 benchmark3Terminal-Bench 2.0、OSWorld-Verified、BrowseComp
Agentic 權重22%工具使用是整體分數最大類別
驗證榜首90.1GPT-5.5 Pro
最佳 open-weight82.6Holo3-35B-A3B

為什麼 agent benchmark 比聊天分數重要

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

以前很多榜單只回答一件事。哪個模型最會寫字。這件事有用,但不夠。因為 agent 工作不是單輪問答。它要呼叫 API,要查資料,要記住前一步做了什麼

BenchLM 2026:AI Agent 模型排行

你可能會想問。模型不是都能輸出很漂亮的答案嗎。對,但漂亮不等於能執行。它可能會寫得像樣,實際上一到 function calling 就亂掉。參數少一個、順序錯一個,整個流程就炸了。

BenchLM 把 agentic 類別放到 22%。這是它整體評分裡最大的一塊。這個權重很誠實。市場現在看的不是誰話術最好,而是誰能在軟體裡把工作做完。

這個分類也很實際。它把能力拆成幾塊:

  • 核心加權 benchmark,直接決定排名
  • 工具呼叫與 MCP 任務,測 function execution
  • 瀏覽器、桌面、手機控制,測真實介面操作
  • 研究與航空等專門工作流

這種拆法很重要。因為 agent 能力很不平均。有的模型在結構化輸出很穩,但一進瀏覽器就卡住。有的在 terminal 很強,到了桌面 UI 又開始手忙腳亂。BenchLM 讓這些差異直接攤開。

驗證榜單才看得到真訊號

BenchLM 說得很明白。現在只顯示有 exact source record 的核心 agent rows。沒有驗證來源的手動資料,不算進 displayed agentic score。這個做法我覺得很對。leaderboard 最怕混進來一堆來源不明的東西。

agent benchmark 本來就容易飄。今天一個版本,明天一個版本。再加上不同資料來源,分數很容易被洗得亂七八糟。把 verified-only 拉出來,至少還能知道自己在看什麼。

榜單前段很擠。OpenAI 佔了前兩名,AnthropicClaude 也有多個版本進前 10。Google Gemini 的 Gemini 3.5 Flash 則落在 77.2。open-weight 也沒缺席,Holo3、DeepSeek、Qwen 都有存在感。

“The ability to use tools and complete multi-step tasks is the strongest differentiator between models in production use.”

這句話出自 BenchLM 的 FAQ。講白了就是。模型會聊天沒什麼稀奇。能不能用工具、能不能跑完多步驟流程,才是生產環境的分水嶺。

先看幾個 verified 排名的高分:

  • GPT-5.5 Pro — 90.1
  • GPT-5.4 Pro — 89.3
  • Holo3-35B-A3B — 82.6
  • Claude Mythos Preview — 82.4
  • GPT-5.5 — 81.5
  • Claude Opus 4.8 — 80.1

這個落差有意思。第一名和最佳 open-weight 差了 7.5 分。對產品團隊來說,這已經夠影響選型了。尤其你如果要做自動化客服、資料處理,或者內部系統操作,這種差距會直接反映在 retry 次數上。

核心 benchmark 組合,透露模型怎麼做事

BenchLM 的 agentic 分數,是三個 benchmark 的加權平均。Terminal-Bench 2.0 佔 40%。OSWorld-Verified 佔 35%。BrowseComp 佔 25%。這個權重很像在說。終端機最重要,桌面控制其次,網頁研究也不能忽略。

BenchLM 2026:AI Agent 模型排行

這也解釋了為什麼有些模型排名會跳。終端機強的模型,會因為 code execution 穩而往上爬。UI 做得好的模型,也可能因為 terminal 不行而掉分。單看總分,很容易誤判。

幾個例子很能看出差異:

  • Claude Opus 4.8 在 Terminal-Bench 2.0 是 74.6,在 OSWorld-Verified 是 83.4
  • DeepSeek V4 Pro (Max) 在 Terminal-Bench 2.0 是 67.9,在 BrowseComp 是 83.4
  • Qwen3.7 Max 的 overall 是 69.7,表格顯示總欄位有 92
  • GPT-5.4 mini 的 overall 是 65.6,Terminal-Bench 2.0 是 60,OSWorld-Verified 是 72.1

這些數字很像在提醒你。沒有哪個模型是全能的。你要做的是找出你的工作流最怕哪種失誤。是查錯資料。還是下錯指令。還是卡在 UI 轉換。答案不同,模型選擇就不同。

工具呼叫和 MCP,現在是正規考題

BenchLM 不只看總分。它也追蹤工具使用與 function calling 的 benchmark。像是 BFCL v4Toolathlon,還有 MCP 相關測試,像 MCP Atlas 和 MCP-Tasks。

這些測試很貼近現在的產品實作。因為真正麻煩的不是讓模型講話。是讓它選對工具。再把對的參數塞進去。出錯時還能自己修正。這一段才是 agent 工程最花時間的地方。

如果模型只會吐漂亮文字,實際上還是很脆。它可能在第一步就把 API 格式打歪。也可能在第二步忘了前面查過什麼。這種錯不會出現在一般聊天評測裡,但在真實產品裡會一直燒你的伺服器和人力。

BenchLM 的 FAQ 也把這件事講得很直接。function calling 讓 LLM 去呼叫外部工具、API 或資料庫。這對搜尋網頁、查資料庫、寄信、控制其他軟體都很重要。這就是現在 agent 的基本門檻。

如果你想看更多評測脈絡,OraCore 也寫過 benchmark 權重為什麼重要,還有 production AI 的 agentic evals。這兩篇跟這份榜單放一起看,會比較完整。

開發者該怎麼看這份榜單

如果你今天要上 agent,這份榜單有一個很實用的價值。它把 hype 和任務適配分開了。會寫字,不代表會做事。分數高,也不代表能直接接你的工具鏈。

我會這樣看。你要混合 terminal 和 browser 工作,就先看 verified 的前段模型。你要 open-weight,就先看 Holo3、DeepSeek、Qwen 這幾個家族。然後一定要自己跑測試。因為 benchmark 贏,不等於你家環境也能贏。

BenchLM 這頁最後更新是 2026 年 5 月 28 日。這很重要。因為 agent 排名變得很快。今天排前面,下一版可能就掉下來。真正值得養成的習慣,不是背榜單。是每次選模型前,先問自己一句:它能不能把這個工作流做完。

如果你在做產品,我會直接給一個建議。先挑一個模型,拿你最常見的 20 個任務去跑。看成功率。看 retry 次數。看每次完成要花多少 Token。這比盯著排行榜更有用,也更省錢。

下一步該看什麼

這份榜單的重點,不是誰第一名。重點是你要把 agent 能力拆開看。工具呼叫、瀏覽器、終端機、桌面控制,這四件事常常不是同一個模型都強。

如果你現在正在選模型,我的建議很簡單。先看你的工作流,再看分數。不要反過來。因為真正上線之後,客戶不會管你用了哪個 benchmark。他們只會問,這個流程為什麼又失敗了。

接下來最值得追的,不是單一模型分數,而是各家在 terminal 和 browser 的穩定度差距會不會縮小。你如果是開發者,現在就該把自己的 agent 任務做成內部小測試。這件事比追新聞更有用。