[TOOLS] 3 分鐘閱讀OraCore 編輯部

2026 LLM 排行榜更新:誰領先

Vellum 於 2026 年 5 月 29 日更新 LLM 排行榜,加入新 benchmark、速度與價格比較,方便開發者按任務挑模型。

分享 LinkedIn
2026 LLM 排行榜更新:誰領先

Vellum 在 2026 年 5 月 29 日更新 LLM 排行榜,加入最新 benchmark、速度與價格資料,方便開發者比對模型。

Vellum 於 2026 年 5 月 29 日更新 LLM Leaderboard,只看 2024 年 4 月之後發布的公開模型版本。這頁把推理、數學、程式、語言、多模態、速度、延遲、成本與上下文長度放在一起比。

項目數值
更新日期29 May 2026
推理冠軍Claude 3 Opus,95.4%
數學冠軍Gemini 3 Pro,100%
程式冠軍Claude Opus 4.8,88.6%
總榜冠軍Claude Opus 4.8,57.9%
最快模型Llama 4 Scout,2600 t/s
最低延遲GPT-5.3 Codex,0.003 秒
最低標價Nova Micro,$0.04 / $0.14 per 1M tokens

發生了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

這次更新把舊測試拿掉,像 MMLU 這類已經太擁擠的指標不再是主角。Vellum 表示,它會混合供應商公布數字、自家評測和開源社群結果,再按任務分數排序。

2026 LLM 排行榜更新:誰領先

榜單也把差異拉得更清楚。AnthropicClaude 3 Opus 在 GPQA Diamond 推理拿到 95.4%,GoogleGemini 3 Pro 在 AIME 2025 數學測到 100%,OpenAI 的 GPT-5.5 則在 ARC-AGI 2 視覺推理拿到 85%。

程式與代理任務的排序也很明確。Claude Opus 4.8 在 SWE-Bench 拿到 88.6%,而在 Humanity’s Last Exam 上以 57.9% 躍居總榜第一。速度面則是 Meta 的 Llama 4 Scout 以 2600 tokens/sec 取勝,延遲最低的是 GPT-5.3 Codex,TTFT 只有 0.003 秒。

  • 最佳視覺推理:GPT-5.5,ARC-AGI 2 為 85%。
  • 最佳多語言推理:Gemini 3 Pro,MMMLU 為 91.8%。
  • 最快列示模型:Llama 4 Scout,2600 tokens/sec。
  • 最低延遲:GPT-5.3 Codex,TTFT 0.003 秒。

為什麼重要

對開發者來說,這類榜單最有用的地方不是看誰第一,而是看誰適合你的工作流。做 coding agent 的團隊會先看 Claude Opus 4.8,數學密集型工具會偏向 Gemini 3 Pro,成本敏感產品則會把 token 價格和速度一起算。

2026 LLM 排行榜更新:誰領先

這也反映出模型選型已經變成取捨題。某些模型分數高,但輸入和輸出單價也高;另一些模型很便宜、很快,卻在難題上掉分。對採購和產品團隊來說,這比單看一個總分更接近真實部署。

Vellum 另外還把個人 AI harness 放進比較,列出 Hermes、OpenClaw、Claude Cowork 和自家產品在安裝、記憶、資安、託管、整合、排程與價格上的差異。這讓榜單不只是在比模型,也是在比「怎麼把模型用進生產環境」。

一句話總結:現在沒有單一最佳 LLM,只有最適合推理、程式、數學、延遲或成本的選擇。問題只剩一個,你的團隊會先用哪個指標決定預設模型?