2026 LLM 排行榜更新：誰領先

OraCore Editors

返回首頁

[TOOLS] 2026年6月1日3 分鐘閱讀OraCore 編輯部

2026 LLM 排行榜更新：誰領先

Vellum 於 2026 年 5 月 29 日更新 LLM 排行榜，加入新 benchmark、速度與價格比較，方便開發者按任務挑模型。

OpenAI benchmark LLM Claude Gemini

分享 LinkedIn

Vellum 在 2026 年 5 月 29 日更新 LLM 排行榜，加入最新 benchmark、速度與價格資料，方便開發者比對模型。

Vellum 於 2026 年 5 月 29 日更新 LLM Leaderboard，只看 2024 年 4 月之後發布的公開模型版本。這頁把推理、數學、程式、語言、多模態、速度、延遲、成本與上下文長度放在一起比。

項目	數值
更新日期	29 May 2026
推理冠軍	Claude 3 Opus，95.4%
數學冠軍	Gemini 3 Pro，100%
程式冠軍	Claude Opus 4.8，88.6%
總榜冠軍	Claude Opus 4.8，57.9%
最快模型	Llama 4 Scout，2600 t/s
最低延遲	GPT-5.3 Codex，0.003 秒
最低標價	Nova Micro，$0.04 / $0.14 per 1M tokens

發生了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

這次更新把舊測試拿掉，像 MMLU 這類已經太擁擠的指標不再是主角。Vellum 表示，它會混合供應商公布數字、自家評測和開源社群結果，再按任務分數排序。

榜單也把差異拉得更清楚。Anthropic 的 Claude 3 Opus 在 GPQA Diamond 推理拿到 95.4%，Google 的 Gemini 3 Pro 在 AIME 2025 數學測到 100%，OpenAI 的 GPT-5.5 則在 ARC-AGI 2 視覺推理拿到 85%。

程式與代理任務的排序也很明確。Claude Opus 4.8 在 SWE-Bench 拿到 88.6%，而在 Humanity’s Last Exam 上以 57.9% 躍居總榜第一。速度面則是 Meta 的 Llama 4 Scout 以 2600 tokens/sec 取勝，延遲最低的是 GPT-5.3 Codex，TTFT 只有 0.003 秒。

最佳視覺推理：GPT-5.5，ARC-AGI 2 為 85%。
最佳多語言推理：Gemini 3 Pro，MMMLU 為 91.8%。
最快列示模型：Llama 4 Scout，2600 tokens/sec。
最低延遲：GPT-5.3 Codex，TTFT 0.003 秒。

為什麼重要

對開發者來說，這類榜單最有用的地方不是看誰第一，而是看誰適合你的工作流。做 coding agent 的團隊會先看 Claude Opus 4.8，數學密集型工具會偏向 Gemini 3 Pro，成本敏感產品則會把 token 價格和速度一起算。

這也反映出模型選型已經變成取捨題。某些模型分數高，但輸入和輸出單價也高；另一些模型很便宜、很快，卻在難題上掉分。對採購和產品團隊來說，這比單看一個總分更接近真實部署。

Vellum 另外還把個人 AI harness 放進比較，列出 Hermes、OpenClaw、Claude Cowork 和自家產品在安裝、記憶、資安、託管、整合、排程與價格上的差異。這讓榜單不只是在比模型，也是在比「怎麼把模型用進生產環境」。

一句話總結：現在沒有單一最佳 LLM，只有最適合推理、程式、數學、延遲或成本的選擇。問題只剩一個，你的團隊會先用哪個指標決定預設模型？

// 相關文章

2026 LLM 排行榜更新：誰領先

發生了什麼

訂閱 AI 趨勢週報

為什麼重要

Magenta RealTime 2 讓你在 DAW 裡即時改曲

開源 AI 工具在價值上已經贏過 Claude 付費方案

500 個 AI agent 專案，現在能做什麼

Chocolatey 的 Go 安裝變成政策

Go 支援政策把發版變清單

RustDesk 自架遠端存取部署指南