5 個 LLM 基準測試

OraCore Editors

返回首頁

[IND] 2026年5月19日4 分鐘閱讀OraCore 編輯部

5 個 LLM 基準測試

5 個基準測試幫你判斷模型強弱、看懂分數失真，並選出最適合商務採購的測試。

SWE-bench Verified LLM benchmarks

分享 LinkedIn

這篇整理 5 個 LLM 基準測試，幫你判斷模型強弱、看懂分數失真，並選出最適合商務採購的測試。

LLM 的分數看起來很明確，但到了 2026 年，只有部分測試還能反映真實表現。前沿模型在 GPQA Diamond 已到 94.3%，在 GSM8K 也逼近 99%，所以更重要的是：哪一個測試真的對應你的業務場景。

項目	測什麼	目前訊號	最適合
MMLU	57 個學科的廣泛知識	頂尖分數 93%	通用篩選、中階模型比較
GPQA Diamond	博士級科學推理	頂尖分數 94.3%	高難推理、前沿模型比較
HumanEval	Python 程式生成	頂尖分數 93%	快速 coding 檢查
SWE-bench Verified	真實 GitHub 問題修復	頂尖分數 80.8%	軟體工程評估
LiveCodeBench	抗污染 coding 測試	頂尖分數 83.6%	持續追蹤 coding 能力

1. MMLU

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

MMLU 是這 5 個裡最廣的通用知識測試，涵蓋 57 個學科、超過 16,000 題選擇題。當你想快速看一個模型能不能處理跨領域提示，這個分數仍然很有用。

它的問題是開始飽和。前沿模型已推到 93%，所以它更適合區分弱模型與中階模型，不太適合拿來分辨最頂尖的幾個系統。

測量面向：知識與推理
題型：選擇題
適合用途：初步篩選
不適合：最後的前沿排名

2. GPQA Diamond

GPQA Diamond 適合你想測更硬的推理能力。它用生物、化學、物理等專家級題目，仍保留足夠難度來區分頂尖模型。

截至 2026 年 2 月，Gemini 3.1 Pro 以 94.3% 領先，Claude Opus 4.6 為 91.3%，GPT-5.3 Codex 為 81%，Qwen3.5-plus 也接近 88.4%。這種差距表示它在頂端仍有辨識力。

測量面向：高階科學推理
題型：博士級選擇題
適合用途：前沿模型比較
要注意：頂端仍可能逐步飽和

3. HumanEval

HumanEval 仍是最容易理解的 coding 測試，因為它很直觀：164 個 Python 任務，全部靠單元測試驗證。如果你要做 demo、內部初選或快速檢查，這仍是好起點。

但它已不算強力的前沿區分器。GPT-5.3 Codex 已到 93%，再加上污染問題存在，商務決策上應把它當第一關，而不是最後答案。

測量面向：程式生成
語言：Python
驗證方式：功能單元測試
適合用途：快速基線檢查

4. SWE-bench Verified

SWE-bench Verified 更接近真實軟體工作。它不是孤立題目，而是要求模型修補真實 GitHub issue，模型必須理解上下文、找出 bug，還要產出能通過測試的 patch。

如果你關心開發者效率或 coding agent，這是最值得追的指標之一。Claude Opus 4.6 以 80.8% 領先，MiniMax-M2.5 為 80.2%，Gemini 3.1 Pro 為 80.6%，顯示頂尖系統之間競爭很接近。

測量面向：端到端軟體工程
任務類型：真實 repository issue
適合用途：agentic coding 評估
優勢：比合成題更難作弊

5. LiveCodeBench

LiveCodeBench 適合想要「分數還跟得上現況」的團隊。它會定期更新題庫，降低訓練資料污染，也讓測試能隨著模型進步持續保持價值。

這對追蹤版本更新很重要。Qwen3.5-plus 在第 6 版以 83.6% 領先，而這個數字之所以更有意義，就是因為題庫會變動，較不容易被背題影響。

LiveCodeBench 適合：1) 需要抗記憶化的 coding 測試，2) 想按月追蹤分數，3) 想看更貼近當前模型行為的比較。

怎麼挑

如果你要先做廣泛篩選，從 MMLU 開始。若工作重點是高難推理，GPQA Diamond 更有訊號。對軟體團隊來說，HumanEval 可當快速檢查，但真要看實際 coding 能力，SWE-bench Verified 和 LiveCodeBench 更可靠。

最重要的原則很簡單：讓基準測試對應你的工作。只有當題目接近生產任務、資料夠乾淨，而且測試本身還有足夠區分度時，高分才真的有意義。

// 相關文章

5 個 LLM 基準測試

1. MMLU

訂閱 AI 趨勢週報

2. GPQA Diamond

3. HumanEval

4. SWE-bench Verified

5. LiveCodeBench

怎麼挑

WebX 2026 把聲量拆成會議簡報

AI 週報：2026-07-06 ~ 2026-07-13

AI Act 應被視為歐洲 AI 的作業系統

Booz Allen 的 OpenAI 合作是真優勢，不是噱頭

OpenSearch 向量搜尋基準的 5 種跑法

4 種能上線的向量資料庫選擇