[IND] 4 分鐘閱讀OraCore 編輯部

5 個 LLM 基準測試

5 個基準測試幫你判斷模型強弱、看懂分數失真,並選出最適合商務採購的測試。

分享 LinkedIn
5 個 LLM 基準測試

這篇整理 5 個 LLM 基準測試,幫你判斷模型強弱、看懂分數失真,並選出最適合商務採購的測試。

LLM 的分數看起來很明確,但到了 2026 年,只有部分測試還能反映真實表現。前沿模型在 GPQA Diamond 已到 94.3%,在 GSM8K 也逼近 99%,所以更重要的是:哪一個測試真的對應你的業務場景。

項目測什麼目前訊號最適合
MMLU57 個學科的廣泛知識頂尖分數 93%通用篩選、中階模型比較
GPQA Diamond博士級科學推理頂尖分數 94.3%高難推理、前沿模型比較
HumanEvalPython 程式生成頂尖分數 93%快速 coding 檢查
SWE-bench Verified真實 GitHub 問題修復頂尖分數 80.8%軟體工程評估
LiveCodeBench抗污染 coding 測試頂尖分數 83.6%持續追蹤 coding 能力

1. MMLU

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

MMLU 是這 5 個裡最廣的通用知識測試,涵蓋 57 個學科、超過 16,000 題選擇題。當你想快速看一個模型能不能處理跨領域提示,這個分數仍然很有用。

5 個 LLM 基準測試

它的問題是開始飽和。前沿模型已推到 93%,所以它更適合區分弱模型與中階模型,不太適合拿來分辨最頂尖的幾個系統。

  • 測量面向:知識與推理
  • 題型:選擇題
  • 適合用途:初步篩選
  • 不適合:最後的前沿排名

2. GPQA Diamond

GPQA Diamond 適合你想測更硬的推理能力。它用生物、化學、物理等專家級題目,仍保留足夠難度來區分頂尖模型。

截至 2026 年 2 月,Gemini 3.1 Pro 以 94.3% 領先,Claude Opus 4.6 為 91.3%,GPT-5.3 Codex 為 81%,Qwen3.5-plus 也接近 88.4%。這種差距表示它在頂端仍有辨識力。

  • 測量面向:高階科學推理
  • 題型:博士級選擇題
  • 適合用途:前沿模型比較
  • 要注意:頂端仍可能逐步飽和

3. HumanEval

HumanEval 仍是最容易理解的 coding 測試,因為它很直觀:164 個 Python 任務,全部靠單元測試驗證。如果你要做 demo、內部初選或快速檢查,這仍是好起點。

5 個 LLM 基準測試

但它已不算強力的前沿區分器。GPT-5.3 Codex 已到 93%,再加上污染問題存在,商務決策上應把它當第一關,而不是最後答案。

  • 測量面向:程式生成
  • 語言:Python
  • 驗證方式:功能單元測試
  • 適合用途:快速基線檢查

4. SWE-bench Verified

SWE-bench Verified 更接近真實軟體工作。它不是孤立題目,而是要求模型修補真實 GitHub issue,模型必須理解上下文、找出 bug,還要產出能通過測試的 patch。

如果你關心開發者效率或 coding agent,這是最值得追的指標之一。Claude Opus 4.6 以 80.8% 領先,MiniMax-M2.5 為 80.2%,Gemini 3.1 Pro 為 80.6%,顯示頂尖系統之間競爭很接近。

  • 測量面向:端到端軟體工程
  • 任務類型:真實 repository issue
  • 適合用途:agentic coding 評估
  • 優勢:比合成題更難作弊

5. LiveCodeBench

LiveCodeBench 適合想要「分數還跟得上現況」的團隊。它會定期更新題庫,降低訓練資料污染,也讓測試能隨著模型進步持續保持價值。

這對追蹤版本更新很重要。Qwen3.5-plus 在第 6 版以 83.6% 領先,而這個數字之所以更有意義,就是因為題庫會變動,較不容易被背題影響

LiveCodeBench 適合:1) 需要抗記憶化的 coding 測試,2) 想按月追蹤分數,3) 想看更貼近當前模型行為的比較。

怎麼挑

如果你要先做廣泛篩選,從 MMLU 開始。若工作重點是高難推理,GPQA Diamond 更有訊號。對軟體團隊來說,HumanEval 可當快速檢查,但真要看實際 coding 能力,SWE-bench Verified 和 LiveCodeBench 更可靠。

最重要的原則很簡單:讓基準測試對應你的工作。只有當題目接近生產任務、資料夠乾淨,而且測試本身還有足夠區分度時,高分才真的有意義。