2026 垂直 LLM 基準地圖

[RSCH] 2026年5月25日3 分鐘閱讀OraCore 編輯部

Kili Technology 整理 2026 垂直 LLM 基準，涵蓋醫療、法律、金融、程式與資安。重點是通用榜單已不足以分出模型差距，採購與合規開始看專業評測。

Kili Technology 整理 2026 年垂直 LLM 基準，涵蓋醫療、法律、金融、程式與資安。

2026 年，Kili Technology 指出，通用測試像 MMLU 和 SWE-Bench 已很難拉開前沿模型差距，團隊開始改看更貼近真實工作的垂直評測。

這份地圖把焦點放在醫療、法務、金融、科學、程式、資安與多語推理。對只看分數的買家來說，訊號很直接：榜單不再只是研究話題，而是採購前的門檻之一。

項目	數值
Publication date	May 21, 2026
HealthBench rubric criteria	48,562
HealthBench physicians	262
LegalBench-RAG pairs	6,858
MMLU-ProX language gap	24.3 points
Claude Opus 4.5 on SWE-Bench Verified	80.9%
Claude Opus 4.5 on SEAL	45.9%

發生了什麼

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

今年的基準測試明顯分裂成多個垂直賽道。醫療看診斷與臨床安全，法律看檢索與條文理解，金融看報表與風險判讀，程式看修 bug，資安看攻防情境，語言能力則要處理多語落差。

這種拆分不是形式變化。當公開排行榜被模型反覆刷高後，它就不太能代表真實能力，反而更像一道及格線，逼團隊去找更細的工作負載。

幾個例子很能說明這件事。HealthBench 用 262 位醫師寫出 48,562 條評分規則，覆蓋 26 個專科與 60 個國家；LegalBench-RAG 則拿 6,858 組問答，測檢索是否真的能在法律語境裡找對內容。

在語言與程式上，差距也被放大。MMLU-ProX 揭出高低資源語言在同題上的 24.3 分落差，而 Claude Opus 4.5 在 SWE-Bench Verified 拿到 80.9%，在 SEAL 只有 45.9%，顯示不同 benchmark 會把同一模型的短板照得很清楚。

對開發者來說，這代表「高分模型」和「可上線模型」之間的距離正在被量化。你可以在通用榜單拿到漂亮成績，但一進到病歷摘要、合約審閱或財報抽取，錯誤常常出在檢索、上下文切分、術語對齊與推理鏈條。

這也改變了產品選型方式。企業不再只問模型誰分數高，而是問它在自己的資料、自己的語言、自己的監管框架裡能不能過關。對醫療、法律和金融這類高風險場景，benchmark 已經開始接近採購清單，而不是研究附錄。

從產業角度看，這會推動更多資料標註、專家審核與審計軌跡工具。當 EU AI Act 與 NIST AI RMF 這類要求進入部署流程，能不能說清楚模型在哪裡失手，往往比單一分數更重要。

真正的問題不是模型有沒有刷榜，而是它在真實案例裡，會不會讓專業使用者願意簽字。

// 相關文章