2026 垂直 LLM 基準地圖
Kili Technology 整理 2026 垂直 LLM 基準,涵蓋醫療、法律、金融、程式與資安。重點是通用榜單已不足以分出模型差距,採購與合規開始看專業評測。

Kili Technology 整理 2026 年垂直 LLM 基準,涵蓋醫療、法律、金融、程式與資安。
2026 年,Kili Technology 指出,通用測試像 MMLU 和 SWE-Bench 已很難拉開前沿模型差距,團隊開始改看更貼近真實工作的垂直評測。
這份地圖把焦點放在醫療、法務、金融、科學、程式、資安與多語推理。對只看分數的買家來說,訊號很直接:榜單不再只是研究話題,而是採購前的門檻之一。
| 項目 | 數值 |
|---|---|
| Publication date | May 21, 2026 |
| HealthBench rubric criteria | 48,562 |
| HealthBench physicians | 262 |
| LegalBench-RAG pairs | 6,858 |
| MMLU-ProX language gap | 24.3 points |
| Claude Opus 4.5 on SWE-Bench Verified | 80.9% |
| Claude Opus 4.5 on SEAL | 45.9% |
發生了什麼
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
今年的基準測試明顯分裂成多個垂直賽道。醫療看診斷與臨床安全,法律看檢索與條文理解,金融看報表與風險判讀,程式看修 bug,資安看攻防情境,語言能力則要處理多語落差。

這種拆分不是形式變化。當公開排行榜被模型反覆刷高後,它就不太能代表真實能力,反而更像一道及格線,逼團隊去找更細的工作負載。
幾個例子很能說明這件事。HealthBench 用 262 位醫師寫出 48,562 條評分規則,覆蓋 26 個專科與 60 個國家;LegalBench-RAG 則拿 6,858 組問答,測檢索是否真的能在法律語境裡找對內容。
在語言與程式上,差距也被放大。MMLU-ProX 揭出高低資源語言在同題上的 24.3 分落差,而 Claude Opus 4.5 在 SWE-Bench Verified 拿到 80.9%,在 SEAL 只有 45.9%,顯示不同 benchmark 會把同一模型的短板照得很清楚。
- HealthBench:48,562 條 rubric,262 位醫師參與
- LegalBench-RAG:6,858 組專家標註問答
- MMLU-ProX:同題多語比較出 24.3 分差距
- Claude Opus 4.5:SWE-Bench Verified 80.9%,SEAL 45.9%
為什麼重要
對開發者來說,這代表「高分模型」和「可上線模型」之間的距離正在被量化。你可以在通用榜單拿到漂亮成績,但一進到病歷摘要、合約審閱或財報抽取,錯誤常常出在檢索、上下文切分、術語對齊與推理鏈條。

這也改變了產品選型方式。企業不再只問模型誰分數高,而是問它在自己的資料、自己的語言、自己的監管框架裡能不能過關。對醫療、法律和金融這類高風險場景,benchmark 已經開始接近採購清單,而不是研究附錄。
從產業角度看,這會推動更多資料標註、專家審核與審計軌跡工具。當 EU AI Act 與 NIST AI RMF 這類要求進入部署流程,能不能說清楚模型在哪裡失手,往往比單一分數更重要。
真正的問題不是模型有沒有刷榜,而是它在真實案例裡,會不會讓專業使用者願意簽字。