21 個域專用 LLM 讓通用 AI 變專家

OraCore Editors

返回首頁

[TOOLS] 2026年5月21日11 分鐘閱讀OraCore 編輯部

21 個域專用 LLM 讓通用 AI 變專家

我把 InfoWorld 的 21 個域專用 LLM 名單拆成可直接套用的選型、訓練與上線模板。

分享 LinkedIn

我把 InfoWorld 的 21 個域專用 LLM 名單拆成可直接套用的選型、訓練與上線模板。

我用通用 LLM 一陣子了，越用越有一種很煩的熟悉感：它什麼都能講兩句，什麼都像懂，偏偏一碰到真正要命的領域就開始飄。法務文字會變軟，醫療語氣會變空，資安分析像在寫部落格評論。最氣的是，它不是不會回，它是回得太順，順到你一開始還會懷疑是不是自己太挑。

後來我看到 Peter Wayner 在 InfoWorld 的這篇 21 LLMs tuned for special domains，整個感覺就很對。這不是在吹某個更大的聊天機器人，而是在講反方向：不要再逼一個泛用模型扮演萬能專家，乾脆把它鎖進一個領域、一種資料、一種任務。這篇沒有給我漂亮口號，只有一個很實際的提醒：專精才是產品，不是附加功能。

別再幻想一個模型包辦所有事

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

“The best teams are building specialized models for niches—one for the doctors, one for the lawyers, one for the bankers, and so on.”

翻譯一下就是：真正聰明的團隊，早就不想拿一個模型去硬扛全部場景了。泛用模型可以在很多地方看起來像會，但只要錯誤成本一上來，這種「什麼都懂一點」就會變成負擔。醫療、法律、金融、資安這些領域，不是答得漂亮就算數，錯一點都可能出事。

我在產品開發裡看過太多這種設計：一個 AI 助手同時要回客服、讀內部文件、做合規摘要、還要幫分析報表。規格書看起來很省，實作後就開始地獄模式。prompt 越寫越長，guardrail 越加越醜，結果模型還是會在最重要的地方失手。把問題拆成領域任務之後，品質通常立刻上來，因為模型終於不用猜「好答案」到底長什麼樣。

Wayner 這篇把這件事講得很直白：不是拿一艘超級油輪去城市裡轉彎，而是該為不同道路做不同車子。

實操寫法很簡單：先列出你手上最貴的三種錯誤情境。如果你的 assistant 會碰法務審查、臨床支援或威脅情資，不要讓它跟一般內容工具共用同一條模型路徑。先把使用情境切開，再決定每條路要不要獨立 fine-tune，還是加 retrieval 就夠。

泛用模型拿來做 draft、分流、初步整理。
領域模型拿來做最終答案、抽取、分類。
專家路徑要夠窄，才有辦法真的評估。

模型變小，不代表變弱，常常只是比較不浪費

Wayner 提到專精不只為了準，還為了效率。這點我很認同，因為很多架構 review 都會假裝 inference cost 是別人的事，直到帳單來敲門。小而專的模型通常比較省，這不是小氣，是工程現實。

他也提到，有些大模型其實底層就是一群小專家在合作。這件事很值得記住，因為很多團隊太愛拜參數量了。大不等於好，有時候只是你花很多錢去喚醒一堆根本用不到的知識。

我自己看過最典型的狀況，是有人拿一個超大的模型去跑很窄的流程，像合約條款抽取或醫療摘要。Demo 當然能跑，但一上線使用量一多，延遲和成本就開始磨人。最後常常不是模型不行，而是你拿錯尺寸的工具去做固定工作。

實操寫法：把模型大小當成 scope control。任務邊界清楚，就把模型邊界也收緊。真的需要廣度，再考慮 routing 或 MoE，而不是一開始就丟一個巨無霸。若你要做量化或本地部署，先拿真實任務測品質，不要拿泛用 benchmark 自我安慰。

先用一條真實 workflow 量 latency 和 cost。
量化前先定可接受的準確率底線。
領域穩定時，優先選小型專用模型。

訓練資料集，才是你真正的產品

Wayner 講得很準：難的不是模型，是 training corpus。模型只是表面那層好看的東西，資料集才決定你吐出來的是實用答案，還是排版很整齊的胡說八道。文中提到不少案例都請 subject-matter experts 來建 ontology、驗答案，這不是額外工作，這就是主工作。

很多「我們就 fine-tune 一下」的計畫，最後都死在資料品質。資料髒，模型就學髒；標註亂，模型就學會亂得更有文法；參考來源不可信，最後就會得到一個很像專家、其實一直偏掉的系統。這種東西最危險，因為它講話太像真的。

我之前碰過一個法律助理專案，團隊想用內部合約歷史去訓練。第一輪 demo 超漂亮，因為挑的例子都很乾淨。結果一擴大資料範圍，整個地雷區就露出來了：條款版本衝突、舊模板沒清、紅線修到一半、不同部門用詞不一致。模型不是架構錯，而是知識底盤本來就爛。

實操寫法：把花在 corpus 設計上的時間拉高到比選模型還多。先定 source policy，定義什麼叫 ground truth，再找 domain expert 盯邊界案例。如果你說不出一份文件為什麼該進訓練集，那它大概率不該進。

先按來源品質篩資料，不要只看量。
每筆資料都要留 provenance。
有歧義的標註，先讓專家過一輪再訓練。

專用模型要的是驗證，不是感覺良好

Wayner 對 hallucination 的態度很直接：有嚴肅問題的使用者，不會容忍亂編。這也是專用模型存在的理由。做法務或醫療的系統，不能只做到「差不多」，它得可追溯、可檢查，而且要在該安靜的地方安靜。

所以文章裡很多例子都會搭人審或受限流程。像 EvenUp 這類工具會先產出草稿，再交給人 review。這不是弱，這是它知道風險在哪裡。反而是那種什麼都想全自動的設計，常常才最不負責任。

我覺得很多團隊還是想要 AI 魔術秀：按一下，直接出答案，然後就上線。領域系統不是這樣玩的。它需要 guardrail、citation check、escalation path，還要有一個明確的「我不知道」。沒有這些，就不是專家系統，只是帶自動補字的風險機器。

實操寫法：從第一天就把驗證塞進 workflow，不要等出事才補。事實性陳述要要求引用，會影響金錢、健康、法律地位的輸出要設 confidence threshold，風險高的結果一定要人審。若你在受監管領域，review path 應該是產品的一部分，不是例外。

我自己最常用的幾個模式很土，但很有效：

RAG 用來 grounding。
Structured extraction 用來做可重複輸出。
Human approval 用在任何會改變錢、健康、法律狀態的動作。

先看資料和任務，再看品牌名

Wayner 列的例子很雜：有專有系統、有開源權重、有研究專案。這個混搭其實很重要，因為它提醒我，專精不是一種品牌風格，而是一種資料與任務的對齊。像 Hugging Face 上的模型、GitHub 上的 repo、還有文中提到的 Mistral、Microsoft、Google Cloud，名字都很大，但真正該問的是：它到底讀了什麼、誰驗過、要解什麼任務。

這也是我最想提醒台灣團隊的一件事：不要先問「哪個模型最紅」，先問「它的 corpus 是什麼、誰驗證過、失敗模式有沒有被量過」。一個用 PubMed abstract 訓練的模型，跟一個用臨床 guideline 訓練的模型，不是同一種東西。金融也是一樣，拿泛用聊天模型加個 finance prompt，不等於你有金融專家。

我看過不少團隊先買 demo 再補問題，結果發現模型其實是解鄰近問題，不是他們真正要的問題。這種落差通常不會在第一週爆，會在你要上線、要負責、要對結果簽名的時候才爆，而且修起來更貴。

實操寫法：做一份 procurement checklist，先問資料血統，再問評估方式。至少問三件事：訓練用什麼 corpus、誰驗過、測了哪些 failure mode。如果廠商答不清楚，我會直接往下一家走。

先問 corpus provenance。
再問 domain expert review。
最後問 task-specific eval，不要只看泛用 benchmark。

選對專精類型，比硬塞一個大模型重要

我喜歡 Wayner 這篇的另一個點：它沒有把所有 specialization 混成一鍋。分類、生成、推理、檢索、模擬，本來就是不同工作。很多團隊會把這些都想塞進同一個模型，最後做出一個什麼都能碰一下、什麼都不精的怪物。

像 ClimateBERT 主要是抓和分類 climate-related text，這跟寫政策 memo 完全是兩件事。GNoME 甚至不是傳統 LLM，而是圖神經網路，用在材料發現。Earth-2 則偏向氣候模擬與預測。這些都可以叫專用 AI，但根本不是同一類東西。

我一直覺得很多團隊會把界線弄糊：想要同一個模型同時做摘要、分類、推理、流程自動化。結果就是系統越堆越胖，卻沒有一個地方真的好用。比較乾脆的做法，是讓每個模型做它最擅長的思考型態。

實操寫法：先 map task，再 map model。抽取就用抽取導向的模型或 pipeline；推理就測推理模型；模擬就別再拿 chat interface 硬湊。介面不是能力，這句話我真的想刻在很多 PRD 上。

我通常這樣切：

分類與偵測：小型領域微調模型。
撰寫與解釋：有 grounding 的生成模型。
模擬與預測：專門的科學或統計模型。

可抄的模板

# Domain LLM selection template

## 1) Define the job
- Primary task:
- Secondary task:
- What counts as a wrong answer:
- What the model is allowed to do:
- What the model must never do:

## 2) Choose the specialization type
- [ ] Classification / extraction
- [ ] Drafting / generation
- [ ] Reasoning / planning
- [ ] Retrieval / search
- [ ] Simulation / forecasting

## 3) Build the corpus
- Source systems:
- Trusted references:
- Excluded sources:
- Expert reviewers:
- Labeling rules:
- Provenance tracking:

## 4) Pick the model path
- Base model:
- Fine-tune method:
- Retrieval layer:
- Quantization target:
- Hosting target:
- Human review step:

## 5) Evaluate on real cases
- Gold set size:
- Acceptance threshold:
- Hallucination checks:
- Citation checks:
- Latency target:
- Cost per request target:

## 6) Ship with guardrails
- Confidence threshold:
- Escalation rules:
- Audit logging:
- Fallback behavior:
- Human approval required for:

## 7) Prompt skeleton
You are a domain assistant for [domain].
Use only approved sources: [sources].
If evidence is missing, say so.
Cite the source for every factual claim.
Prefer concise answers.
Flag uncertain or risky outputs.

## 8) Review checklist
- Did the answer stay inside the domain?
- Did it cite approved sources?
- Did it avoid unsupported claims?
- Would a domain expert sign off on it?
- Would I ship this in production?

這段就是我會直接丟給團隊的版本。它先逼你回答最 boring 的問題，而這些問題通常才是專案翻車的地方。你如果連 job 都講不清楚，其實不是缺更好的模型，你是缺更好的 spec。

原始來源是 Peter Wayner 的 InfoWorld 文章 21 LLMs tuned for special domains。我這篇是從他的名單和觀點延伸成可直接套用的工作模板，實作建議與選型流程是我自己的整理。

// 相關文章

21 個域專用 LLM 讓通用 AI 變專家

別再幻想一個模型包辦所有事

訂閱 AI 趨勢週報

模型變小，不代表變弱，常常只是比較不浪費

訓練資料集，才是你真正的產品

專用模型要的是驗證，不是感覺良好

先看資料和任務，再看品牌名

選對專精類型，比硬塞一個大模型重要

可抄的模板

Nvidia 和 LG 把 AI 合作變成模板

Ollama 是 2026 年真正適合工作的免費 AI 路徑

這份 MLOps 清單把混亂拆成堆疊

BentoML 把模型服務變成 Python API

Magenta RealTime 2 讓你在 DAW 裡即時改曲

開源 AI 工具在價值上已經贏過 Claude 付費方案