LoRA 讓 LLM 微調更實用
LoRA 只訓練小型 adapter,就能微調 LLM,省下 VRAM、時間與成本,讓中小團隊也能玩得起。

LoRA 只訓練小型 adapter 權重,就能微調 LLM,少用 VRAM,也省下訓練成本。
說真的,這招很務實。Exxact 的文章把話講白了:你不用把整個模型重練一次。LoRA 把可訓練參數壓到很小,讓 7B、32B 這種模型,不再只屬於大公司機房。
這篇最有感的地方,是它直接講硬體差多少。全量微調 32B 模型,大概要 512GB VRAM。LoRA 只要約 64GB。QLoRA 更狠,壓到約 16GB。你如果手上只有工作站,這差距就是能不能開工的差距。
| 方法 | 每 1B 參數約需 VRAM | 32B 模型約需 VRAM | 例子 GPU 配置 |
|---|---|---|---|
| Full fine-tuning | ~16 GB | ~512 GB | 4x NVIDIA H200 NVL 或 8x RTX PRO 6000 |
| LoRA (FP16/BF16) | ~2 GB + overhead | ~64 GB | 2x NVIDIA RTX 5090 或 1x RTX PRO 6000 |
| QLoRA (4-bit) | ~0.5 GB + overhead | ~16 GB | 1x NVIDIA RTX 5080 或 1x RTX PRO 4500 |
LoRA 為什麼把微調算式改掉了
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
LoRA,全名是 Low-Rank Adaptation。它的核心很直白。先把基礎模型凍住,只訓練少量 adapter 權重。這樣做的好處,是你不用碰整個 LLM 的所有參數。

全量微調很吃資源。因為你不只更新權重,還要處理 optimizer state、梯度、activation。對大型 LLM 來說,這些東西會一起吃掉 VRAM。LoRA 把訓練範圍縮小到大約 1% 到 2%,整個訓練流程就變得比較像工程問題,不像燒錢比賽。
講白了,LoRA 的思路是:基礎能力交給大模型,任務差異交給小 adapter。你可以把它想成同一台車,換不同的改裝件,而不是每次都重造引擎。
- 可訓練參數只剩一小部分。
- 大部分權重固定,VRAM 壓力下降。
- 訓練步驟更省時間。
- 同一個 base model 可掛多組 adapter。
LoRA 和 QLoRA 差在哪裡
LoRA 和 QLoRA 很像,但記憶體策略不同。LoRA 通常把 base model 以 FP16 或 BF16 載入,再訓練 adapter。QLoRA 則是把 base model 量化到 4-bit,直接把載入成本再往下壓。
這種做法很適合資源有限的團隊。你可能沒有 8 張資料中心 GPU,但你有一台工作站。那 QLoRA 就很香。只是別太樂觀,因為量化會帶來品質與調校上的額外成本。rank、batch size、sequence length,這些參數還是得一個個試。
還有一個常被忽略的點。模型越長,activation memory 越容易爆。就算 base model 已經縮得很小,長上下文還是會把 VRAM 吃回去。這也是為什麼很多人以為「模型放得下」就代表「能訓練」,結果跑到一半才發現不行。
"LoRA allows us to fine-tune large language models efficiently by updating only a small number of parameters instead of retraining the entire model."
這句話很直接。你要的通常不是重造整個模型。你要的是讓模型懂你的資料、你的術語、你的語氣。
所以 rank 這個參數很重要。rank 越高,adapter 容量越大。可是成本也跟著上去。實務上,這就是拿品質和資源做交換。沒有神奇按鈕,只有調參。
這些 VRAM 數字,對實際工作有什麼意思
最有用的不是理論,是硬體門檻。Exxact 提到,7B 模型用 QLoRA,8GB 或 12GB GPU 有機會跑。當然,batch size 不能太大,訓練速度也不會快到哪去。但至少你能開始做實驗。

到了 32B 甚至 70B,事情就不一樣了。這時候,多 GPU 工作站才比較合理。Exxact 提到,2 張 NVIDIA RTX 5090 可以處理 32B 的 LoRA 微調。若用 2 張 NVIDIA RTX PRO 6000 Blackwell,總 VRAM 可到 192GB。
如果再往上堆到 4 張 RTX PRO 6000 Blackwell,總 VRAM 會到 384GB。這種配置,才有機會碰到約 140B 等級的單機訓練。你會發現,LoRA 不只是省記憶體,它還直接改變你能碰的模型大小。
- 7B 模型:QLoRA 可在 8GB 到 12GB GPU 上嘗試。
- 32B 到 70B:多 GPU 工作站開始有意義。
- 4x RTX PRO 6000 Blackwell:總 VRAM 384GB。
- 32B 全量微調:大約 512GB VRAM,門檻很高。
這些數字很殘酷,也很誠實。全量微調不是不能做,而是成本太高。LoRA 的價值,就是把很多原本只能在資料中心做的事,拉回到一般團隊能管理的範圍。
對產品團隊來說,這代表試錯成本下降。你可以針對客服、搜尋、法務摘要、程式碼助理,分別做 adapter。每個任務一組,不用每次都把整個 base model 重來一次。
對團隊流程來說,LoRA 真的比較好管
我覺得 LoRA 最實際的地方,不是省 GPU 而已。是它讓模型管理變簡單。你可以把 base model 當底座,adapter 當版本化資產。這對有多個任務的團隊很重要。
比如說,你今天想調整客服語氣。下週想做內部知識庫問答。下個月又要加法務摘要。用 LoRA 的話,這些改動可以分開管理。壞掉就換 adapter,不用動整個模型核心。
這也讓回滾容易很多。若某個 adapter 在測試集上掉分,你直接替換就好。對軟體團隊來說,這種部署方式比一直改核心權重乾淨太多了。
說白了,LoRA 把微調從「大型專案」變成「可管理的軟體流程」。這才是它真正好用的地方。
跟其他做法比,LoRA 的位置在哪
如果你把方法排一排,邏輯會很清楚。全量微調最自由,但最燒資源。LoRA 把自由度保留一大半,成本卻壓下來。QLoRA 再把記憶體需求往下砍一刀。
這裡可以直接看數字。Full fine-tuning 32B 約 512GB VRAM。LoRA 約 64GB。QLoRA 約 16GB。差距不是一點點,是整個硬體級別不同。你用什麼方法,決定你要買什麼卡。
如果你是台灣團隊,這點更現實。不是每家公司都能直接買資料中心級 GPU。很多時候,工作站、雲端租卡、短期實驗,才是日常。LoRA 剛好卡在這個位置。
- 全量微調:品質彈性高,但硬體壓力最大。
- LoRA:品質與成本之間,通常是最平衡的選項。
- QLoRA:更省 VRAM,但要接受量化帶來的取捨。
- 多 adapter 管理:適合多任務、多部門需求。
如果你要我選,我會先從 LoRA 開始。因為它夠穩,也夠好維護。等你真的卡在 VRAM,再考慮 QLoRA。不要一開始就把系統搞得太複雜。
這波方法論,背後其實是 LLM 工程化
LoRA 之所以受歡迎,不是因為它聽起來酷。是因為它把 LLM 的使用方式,從研究室拉到產品團隊。這點很重要。因為大多數公司要的,不是訓練一個新基座,而是把現成模型改成自己的工具。
這也跟整個 AI 產業的走向有關。基座模型越來越大,單純追參數已經不是每個團隊都玩得起。真正有價值的,往往是資料、流程、評估、部署。LoRA 正好卡在這個位置,讓模型客製化變得可操作。
如果你把它放到更大的脈絡裡看,LoRA 其實是在幫團隊建立一種新的習慣:不要每次都重訓整個模型,先想能不能只改一小塊。這種思考方式,對成本和維運都比較友善。
我會建議,先用 LoRA 做第一版。先驗證資料夠不夠乾淨,任務定義清不清楚,評估指標有沒有設對。等這些都穩了,再談更重的訓練策略。
你現在該怎麼用 LoRA
如果你手上有一個 7B 或 13B 模型,先別急著全量微調。先看你的 GPU 是多少 VRAM,再決定要用 LoRA 還是 QLoRA。這一步很土,但很有效。
如果你的工作是客服、分類、摘要、內部知識問答,LoRA 通常已經夠用。你真正缺的,多半不是訓練規模,而是資料整理和評估流程。模型不是魔法,資料才是。
所以我的建議很簡單。先用 LoRA 跑一版,確認效果。再看要不要升到 QLoRA,或回頭調 rank、batch size、sequence length。別一開始就追求最猛配置,先把流程跑通比較重要。
LoRA 不是要取代所有微調方式。它是讓更多團隊有機會真的開始做。這件事本身,就很有價值。