Unsloth 讓 Qwen3.5 可分層微調
Unsloth 新增 Qwen3.5 視覺模型分層微調,能只訓練 vision、language、attention 或 MLP。VRAM 更省,訓練也更快,對多模態團隊很實用。

Unsloth 最近把 Qwen3.5 的微調玩得更細。文件寫得很直接:Qwen3.5-35B-A3B 的 bf16 LoRA,大概要 74GB VRAM。小一點的模型,甚至可壓到 3GB 到 22GB。這不是小修小補,這是把多模態訓練的門檻往下拉。
更有意思的是控制粒度。現在你可以只訓練 vision layers,也可以只訓練 language layers。你甚至能只動 attention 或 MLP blocks。講白了,就是不用每次都把整個模型翻新一遍,省錢也省時間。
對台灣團隊來說,這種改法很實際。很多人不是沒資料,而是 GPU 不夠大。能少吃 50% VRAM,常常就決定你是能跑實驗,還是只能排隊等機器。
Qwen3.5 這次到底改了什麼
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
Qwen3.5 不是單一模型,而是一整個家族。它涵蓋 0.8B、2B、4B、9B、27B、35B-A3B,還有 122B-A10B。這代表它可以從輕量聊天,到高成本推理,一路往上接。

Unsloth 這次支援的範圍也很完整。文件提到 text、vision,還有 reinforcement learning 工作流。對想做同一套 pipeline 的團隊,這很方便。你可以先做聊天,再做文件理解,最後再碰 agent 類訓練。
最吸睛的數字是速度。Unsloth 說,Qwen3.5 的訓練大約比 FA2 setups 快 1.5 倍,VRAM 也少 50%。這種差距很現實。租 GPU 的帳單會直接變小,排程壓力也會少很多。
- Qwen3.5-0.8B bf16 LoRA:約 3GB VRAM
- Qwen3.5-2B bf16 LoRA:約 5GB VRAM
- Qwen3.5-4B bf16 LoRA:約 10GB VRAM
- Qwen3.5-9B bf16 LoRA:約 22GB VRAM
- Qwen3.5-27B bf16 LoRA:約 56GB VRAM
這些數字很有感。4B 模型只要 10GB VRAM,單卡就有機會玩。27B 來到 56GB,已經進入認真玩硬體的範圍。但它還沒到那種非得上大叢集才碰得動的程度。
為什麼分層微調很重要
這次最有價值的地方,不是單純把模型支援補齊。真正有料的是分層控制。你可以只動 vision layers,只動 language layers,或只動 attention、MLP。這讓微調不再是整包打包帶走。
多模態模型最麻煩的地方,就是一邊是影像,一邊是文字。很多情況下,影像端需要適應新資料,但文字端其實已經夠穩。你如果整個模型都改,常常是在做多餘的事,還可能把原本正常的語言行為弄歪。
這種設計很適合幾種場景。像醫療影像、工業檢測、文件解析,都很吃局部調整。你要的是更準的視覺理解,不是把整個語言能力也一起重訓。
“The future of AI will be the era of the foundation model.” — Jensen Huang, NVIDIA GTC 2023 keynote
我會把這句話翻成白話:基礎模型不再是死板成品。它更像積木。你今天只換一塊,明天再換另一塊。這次 Unsloth 的更新,就是把積木化做得更細。
而且它預設把這些選項都打開。這對新手很友善。你不用先理解一堆內部結構,直接跑就行。但對老手來說,能關掉不需要的部分,通常就代表更少的浪費。
MoE、RL 與硬體現實
Qwen3.5 還有 MoE 模型,例如 35B-A3B 和 122B-A10B。Unsloth 說,它對這些模型也有支援,而且最近的 MoE 訓練改進很猛。文件提到速度約快 12 倍,VRAM 少 35% 以上,context 也能拉長到約 6 倍。

這些數字很像工程師才會在意的東西,但其實很重要。長 context 一旦上來,記憶體就會先爆。能把上下文拉長,通常比單純多幾個 benchmark 分數更有用。
但限制也很明確。Unsloth 建議 MoE 微調用 bf16。它不建議 MoE QLoRA,原因是 BitsandBytes 的限制。Router layer 的微調也預設關掉,主要是穩定性考量。說白了,這套東西能玩,但不是無腦亂開。
- Qwen3.5-35B-A3B bf16 LoRA:74GB VRAM
- Qwen3.5-122B-A10B bf16 LoRA:256GB VRAM
- Qwen3.5 支援 201 種語言
- Full fine-tuning 約比 LoRA 多吃 4 倍 VRAM
- Unsloth 宣稱訓練比 FA2 快 1.5 倍
如果你是做產品的人,這些數字會直接影響決策。35B-A3B 已經不是一般單卡能輕鬆處理的等級。122B-A10B 更是直接把硬體門檻拉高。這時候問題不再是「能不能微調」,而是「哪個版本最划算」。
和其他方案比,差在哪裡
很多人會把微調工具想成只有訓練腳本。其實差很多。你要看的是 VRAM、速度、匯出、部署,還有出問題時好不好查。Unsloth 這次的優勢,是把這幾件事都串起來了。
如果拿傳統全量微調來比,LoRA 本來就比較省。Unsloth 再往下切,等於把省資源這件事做得更細。你可以只調需要的層,少掉很多沒必要的梯度更新。
和一般 QLoRA 工作流比,Qwen3.5 這次反而不太適合走 4-bit。文件明講,Qwen3.5 的 dense 和 MoE 版本,都不太適合 QLoRA。原因是量化差異比平常大。這點很重要,因為便宜不一定划算,尤其是你還得花時間 debug。
- 全量 fine-tuning:VRAM 壓力最高
- 一般 LoRA:成本較低,但仍會更新較多參數
- 分層微調:只改需要的模組,控制更細
- QLoRA:對 Qwen3.5 不一定適合
- MoE QLoRA:Unsloth 不建議
我覺得這裡最實際的差別,是試錯成本。你如果每次都整包訓練,跑一次就很貴。現在可以先凍住 text stack,只動 vision,或反過來。這對做實驗的人,真的差很多。
部署和工具鏈也沒漏掉
訓練只是第一步。真正麻煩的是後面。模型怎麼匯出,怎麼跑在本地,怎麼丟到伺服器,這些才是日常工作會踩雷的地方。Unsloth 這次也把這條路補得很完整。
它支援匯出到 llama.cpp 和 Ollama,也能透過 GGUF 走本地部署。若你要接 vLLM,也有對應路徑。不過文件也提醒,vLLM 0.16.0 還不支援 Qwen3.5,得等 0.17.0 或用 nightly build。
這種提醒很有價值。很多人 fine-tune 完很爽,結果一換 runtime 就炸。原因常常不是模型壞掉,而是 chat template、EOS token,或匯出格式不對。這些小地方,最容易讓人浪費半天。
如果你有本地 AI 工作流,Unsloth Studio 也算是順手工具。官方說它支援 macOS、Windows、Linux,還能把訓練速度拉到約 2 倍,VRAM 用量少 70%。同時它也能做模型搜尋、下載、推理和匯出。
這對從筆電一路接到伺服器的人,很方便。你不用在不同工具間一直切來切去。少一個環節,就少一個出錯點。
這次更新放在產業脈絡裡看
現在的 AI 訓練,早就不是誰的模型最大誰就贏。大家更在意的是怎麼把成本壓下來,還能保住品質。尤其是多模態模型,資料來源雜,調參也雜,根本不是靠蠻力就能解。
所以分層微調會越來越常見。你不一定每次都要動整個模型。很多時候,只改視覺塔,或只改語言層,就夠了。這種做法很像軟體工程裡的局部重構,少動、但動得準。
對台灣開發團隊來說,這也很現實。你不一定有大叢集,但你可能有很明確的垂直資料。像製造、零售、醫療、客服,資料都很具體。這些場景最適合拿來做局部微調,而不是硬上大而全的訓練。
結尾:先想清楚你要改哪一層
我覺得這次 Unsloth 最值得看的,不是它又支援了什麼新模型,而是它把「只改需要的地方」這件事做得更實用。對多模態團隊來說,這會直接影響成本、速度,還有實驗次數。
如果你現在就在碰 Qwen3.5,我會先問三件事:你的瓶頸在 vision、language,還是 router?你的 GPU 有多少 VRAM?你的部署目標是本地、伺服器,還是雲端?先把這三題答好,再決定要不要全開。
接下來最值得觀察的,是更多團隊會不會把「分層微調」當成預設流程。我的猜測是會,而且會很快。因為在算力不便宜的時代,能少訓一層,就是少花一筆錢。