Unsloth 讓 Qwen3.5 可分層微調

OraCore Editors

返回首頁

[TOOLS] 2026年4月3日7 分鐘閱讀OraCore 編輯部

Unsloth 讓 Qwen3.5 可分層微調

Unsloth 新增 Qwen3.5 視覺模型分層微調，能只訓練 vision、language、attention 或 MLP。VRAM 更省，訓練也更快，對多模態團隊很實用。

Unsloth LoRA Qwen 多模態模型 VRAM vLLM Qwen3.5 微調

分享 LinkedIn

Unsloth 最近把 Qwen3.5 的微調玩得更細。文件寫得很直接：Qwen3.5-35B-A3B 的 bf16 LoRA，大概要 74GB VRAM。小一點的模型，甚至可壓到 3GB 到 22GB。這不是小修小補，這是把多模態訓練的門檻往下拉。

更有意思的是控制粒度。現在你可以只訓練 vision layers，也可以只訓練 language layers。你甚至能只動 attention 或 MLP blocks。講白了，就是不用每次都把整個模型翻新一遍，省錢也省時間。

對台灣團隊來說，這種改法很實際。很多人不是沒資料，而是 GPU 不夠大。能少吃 50% VRAM，常常就決定你是能跑實驗，還是只能排隊等機器。

Qwen3.5 這次到底改了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

Qwen3.5 不是單一模型，而是一整個家族。它涵蓋 0.8B、2B、4B、9B、27B、35B-A3B，還有 122B-A10B。這代表它可以從輕量聊天，到高成本推理，一路往上接。

Unsloth 這次支援的範圍也很完整。文件提到 text、vision，還有 reinforcement learning 工作流。對想做同一套 pipeline 的團隊，這很方便。你可以先做聊天，再做文件理解，最後再碰 agent 類訓練。

最吸睛的數字是速度。Unsloth 說，Qwen3.5 的訓練大約比 FA2 setups 快 1.5 倍，VRAM 也少 50%。這種差距很現實。租 GPU 的帳單會直接變小，排程壓力也會少很多。

Qwen3.5-0.8B bf16 LoRA：約 3GB VRAM
Qwen3.5-2B bf16 LoRA：約 5GB VRAM
Qwen3.5-4B bf16 LoRA：約 10GB VRAM
Qwen3.5-9B bf16 LoRA：約 22GB VRAM
Qwen3.5-27B bf16 LoRA：約 56GB VRAM

這些數字很有感。4B 模型只要 10GB VRAM，單卡就有機會玩。27B 來到 56GB，已經進入認真玩硬體的範圍。但它還沒到那種非得上大叢集才碰得動的程度。

為什麼分層微調很重要

這次最有價值的地方，不是單純把模型支援補齊。真正有料的是分層控制。你可以只動 vision layers，只動 language layers，或只動 attention、MLP。這讓微調不再是整包打包帶走。

多模態模型最麻煩的地方，就是一邊是影像，一邊是文字。很多情況下，影像端需要適應新資料，但文字端其實已經夠穩。你如果整個模型都改，常常是在做多餘的事，還可能把原本正常的語言行為弄歪。

這種設計很適合幾種場景。像醫療影像、工業檢測、文件解析，都很吃局部調整。你要的是更準的視覺理解，不是把整個語言能力也一起重訓。

“The future of AI will be the era of the foundation model.” — Jensen Huang, NVIDIA GTC 2023 keynote

我會把這句話翻成白話：基礎模型不再是死板成品。它更像積木。你今天只換一塊，明天再換另一塊。這次 Unsloth 的更新，就是把積木化做得更細。

而且它預設把這些選項都打開。這對新手很友善。你不用先理解一堆內部結構，直接跑就行。但對老手來說，能關掉不需要的部分，通常就代表更少的浪費。

MoE、RL 與硬體現實

Qwen3.5 還有 MoE 模型，例如 35B-A3B 和 122B-A10B。Unsloth 說，它對這些模型也有支援，而且最近的 MoE 訓練改進很猛。文件提到速度約快 12 倍，VRAM 少 35% 以上，context 也能拉長到約 6 倍。

這些數字很像工程師才會在意的東西，但其實很重要。長 context 一旦上來，記憶體就會先爆。能把上下文拉長，通常比單純多幾個 benchmark 分數更有用。

但限制也很明確。Unsloth 建議 MoE 微調用 bf16。它不建議 MoE QLoRA，原因是 BitsandBytes 的限制。Router layer 的微調也預設關掉，主要是穩定性考量。說白了，這套東西能玩，但不是無腦亂開。

Qwen3.5-35B-A3B bf16 LoRA：74GB VRAM
Qwen3.5-122B-A10B bf16 LoRA：256GB VRAM
Qwen3.5 支援 201 種語言
Full fine-tuning 約比 LoRA 多吃 4 倍 VRAM
Unsloth 宣稱訓練比 FA2 快 1.5 倍

如果你是做產品的人，這些數字會直接影響決策。35B-A3B 已經不是一般單卡能輕鬆處理的等級。122B-A10B 更是直接把硬體門檻拉高。這時候問題不再是「能不能微調」，而是「哪個版本最划算」。

和其他方案比，差在哪裡

很多人會把微調工具想成只有訓練腳本。其實差很多。你要看的是 VRAM、速度、匯出、部署，還有出問題時好不好查。Unsloth 這次的優勢，是把這幾件事都串起來了。

如果拿傳統全量微調來比，LoRA 本來就比較省。Unsloth 再往下切，等於把省資源這件事做得更細。你可以只調需要的層，少掉很多沒必要的梯度更新。

和一般 QLoRA 工作流比，Qwen3.5 這次反而不太適合走 4-bit。文件明講，Qwen3.5 的 dense 和 MoE 版本，都不太適合 QLoRA。原因是量化差異比平常大。這點很重要，因為便宜不一定划算，尤其是你還得花時間 debug。

全量 fine-tuning：VRAM 壓力最高
一般 LoRA：成本較低，但仍會更新較多參數
分層微調：只改需要的模組，控制更細
QLoRA：對 Qwen3.5 不一定適合
MoE QLoRA：Unsloth 不建議

我覺得這裡最實際的差別，是試錯成本。你如果每次都整包訓練，跑一次就很貴。現在可以先凍住 text stack，只動 vision，或反過來。這對做實驗的人，真的差很多。

部署和工具鏈也沒漏掉

訓練只是第一步。真正麻煩的是後面。模型怎麼匯出，怎麼跑在本地，怎麼丟到伺服器，這些才是日常工作會踩雷的地方。Unsloth 這次也把這條路補得很完整。

它支援匯出到 llama.cpp 和 Ollama，也能透過 GGUF 走本地部署。若你要接 vLLM，也有對應路徑。不過文件也提醒，vLLM 0.16.0 還不支援 Qwen3.5，得等 0.17.0 或用 nightly build。

這種提醒很有價值。很多人 fine-tune 完很爽，結果一換 runtime 就炸。原因常常不是模型壞掉，而是 chat template、EOS token，或匯出格式不對。這些小地方，最容易讓人浪費半天。

如果你有本地 AI 工作流，Unsloth Studio 也算是順手工具。官方說它支援 macOS、Windows、Linux，還能把訓練速度拉到約 2 倍，VRAM 用量少 70%。同時它也能做模型搜尋、下載、推理和匯出。

這對從筆電一路接到伺服器的人，很方便。你不用在不同工具間一直切來切去。少一個環節，就少一個出錯點。

這次更新放在產業脈絡裡看

現在的 AI 訓練，早就不是誰的模型最大誰就贏。大家更在意的是怎麼把成本壓下來，還能保住品質。尤其是多模態模型，資料來源雜，調參也雜，根本不是靠蠻力就能解。

所以分層微調會越來越常見。你不一定每次都要動整個模型。很多時候，只改視覺塔，或只改語言層，就夠了。這種做法很像軟體工程裡的局部重構，少動、但動得準。

對台灣開發團隊來說，這也很現實。你不一定有大叢集，但你可能有很明確的垂直資料。像製造、零售、醫療、客服，資料都很具體。這些場景最適合拿來做局部微調，而不是硬上大而全的訓練。

結尾：先想清楚你要改哪一層

我覺得這次 Unsloth 最值得看的，不是它又支援了什麼新模型，而是它把「只改需要的地方」這件事做得更實用。對多模態團隊來說，這會直接影響成本、速度，還有實驗次數。

如果你現在就在碰 Qwen3.5，我會先問三件事：你的瓶頸在 vision、language，還是 router？你的 GPU 有多少 VRAM？你的部署目標是本地、伺服器，還是雲端？先把這三題答好，再決定要不要全開。

接下來最值得觀察的，是更多團隊會不會把「分層微調」當成預設流程。我的猜測是會，而且會很快。因為在算力不便宜的時代，能少訓一層，就是少花一筆錢。

// 相關文章

Unsloth 讓 Qwen3.5 可分層微調

Qwen3.5 這次到底改了什麼

訂閱 AI 趨勢週報

為什麼分層微調很重要

MoE、RL 與硬體現實

和其他方案比，差在哪裡

部署和工具鏈也沒漏掉

這次更新放在產業脈絡裡看

結尾：先想清楚你要改哪一層

為什麼 VidHub 會員互通不是「買一次全設備通用」

為什麼 Bun 的 Zig-to-Rust 實驗是對的

為什麼 OpenAI API 定價是產品策略，不是註腳

為什麼 Claude Code 的提示設計贏過 IDE Copilot

為什麼 Databricks Model Serving 是生產推論的正確預設

為什麼 IBM 的 Bob 才是對的 AI 寫碼助手