[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-unsloth-qwen35-partial-fine-tuning-zh":3,"tags-unsloth-qwen35-partial-fine-tuning-zh":35,"related-lang-unsloth-qwen35-partial-fine-tuning-zh":50,"related-posts-unsloth-qwen35-partial-fine-tuning-zh":54,"series-tools-868034d7-415b-49bd-8f25-4dbd602e7094":91},{"id":4,"title":5,"content":6,"summary":7,"source":8,"source_url":9,"author":10,"image_url":11,"keywords":12,"language":23,"translated_content":10,"views":24,"is_premium":25,"created_at":26,"updated_at":26,"cover_image":11,"published_at":27,"rewrite_status":28,"rewrite_error":10,"rewritten_from_id":29,"slug":30,"category":31,"related_article_id":32,"status":33,"google_indexed_at":34,"x_posted_at":10,"tweet_text":10,"title_rewritten_at":10,"title_original":10,"key_takeaways":10,"topic_cluster_id":10,"embedding":10,"is_canonical_seed":25},"868034d7-415b-49bd-8f25-4dbd602e7094","Unsloth 讓 Qwen3.5 可分層微調","\u003Cp>\u003Ca href=\"https:\u002F\u002Funsloth.ai\u002Fdocs\u002Fmodels\u002Fqwen3.5\u002Ffine-tune\" target=\"_blank\" rel=\"noopener\">Unsloth\u003C\u002Fa> 最近把 \u003Ca href=\"https:\u002F\u002Fqwenlm.github.io\u002F\" target=\"_blank\" rel=\"noopener\">Qwen3.5\u003C\u002Fa> 的微調玩得更細。文件寫得很直接：Qwen3.5-35B-A3B 的 bf16 LoRA，大概要 74GB VRAM。小一點的模型，甚至可壓到 3GB 到 22GB。這不是小修小補，這是把多模態訓練的門檻往下拉。\u003C\u002Fp>\u003Cp>更有意思的是控制粒度。現在你可以只訓練 vision \u003Ca href=\"\u002Fnews\u002Fclaude-opus-45-gpt-parameters-estimate-zh\">la\u003C\u002Fa>yers，也可以只訓練 language layers。你甚至能只動 attention 或 MLP blocks。講白了，就是不用每次都把整個模型翻新一遍，省錢也省時間。\u003C\u002Fp>\u003Cp>對台灣團隊來說，這種改法很實際。很多人不是沒資料，而是 GPU 不夠大。能少吃 50% VRAM，常常就決定你是能跑實驗，還是只能排隊等機器。\u003C\u002Fp>\u003Ch2>Qwen3.5 這次到底改了什麼\u003C\u002Fh2>\u003Cp>Qwen3.5 不是單一模型，而是一整個家族。它涵蓋 0.8B、2B、4B、9B、27B、35B-A3B，還有 122B-A10B。這代表它可以從輕量聊天，到高成本推理，一路往上接。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775218014686-wj6q.png\" alt=\"Unsloth 讓 Qwen3.5 可分層微調\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>Unsloth 這次支援的範圍也很完整。文件提到 text、vision，還有 reinforcement learning 工作流。對想做同一套 pipeline 的團隊，這很方便。你可以先做聊天，再做文件理解，最後再碰 a\u003Ca href=\"\u002Fnews\u002Fhermes-agent-agent-harness-framework-zh\">gent\u003C\u002Fa> 類訓練。\u003C\u002Fp>\u003Cp>最吸睛的數字是速度。Unsloth 說，Qwen3.5 的訓練大約比 FA2 setups 快 1.5 倍，VRAM 也少 50%。這種差距很現實。租 GPU 的帳單會直接變小，排程壓力也會少很多。\u003C\u002Fp>\u003Cul>\u003Cli>Qwen3.5-0.8B bf16 LoRA：約 3GB VRAM\u003C\u002Fli>\u003Cli>Qwen3.5-2B bf16 LoRA：約 5GB VRAM\u003C\u002Fli>\u003Cli>Qwen3.5-4B bf16 LoRA：約 10GB VRAM\u003C\u002Fli>\u003Cli>Qwen3.5-9B bf16 LoRA：約 22GB VRAM\u003C\u002Fli>\u003Cli>Qwen3.5-27B bf16 LoRA：約 56GB VRAM\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這些數字很有感。4B 模型只要 10GB VRAM，單卡就有機會玩。27B 來到 56GB，已經進入認真玩硬體的範圍。但它還沒到那種非得上大叢集才碰得動的程度。\u003C\u002Fp>\u003Ch2>為什麼分層微調很重要\u003C\u002Fh2>\u003Cp>這次最有價值的地方，不是單純把模型支援補齊。真正有料的是分層控制。你可以只動 vision layers，只動 language layers，或只動 attention、MLP。這讓微調不再是整包打包帶走。\u003C\u002Fp>\u003Cp>多模態模型最麻煩的地方，就是一邊是影像，一邊是文字。很多情況下，影像端需要適應新資料，但文字端其實已經夠穩。你如果整個模型都改，常常是在做多餘的事，還可能把原本正常的語言行為弄歪。\u003C\u002Fp>\u003Cp>這種設計很適合幾種場景。像醫療影像、工業檢測、文件解析，都很吃局部調整。你要的是更準的視覺理解，不是把整個語言能力也一起重訓。\u003C\u002Fp>\u003Cblockquote>“The future of AI will be the era of the foundation model.” — Jensen Huang, NVIDIA GTC 2023 keynote\u003C\u002Fblockquote>\u003Cp>我會把這句話翻成白話：基礎模型不再是死板成品。它更像積木。你今天只換一塊，明天再換另一塊。這次 Unsloth 的更新，就是把積木化做得更細。\u003C\u002Fp>\u003Cp>而且它預設把這些選項都打開。這對新手很友善。你不用先理解一堆內部結構，直接跑就行。但對老手來說，能關掉不需要的部分，通常就代表更少的浪費。\u003C\u002Fp>\u003Ch2>MoE、RL 與硬體現實\u003C\u002Fh2>\u003Cp>Qwen3.5 還有 MoE 模型，例如 35B-A3B 和 122B-A10B。Unsloth 說，它對這些模型也有支援，而且最近的 MoE 訓練改進很猛。文件提到速度約快 12 倍，VRAM 少 35% 以上，context 也能拉長到約 6 倍。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775218026472-zl8v.png\" alt=\"Unsloth 讓 Qwen3.5 可分層微調\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這些數字很像工程師才會在意的東西，但其實很重要。長 context 一旦上來，記憶體就會先爆。能把上下文拉長，通常比單純多幾個 benchmark 分數更有用。\u003C\u002Fp>\u003Cp>但限制也很明確。Unsloth 建議 MoE 微調用 bf16。它不建議 MoE QLoRA，原因是 BitsandBytes 的限制。Router layer 的微調也預設關掉，主要是穩定性考量。說白了，這套東西能玩，但不是無腦亂開。\u003C\u002Fp>\u003Cul>\u003Cli>Qwen3.5-35B-A3B bf16 LoRA：74GB VRAM\u003C\u002Fli>\u003Cli>Qwen3.5-122B-A10B bf16 LoRA：256GB VRAM\u003C\u002Fli>\u003Cli>Qwen3.5 支援 201 種語言\u003C\u002Fli>\u003Cli>Full fine-tuning 約比 LoRA 多吃 4 倍 VRAM\u003C\u002Fli>\u003Cli>Unsloth 宣稱訓練比 FA2 快 1.5 倍\u003C\u002Fli>\u003C\u002Ful>\u003Cp>如果你是做產品的人，這些數字會直接影響決策。35B-A3B 已經不是一般單卡能輕鬆處理的等級。122B-A10B 更是直接把硬體門檻拉高。這時候問題不再是「能不能微調」，而是「哪個版本最划算」。\u003C\u002Fp>\u003Ch2>和其他方案比，差在哪裡\u003C\u002Fh2>\u003Cp>很多人會把微調工具想成只有訓練腳本。其實差很多。你要看的是 VRAM、速度、匯出、部署，還有出問題時好不好查。Unsloth 這次的優勢，是把這幾件事都串起來了。\u003C\u002Fp>\u003Cp>如果拿傳統全量微調來比，LoRA 本來就比較省。Unsloth 再往下切，等於把省資源這件事做得更細。你可以只調需要的層，少掉很多沒必要的梯度更新。\u003C\u002Fp>\u003Cp>和一般 QLoRA 工作流比，Qwen3.5 這次反而不太適合走 4-bit。文件明講，Qwen3.5 的 dense 和 MoE 版本，都不太適合 QLoRA。原因是量化差異比平常大。這點很重要，因為便宜不一定划算，尤其是你還得花時間 d\u003Ca href=\"\u002Fnews\u002Fwebassembly-2026-faster-web-apps-less-javascript-zh\">eb\u003C\u002Fa>ug。\u003C\u002Fp>\u003Cul>\u003Cli>全量 fine-tuning：VRAM 壓力最高\u003C\u002Fli>\u003Cli>一般 LoRA：成本較低，但仍會更新較多參數\u003C\u002Fli>\u003Cli>分層微調：只改需要的模組，控制更細\u003C\u002Fli>\u003Cli>QLoRA：對 Qwen3.5 不一定適合\u003C\u002Fli>\u003Cli>MoE QLoRA：Unsloth 不建議\u003C\u002Fli>\u003C\u002Ful>\u003Cp>我覺得這裡最實際的差別，是試錯成本。你如果每次都整包訓練，跑一次就很貴。現在可以先凍住 text stack，只動 vision，或反過來。這對做實驗的人，真的差很多。\u003C\u002Fp>\u003Ch2>部署和工具鏈也沒漏掉\u003C\u002Fh2>\u003Cp>訓練只是第一步。真正麻煩的是後面。模型怎麼匯出，怎麼跑在本地，怎麼丟到伺服器，這些才是日常工作會踩雷的地方。Unsloth 這次也把這條路補得很完整。\u003C\u002Fp>\u003Cp>它支援匯出到 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fllama.cpp\" target=\"_blank\" rel=\"noopener\">llama.cpp\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Follama.com\" target=\"_blank\" rel=\"noopener\">Ollama\u003C\u002Fa>，也能透過 GGUF 走本地部署。若你要接 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\" target=\"_blank\" rel=\"noopener\">vLLM\u003C\u002Fa>，也有對應路徑。不過文件也提醒，vLLM 0.16.0 還不支援 Qwen3.5，得等 0.17.0 或用 nightly build。\u003C\u002Fp>\u003Cp>這種提醒很有價值。很多人 fine-tune 完很爽，結果一換 runtime 就炸。原因常常不是模型壞掉，而是 chat template、EOS token，或匯出格式不對。這些小地方，最容易讓人浪費半天。\u003C\u002Fp>\u003Cp>如果你有本地 AI 工作流，\u003Ca href=\"https:\u002F\u002Funsloth.ai\u002Fstudio\" target=\"_blank\" rel=\"noopener\">Unsloth Studio\u003C\u002Fa> 也算是順手工具。官方說它支援 macOS、Windows、Linux，還能把訓練速度拉到約 2 倍，VRAM 用量少 70%。同時它也能做模型搜尋、下載、推理和匯出。\u003C\u002Fp>\u003Cp>這對從筆電一路接到伺服器的人，很方便。你不用在不同工具間一直切來切去。少一個環節，就少一個出錯點。\u003C\u002Fp>\u003Ch2>這次更新放在產業脈絡裡看\u003C\u002Fh2>\u003Cp>現在的 AI 訓練，早就不是誰的模型最大誰就贏。大家更在意的是怎麼把成本壓下來，還能保住品質。尤其是多模態模型，資料來源雜，調參也雜，根本不是靠蠻力就能解。\u003C\u002Fp>\u003Cp>所以分層微調會越來越常見。你不一定每次都要動整個模型。很多時候，只改視覺塔，或只改語言層，就夠了。這種做法很像軟體工程裡的局部重構，少動、但動得準。\u003C\u002Fp>\u003Cp>對台灣開發團隊來說，這也很現實。你不一定有大叢集，但你可能有很明確的垂直資料。像製造、零售、醫療、客服，資料都很具體。這些場景最適合拿來做局部微調，而不是硬上大而全的訓練。\u003C\u002Fp>\u003Ch2>結尾：先想清楚你要改哪一層\u003C\u002Fh2>\u003Cp>我覺得這次 Unsloth 最值得看的，不是它又支援了什麼新模型，而是它把「只改需要的地方」這件事做得更實用。對多模態團隊來說，這會直接影響成本、速度，還有實驗次數。\u003C\u002Fp>\u003Cp>如果你現在就在碰 Qwen3.5，我會先問三件事：你的瓶頸在 vision、language，還是 router？你的 GPU 有多少 VRAM？你的部署目標是本地、伺服器，還是雲端？先把這三題答好，再決定要不要全開。\u003C\u002Fp>\u003Cp>接下來最值得觀察的，是更多團隊會不會把「分層微調」當成預設流程。我的猜測是會，而且會很快。因為在算力不便宜的時代，能少訓一層，就是少花一筆錢。\u003C\u002Fp>","Unsloth 新增 Qwen3.5 視覺模型分層微調，能只訓練 vision、language、attention 或 MLP。VRAM 更省，訓練也更快，對多模態團隊很實用。","unsloth.ai","https:\u002F\u002Funsloth.ai\u002Fdocs\u002Fmodels\u002Fqwen3.5\u002Ffine-tune",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775218014686-wj6q.png",[13,14,15,16,17,18,19,20,21,22],"Unsloth","Qwen3.5","微調","LoRA","多模態模型","VRAM","MoE","Qwen","vLLM","llama.cpp","zh",1,false,"2026-04-03T12:06:38.523525+00:00","2026-04-03T12:06:38.298+00:00","done","c03d9fe1-34dc-4e53-833c-137e908496cf","unsloth-qwen35-partial-fine-tuning-zh","tools","e031b580-6869-4e89-886d-f190e0adfa86","published","2026-04-07T07:41:09.312+00:00",[36,38,40,42,43,45,47,49],{"name":13,"slug":37},"unsloth",{"name":16,"slug":39},"lora",{"name":20,"slug":41},"qwen",{"name":17,"slug":17},{"name":18,"slug":44},"vram",{"name":21,"slug":46},"vllm",{"name":14,"slug":48},"qwen35",{"name":15,"slug":15},{"id":32,"slug":51,"title":52,"language":53},"unsloth-qwen35-partial-fine-tuning-en","Unsloth Adds Part-by-Part Qwen3.5 Fine-Tuning","en",[55,61,67,73,79,85],{"id":56,"slug":57,"title":58,"cover_image":59,"image_url":59,"created_at":60,"category":31},"d058a76f-6548-4135-8970-f3a97f255446","why-gemini-api-pricing-is-cheaper-than-it-looks-zh","為什麼 Gemini API 定價其實比看起來更便宜","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778869845081-j4m7.png","2026-05-15T18:30:25.797639+00:00",{"id":62,"slug":63,"title":64,"cover_image":65,"image_url":65,"created_at":66,"category":31},"68e4be16-dc38-4524-a6ea-5ebe22a6c4fb","why-vidhub-huiyuan-hutong-bushi-quan-shebei-tongyong-zh","為什麼 VidHub 會員互通不是「買一次全設備通用」","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778789450987-advz.png","2026-05-14T20:10:24.048988+00:00",{"id":68,"slug":69,"title":70,"cover_image":71,"image_url":71,"created_at":72,"category":31},"7a1e174f-746b-4e82-a0e3-b2475ab39747","why-buns-zig-to-rust-experiment-is-right-zh","為什麼 Bun 的 Zig-to-Rust 實驗是對的","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778767879127-5dna.png","2026-05-14T14:10:26.886397+00:00",{"id":74,"slug":75,"title":76,"cover_image":77,"image_url":77,"created_at":78,"category":31},"e742fc73-5a65-4db3-ad17-88c99262ceb7","why-openai-api-pricing-is-product-strategy-zh","為什麼 OpenAI API 定價是產品策略，不是註腳","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778749859485-chvz.png","2026-05-14T09:10:26.003818+00:00",{"id":80,"slug":81,"title":82,"cover_image":83,"image_url":83,"created_at":84,"category":31},"c757c5d8-eda9-45dc-9020-4b002f4d6237","why-claude-code-prompt-design-beats-ide-copilots-zh","為什麼 Claude Code 的提示設計贏過 IDE Copilot","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778742645084-dao9.png","2026-05-14T07:10:29.371901+00:00",{"id":86,"slug":87,"title":88,"cover_image":89,"image_url":89,"created_at":90,"category":31},"4adef3ab-9f07-4970-91cf-77b8b581b348","why-databricks-model-serving-is-right-default-zh","為什麼 Databricks Model Serving 是生產推論的正確預設","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778692245329-a2wt.png","2026-05-13T17:10:30.659153+00:00",[92,97,102,107,112,117,122,127,132,137],{"id":93,"slug":94,"title":95,"created_at":96},"de769291-4574-4c46-a76d-772bd99e6ec9","googles-biggest-gemini-launches-in-2026-zh","Google 2026 最大 Gemini 盤點","2026-03-26T07:26:39.21072+00:00",{"id":98,"slug":99,"title":100,"created_at":101},"855cd52f-6fab-46cc-a7c1-42195e8a0de4","surepath-real-time-mcp-policy-controls-zh","SurePath 推出即時 MCP 政策控管","2026-03-26T07:57:40.77233+00:00",{"id":103,"slug":104,"title":105,"created_at":106},"9b19ab54-edef-4dbd-9ce4-a51e4bae4ebb","mcp-in-2026-the-ai-tool-layer-teams-use-zh","2026 年 MCP：團隊真的在用的 AI 工具層","2026-03-26T08:01:46.589694+00:00",{"id":108,"slug":109,"title":110,"created_at":111},"af9c46c3-7a28-410b-9f04-32b3de30a68c","prompting-in-2026-what-actually-works-zh","2026 提示工程，真正有用的是什麼","2026-03-26T08:08:12.453028+00:00",{"id":113,"slug":114,"title":115,"created_at":116},"05553086-6ed0-4758-81fd-6cab24b575e0","garry-tan-open-sources-claude-code-toolkit-zh","Garry Tan 開源 Claude Code 工具包","2026-03-26T08:26:20.068737+00:00",{"id":118,"slug":119,"title":120,"created_at":121},"042a73a2-18a2-433d-9e8f-9802b9559aac","github-ai-projects-to-watch-in-2026-zh","2026 必看 20 個 GitHub AI 專案","2026-03-26T08:28:09.619964+00:00",{"id":123,"slug":124,"title":125,"created_at":126},"a5f94120-ac0d-4483-9a8b-63590071ac6a","claude-code-vs-cursor-2026-zh","Claude Code 與 Cursor 深度對比：202…","2026-03-26T13:27:14.279193+00:00",{"id":128,"slug":129,"title":130,"created_at":131},"0975afa1-e0c7-4130-a20d-d890eaed995e","practical-github-guide-learning-ml-2026-zh","2026 機器學習入門 GitHub 實用指南","2026-03-27T01:16:49.712576+00:00",{"id":133,"slug":134,"title":135,"created_at":136},"bfdb467a-290f-4a80-b3a9-6f081afb6dff","aiml-2026-student-ai-ml-lab-repo-review-zh","AIML-2026：像課綱的學生實驗 Repo","2026-03-27T01:21:51.467798+00:00",{"id":138,"slug":139,"title":140,"created_at":141},"80cabc3e-09fc-4ff5-8f07-b8d68f5ae545","ai-trending-github-repos-and-research-feeds-zh","AI Trending：把 AI 資源收成一張表","2026-03-27T01:31:35.262183+00:00"]