[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-lora-fine-tuning-llms-practical-zh":3,"article-related-lora-fine-tuning-llms-practical-zh":32,"series-tools-a55669fd-8a18-48ec-ad5e-470295c2eb35":84},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":24,"views":28,"created_at":29,"published_at":30,"topic_cluster_id":31},"a55669fd-8a18-48ec-ad5e-470295c2eb35","lora-fine-tuning-llms-practical-zh","LoRA 讓 LLM 微調更實用","\u003Cp data-speakable=\"summary\">LoRA 只訓練小型 adapter 權重，就能微調 \u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa>，少用 VRAM，也省下訓練成本。\u003C\u002Fp>\u003Cp>說真的，這招很務實。\u003Ca href=\"https:\u002F\u002Fwww.exxactcorp.com\u002Fblog\u002Fdeep-learning\u002Fai-fine-tuning-with-lora\" target=\"_blank\" rel=\"noopener\">Exxact\u003C\u002Fa> 的文章把話講白了：你不用把整個模型重練一次。\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.09685\" target=\"_blank\" rel=\"noopener\">LoRA\u003C\u002Fa> 把可訓練參數壓到很小，讓 7B、32B 這種模型，不再只屬於大公司機房。\u003C\u002Fp>\u003Cp>這篇最有感的地方，是它直接講硬體差多少。全量微調 32B 模型，大概要 512GB VRAM。LoRA 只要約 64GB。QLoRA 更狠，壓到約 16GB。你如果手上只有工作站，這差距就是能不能開工的差距。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>方法\u003C\u002Fth>\u003Cth>每 1B 參數約需 VRAM\u003C\u002Fth>\u003Cth>32B 模型約需 VRAM\u003C\u002Fth>\u003Cth>例子 GPU 配置\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>Full fine-tuning\u003C\u002Ftd>\u003Ctd>~16 GB\u003C\u002Ftd>\u003Ctd>~512 GB\u003C\u002Ftd>\u003Ctd>4x NVIDIA H200 NVL 或 8x RTX PRO 6000\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>LoRA (FP16\u002FBF16)\u003C\u002Ftd>\u003Ctd>~2 GB + overhead\u003C\u002Ftd>\u003Ctd>~64 GB\u003C\u002Ftd>\u003Ctd>2x NVIDIA RTX 5090 或 1x RTX PRO 6000\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>QLoRA (4-bit)\u003C\u002Ftd>\u003Ctd>~0.5 GB + overhead\u003C\u002Ftd>\u003Ctd>~16 GB\u003C\u002Ftd>\u003Ctd>1x NVIDIA RTX 5080 或 1x RTX PRO 4500\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>LoRA 為什麼把微調算式改掉了\u003C\u002Fh2>\u003Cp>LoRA，全名是 Low-Rank Adaptation。它的核心很直白。先把基礎模型凍住，只訓練少量 adapter 權重。這樣做的好處，是你不用碰整個 LLM 的所有參數。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780220882507-izhl.png\" alt=\"LoRA 讓 LLM 微調更實用\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>全量微調很吃資源。因為你不只更新權重，還要處理 optimizer state、梯度、activation。對大型 LLM 來說，這些東西會一起吃掉 VRAM。LoRA 把訓練範圍縮小到大約 1% 到 2%，整個訓練流程就變得比較像工程問題，不像燒錢比賽。\u003C\u002Fp>\u003Cp>講白了，LoRA 的思路是：基礎能力交給大模型，任務差異交給小 adapter。你可以把它想成同一台車，換不同的改裝件，而不是每次都重造引擎。\u003C\u002Fp>\u003Cul>\u003Cli>可訓練參數只剩一小部分。\u003C\u002Fli>\u003Cli>大部分權重固定，VRAM 壓力下降。\u003C\u002Fli>\u003Cli>訓練步驟更省時間。\u003C\u002Fli>\u003Cli>同一個 base model 可掛多組 adapter。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>LoRA 和 QLoRA 差在哪裡\u003C\u002Fh2>\u003Cp>LoRA 和 QLoRA 很像，但記憶體策略不同。LoRA 通常把 base model 以 FP16 或 BF16 載入，再訓練 adapter。\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14314\" target=\"_blank\" rel=\"noopener\">QLoRA\u003C\u002Fa> 則是把 base model 量化到 4-bit，直接把載入成本再往下壓。\u003C\u002Fp>\u003Cp>這種做法很適合資源有限的團隊。你可能沒有 8 張\u003Ca href=\"\u002Ftag\u002F資料中心\">資料中心\u003C\u002Fa> \u003Ca href=\"\u002Ftag\u002Fgpu\">GPU\u003C\u002Fa>，但你有一台工作站。那 QLoRA 就很香。只是別太樂觀，因為量化會帶來品質與調校上的額外成本。rank、batch size、sequence length，這些參數還是得一個個試。\u003C\u002Fp>\u003Cp>還有一個常被忽略的點。模型越長，activation memory 越容易爆。就算 base model 已經縮得很小，\u003Ca href=\"\u002Ftag\u002F長上下文\">長上下文\u003C\u002Fa>還是會把 VRAM 吃回去。這也是為\u003Ca href=\"\u002Fnews\u002Fwhy-google-marketing-live-2026-conversational-search-ads-zh\">什麼\u003C\u002Fa>很多人以為「模型放得下」就代表「能訓練」，結果跑到一半才發現不行。\u003C\u002Fp>\u003Cblockquote>\"LoRA allows us to fine-tune large language models efficiently by updating only a small number of parameters instead of retraining the entire model.\"\u003C\u002Fblockquote>\u003Cp>這句話很直接。你要的通常不是重造整個模型。你要的是讓模型懂你的資料、你的術語、你的語氣。\u003C\u002Fp>\u003Cp>所以 rank 這個參數很重要。rank 越高，adapter 容量越大。可是成本也跟著上去。實務上，這就是拿品質和資源做交換。沒有神奇按鈕，只有調參。\u003C\u002Fp>\u003Ch2>這些 VRAM 數字，對實際工作有什麼意思\u003C\u002Fh2>\u003Cp>最有用的不是理論，是硬體門檻。Exxact 提到，7B 模型用 QLoRA，8GB 或 12GB GPU 有機會跑。當然，batch size 不能太大，訓練速度也不會快到哪去。但至少你能開始做實驗。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780220883722-od7h.png\" alt=\"LoRA 讓 LLM 微調更實用\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>到了 32B 甚至 70B，事情就不一樣了。這時候，多 GPU 工作站才比較合理。Exxact 提到，2 張 \u003Ca href=\"https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fgeforce\u002Fgraphics-cards\u002F50-series\u002Frtx-5090\u002F\" target=\"_blank\" rel=\"noopener\">NVIDIA RTX 5090\u003C\u002Fa> 可以處理 32B 的 LoRA 微調。若用 2 張 \u003Ca href=\"https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fdesign-visualization\u002Frtx-pro\u002F\" target=\"_blank\" rel=\"noopener\">NVIDIA RTX PRO 6000 Blackwell\u003C\u002Fa>，總 VRAM 可到 192GB。\u003C\u002Fp>\u003Cp>如果再往上堆到 4 張 RTX PRO 6000 Blackwell，總 VRAM 會到 384GB。這種配置，才有機會碰到約 140B 等級的單機訓練。你會發現，LoRA 不只是省記憶體，它還直接改變你能碰的模型大小。\u003C\u002Fp>\u003Cul>\u003Cli>7B 模型：QLoRA 可在 8GB 到 12GB GPU 上嘗試。\u003C\u002Fli>\u003Cli>32B 到 70B：多 GPU 工作站開始有意義。\u003C\u002Fli>\u003Cli>4x RTX PRO 6000 Blackwell：總 VRAM 384GB。\u003C\u002Fli>\u003Cli>32B 全量微調：大約 512GB VRAM，門檻很高。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這些數字很殘酷，也很誠實。全量微調不是不能做，而是成本太高。LoRA 的價值，就是把很多原本只能在資料中心做的事，拉回到一般團隊能管理的範圍。\u003C\u002Fp>\u003Cp>對產品團隊來說，這代表試錯成本下降。你可以針對客服、搜尋、法務摘要、程式碼助理，分別做 adapter。每個任務一組，不用每次都把整個 base model 重來一次。\u003C\u002Fp>\u003Ch2>對團隊流程來說，LoRA 真的比較好管\u003C\u002Fh2>\u003Cp>我覺得 LoRA 最實際的地方，不是省 GPU 而已。是它讓模型管理變簡單。你可以把 base model 當底座，adapter 當版本化資產。這對有多個任務的團隊很重要。\u003C\u002Fp>\u003Cp>比如說，你今天想調整客服語氣。下週想做內部知識庫問答。下個月又要加法務摘要。用 LoRA 的話，這些改動可以分開管理。\u003Ca href=\"\u002Fnews\u002Fmlops-production-breaks-2026-zh\">壞掉\u003C\u002Fa>就換 adapter，不用動整個模型核心。\u003C\u002Fp>\u003Cp>這也讓回滾容易很多。若某個 adapter 在測試集上掉分，你直接替換就好。對軟體團隊來說，這種部署方式比一直改核心權重乾淨太多了。\u003C\u002Fp>\u003Cp>說白了，LoRA 把微調從「大型專案」\u003Ca href=\"\u002Fnews\u002Fgemini-new-voices-turn-chat-into-a-list-zh\">變成\u003C\u002Fa>「可管理的軟體流程」。這才是它真正好用的地方。\u003C\u002Fp>\u003Ch2>跟其他做法比，LoRA 的位置在哪\u003C\u002Fh2>\u003Cp>如果你把方法排一排，邏輯會很清楚。全量微調最自由，但最燒資源。LoRA 把自由度保留一大半，成本卻壓下來。QLoRA 再把記憶體需求往下砍一刀。\u003C\u002Fp>\u003Cp>這裡可以直接看數字。Full fine-tuning 32B 約 512GB VRAM。LoRA 約 64GB。QLoRA 約 16GB。差距不是一點點，是整個硬體級別不同。你用什麼方法，決定你要買什麼卡。\u003C\u002Fp>\u003Cp>如果你是台灣團隊，這點更現實。不是每家公司都能直接買資料中心級 GPU。很多時候，工作站、雲端租卡、短期實驗，才是日常。LoRA 剛好卡在這個位置。\u003C\u002Fp>\u003Cul>\u003Cli>全量微調：品質彈性高，但硬體壓力最大。\u003C\u002Fli>\u003Cli>LoRA：品質與成本之間，通常是最平衡的選項。\u003C\u002Fli>\u003Cli>QLoRA：更省 VRAM，但要接受量化帶來的取捨。\u003C\u002Fli>\u003Cli>多 adapter 管理：適合多任務、多部門需求。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>如果你要我選，我會先從 LoRA 開始。因為它夠穩，也夠好維護。等你真的卡在 VRAM，再考慮 QLoRA。不要一開始就把系統搞得太複雜。\u003C\u002Fp>\u003Ch2>這波方法論，背後其實是 LLM 工程化\u003C\u002Fh2>\u003Cp>LoRA 之所以受歡迎，不是因為它聽起來酷。是因為它把 LLM 的使用方式，從研究室拉到產品團隊。這點很重要。因為大多數公司要的，不是訓練一個新基座，而是把現成模型改成自己的工具。\u003C\u002Fp>\u003Cp>這也跟整個 AI 產業的走向有關。基座模型越來越大，單純追參數已經不是每個團隊都玩得起。真正有價值的，往往是資料、流程、評估、部署。LoRA 正好卡在這個位置，讓模型客製化變得可操作。\u003C\u002Fp>\u003Cp>如果你把它放到更大的脈絡裡看，LoRA 其實是在幫團隊建立一種新的習慣：不要每次都重訓整個模型，先想能不能只改一小塊。這種思考方式，對成本和維運都比較友善。\u003C\u002Fp>\u003Cp>我會建議，先用 LoRA 做第一版。先驗證資料夠不夠乾淨，任務定義清不清楚，評估指標有沒有設對。等這些都穩了，再談更重的訓練策略。\u003C\u002Fp>\u003Ch2>你現在該怎麼用 LoRA\u003C\u002Fh2>\u003Cp>如果你手上有一個 7B 或 13B 模型，先別急著全量微調。先看你的 GPU 是多少 VRAM，再決定要用 LoRA 還是 QLoRA。這一步很土，但很有效。\u003C\u002Fp>\u003Cp>如果你的工作是客服、分類、摘要、內部知識問答，LoRA 通常已經夠用。你真正缺的，多半不是訓練規模，而是資料整理和評估流程。模型不是魔法，資料才是。\u003C\u002Fp>\u003Cp>所以我的建議很簡單。先用 LoRA 跑一版，確認效果。再看要不要升到 QLoRA，或回頭調 rank、batch size、sequence length。別一開始就追求最猛配置，先把流程跑通比較重要。\u003C\u002Fp>\u003Cp>LoRA 不是要取代所有微調方式。它是讓更多團隊有機會真的開始做。這件事本身，就很有價值。\u003C\u002Fp>","LoRA 只訓練小型 adapter，就能微調 LLM，省下 VRAM、時間與成本，讓中小團隊也能玩得起。","www.exxactcorp.com","https:\u002F\u002Fwww.exxactcorp.com\u002Fblog\u002Fdeep-learning\u002Fai-fine-tuning-with-lora",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780220882507-izhl.png","tools","zh","006102d8-46b9-4d87-ae50-d97f992ea1ea",[17,18,19,20,21,22,23],"LoRA","QLoRA","LLM 微調","大型語言模型","GPU VRAM","adapter weights","AI 工程化",[25,26,27],"LoRA 只訓練小型 adapter，能把微調成本壓下來。","QLoRA 再把 base model 量化到 4-bit，進一步省 VRAM。","對多任務團隊來說，LoRA 讓模型版本管理和回滾更好做。",9,"2026-05-31T09:47:33.881489+00:00","2026-05-31T09:47:33.859+00:00","be8b3ef0-c6e7-477d-a0e9-f8f1e74e0335",{"tags":33,"relatedLang":43,"relatedPosts":47},[34,36,38,39,41],{"name":18,"slug":35},"qlora",{"name":17,"slug":37},"lora",{"name":20,"slug":20},{"name":21,"slug":40},"gpu-vram",{"name":19,"slug":42},"llm-微調",{"id":15,"slug":44,"title":45,"language":46},"lora-fine-tuning-llms-practical-en","LoRA Makes Fine-Tuning LLMs Practical","en",[48,54,60,66,72,78],{"id":49,"slug":50,"title":51,"cover_image":52,"image_url":52,"created_at":53,"category":13},"736e7c19-d81b-4266-b1ff-6f13295b1608","cursors-latest-update-ide-workflow-tools-zh","Cursor 最新更新證明：IDE 必須升級成工作流程工具","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781491671914-7wov.png","2026-06-15T02:47:20.32431+00:00",{"id":55,"slug":56,"title":57,"cover_image":58,"image_url":58,"created_at":59,"category":13},"f4124807-6c95-424a-8d27-4c79020cff1a","cursor-bugbot-before-push-not-pr-zh","Cursor 的 Bugbot 應該先於 push，而不是卡在 PR","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781490766583-u6gl.png","2026-06-15T02:32:16.371174+00:00",{"id":61,"slug":62,"title":63,"cover_image":64,"image_url":64,"created_at":65,"category":13},"c66ec601-83a5-4f30-933d-9cb6f033d1b1","prompt-engineering-writing-skill-not-magic-trick-zh","提示工程不是魔法，是寫作能力","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781470976122-5307.png","2026-06-14T21:02:27.880576+00:00",{"id":67,"slug":68,"title":69,"cover_image":70,"image_url":70,"created_at":71,"category":13},"2a3ab73e-e585-42cb-9ee8-1552d1307bb8","open-notebook-turns-notebooklm-into-open-source-zh","Open-Notebook 讓 NotebookLM 變開源","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781450302934-yaye.png","2026-06-14T15:17:50.078985+00:00",{"id":73,"slug":74,"title":75,"cover_image":76,"image_url":76,"created_at":77,"category":13},"8c54af61-2536-4778-b286-fbc4ba04b5b8","gpu-mag-list-turns-gpu-tests-into-workflow-zh","GPU Mag 清單變成測試流程","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781440405583-axcq.png","2026-06-14T12:33:00.102614+00:00",{"id":79,"slug":80,"title":81,"cover_image":82,"image_url":82,"created_at":83,"category":13},"4e519cd3-4dcd-41b6-8ff1-66a58921acf7","openai-pricing-turns-token-math-into-budgets-zh","OpenAI 定價把 token 算成預算","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781436795172-y91a.png","2026-06-14T11:32:53.757498+00:00",[85,90,95,100,105,110,115,120,125,130],{"id":86,"slug":87,"title":88,"created_at":89},"855cd52f-6fab-46cc-a7c1-42195e8a0de4","surepath-real-time-mcp-policy-controls-zh","SurePath 推出即時 MCP 政策控管","2026-03-26T07:57:40.77233+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"9b19ab54-edef-4dbd-9ce4-a51e4bae4ebb","mcp-in-2026-the-ai-tool-layer-teams-use-zh","2026 年 MCP：團隊真的在用的 AI 工具層","2026-03-26T08:01:46.589694+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"af9c46c3-7a28-410b-9f04-32b3de30a68c","prompting-in-2026-what-actually-works-zh","2026 提示工程，真正有用的是什麼","2026-03-26T08:08:12.453028+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"05553086-6ed0-4758-81fd-6cab24b575e0","garry-tan-open-sources-claude-code-toolkit-zh","Garry Tan 開源 Claude Code 工具包","2026-03-26T08:26:20.068737+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"042a73a2-18a2-433d-9e8f-9802b9559aac","github-ai-projects-to-watch-in-2026-zh","2026 必看 20 個 GitHub AI 專案","2026-03-26T08:28:09.619964+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"a5f94120-ac0d-4483-9a8b-63590071ac6a","claude-code-vs-cursor-2026-zh","Claude Code 與 Cursor 深度對比：202…","2026-03-26T13:27:14.279193+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"0975afa1-e0c7-4130-a20d-d890eaed995e","practical-github-guide-learning-ml-2026-zh","2026 機器學習入門 GitHub 實用指南","2026-03-27T01:16:49.712576+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"bfdb467a-290f-4a80-b3a9-6f081afb6dff","aiml-2026-student-ai-ml-lab-repo-review-zh","AIML-2026：像課綱的學生實驗 Repo","2026-03-27T01:21:51.467798+00:00",{"id":126,"slug":127,"title":128,"created_at":129},"80cabc3e-09fc-4ff5-8f07-b8d68f5ae545","ai-trending-github-repos-and-research-feeds-zh","AI Trending：把 AI 資源收成一張表","2026-03-27T01:31:35.262183+00:00",{"id":131,"slug":132,"title":133,"created_at":134},"3ce6e6e2-bac5-463e-9f8d-45caabcc61f7","awesome-ai-for-science-research-tools-map-zh","AI 科研工具清單，開始像地圖了","2026-03-27T01:46:50.521945+00:00"]