[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-why-distribution-fine-tuning-beats-sft-writing-zh":3,"article-related-why-distribution-fine-tuning-beats-sft-writing-zh":31,"series-research-63eabb4a-63f4-4ea4-b959-85470c2e5691":82},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":23,"views":27,"created_at":28,"published_at":29,"topic_cluster_id":30},"63eabb4a-63f4-4ea4-b959-85470c2e5691","why-distribution-fine-tuning-beats-sft-writing-zh","為什麼 Distribution Fine Tuning 比 SFT 更適合 …","\u003Cp data-speakable=\"summary\">Distribution Fine Tuning 比 SFT 更適合 \u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 寫作，因為它更接近人類文本的分布，而不是只學會表面格式。\u003C\u002Fp>\u003Cp>Distribution Fine Tuning 才是修正 LLM 寫作 slop 的正解，單靠 SFT 不夠把文字訓練成像人寫的。\u003C\u002Fp>\u003Cp>Rosmine 的論點很直接：只做 supervised fine-tuning 的模型，雖然能照指令作答，卻仍會過度重複詞組、套用萬用結構，並且抓不到訓練集裡真正的語氣與節奏。文章用三種指標支撐這件事，包括 \u003Ca href=\"\u002Ftag\u002Ftoken\">token\u003C\u002Fa> distribution distance、embedding-level distance 與 judge model preference score。在報告的 benchmark 上，DFT 在寫作品質相關的指標上壓過 SFT「super baseline」，而且不是靠暴增算力或模型大小換來。這不是小修小補，而是證明現行 post-training 流程很可能優化錯了目標。\u003C\u002Fp>\u003Ch2>第一個論點：SFT 優化的是樣本，不是分布\u003C\u002Fh2>\u003Cp>SFT 教模型模仿單一答案，但寫作品質本質上是分布問題。模型就算學會正確格式，若沒有學到細節密度、句型變化、詞頻節奏，輸出仍會看起來工整卻很空。Rosmine 文中用 MMD 和 token L2 distance 量化這個落差，\u003Ca href=\"\u002Fnews\u002F5-docker-engine-versions-to-watch-2026-zh\">重點\u003C\u002Fa>不是模型不會寫，而是它在統計上偏離了好文本的分布。寫作一旦統計上偏掉，就會表現成重複、過度順滑、以及老掉牙的轉折句。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779321829749-q04l.png\" alt=\"為什麼 Distribution Fine Tuning 比 SFT 更適合 …\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>數字把差距拉得很清楚。文章表格裡，14B 的 DFT 模型做到 MMD 0.018、JMQ 0.80，而 14B 的 SFT super baseline 則是 MMD 0.037、JMQ 0.49。這代表 judge 偏好大幅上升，分布失配也明顯下降。作者還報告 DFT 相較 SFT baseline 在 creativity 提升 164%、coherence 提升 28%、clarity 提升 16%、meaningful detail 提升 146%。不論你\u003Ca href=\"\u002Fnews\u002Fnist-narrows-nvd-container-security-zh\">怎麼\u003C\u002Fa>看指標設計，方向都一致：對寫作來說，貼近訓練分布比單純學會服從指令更重要。\u003C\u002Fp>\u003Ch2>第二個論點：slop 不是風格問題，而是訓練問題\u003C\u002Fh2>\u003Cp>很多人把 slop 當成模型語氣不好，這種說法太輕了。它其實是訓練流程獎勵錯誤行為的結果。文章指出，像 em dash、\"it’s not X, it’s Y\"、以及空泛抽象語句這些過度使用的模式，常常是 post-training 特別是 RLHF reward hacking 的副作用。這個解釋有說服力，因為它把表面上的文風失真，直接連到最佳化機制。如果模型一直學到「安全、討好、容易被接受」的句子比較容易拿高分，它就會持續產出這類句子。光靠改 prompt，根本碰不到根因。\u003C\u002Fp>\u003Cp>樣本輸出也支持這個判斷。文章展示的 SFT 模型在某些 temperature 下，會不斷重複同一個主詞；在另一些設定下，又會跳進不連貫的轉折，甚至冒出非英文字符。DFT 被當成修正方案，因為它把輸出往訓練分布拉回來，而不是往一種泛用但空洞的「有幫助」風格推去。這對做面向用戶產品的人尤其重要。技術上合規、實際上乾癟的 chatbot，仍然是失敗產品。\u003Ca href=\"\u002Fnews\u002F5-docker-basics-for-aws-users-zh\">使用者\u003C\u002Fa>一眼就看得出每段都像模板，也看得出模型自信滿滿卻內容薄弱。\u003C\u002Fp>\u003Ch2>反方可能怎麼說\u003C\u002Fh2>\u003Cp>最強的反對意見是：DFT 可能只是把「像人寫」這件事做得更像，卻不一定更有用、更可信，也不一定更能跨任務泛化。若評估依賴特定 judge model、特定資料切片、以及特定的「human-like」定義，那麼這些提升未必能轉移到所有場景。對 code、法律文件、客服回覆、創作小說來說，正確分布本來就不同。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779321830624-hnjs.png\" alt=\"為什麼 Distribution Fine Tuning 比 SFT 更適合 …\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這個質疑成立，但它推翻不了 SFT，只是在劃定 DFT 的邊界。正確結論不是 DFT 能解決一切輸出問題，而是現有 post-training 堆疊確實漏掉了寫作品質這一層，因為它太偏重 helpfulness 與 preference，卻不夠重視真實好文本的分布。Rosmine 的結果已經足夠強，足以證明 distribution matching 是缺失的一環。即使 DFT 仍需要 domain-specific 調校與更廣泛驗證，舉證責任也已經轉移：現在輪到 SFT 擁護者說明，為什麼一個更接近人類文本分布的方法，不該優先用在寫作任務上。\u003C\u002Fp>\u003Ch2>你能做什麼\u003C\u002Fh2>\u003Cp>如果你是工程師，別再把寫作品質當成 \u003Ca href=\"\u002Ftag\u002Fprompt-engineering\">prompt engineering\u003C\u002Fa> 問題，改成把它當分布問題來量測。建立同時追蹤重複率、內容密度、以及人類偏好勝率的 eval，再用固定 baseline 比較不同 post-training 方法，不要靠 sampler 設定挑結果。若你是 PM 或創辦人，不要把「看起來很會寫」當成產品標準，要求輸出必須自然變化、保有細節，並且能在和真人文本並排時站得住。這件事的結論很直白：如果你的模型寫得像模板，修法在訓練，不在措辭。\u003C\u002Fp>","Distribution Fine Tuning 比 SFT 更適合 LLM 寫作，因為它更接近人類文本的分布，而不是只學會表面格式。","rosmine.ai","https:\u002F\u002Frosmine.ai\u002F2026\u002F05\u002F18\u002Ffixing-llm-writing-with-distribution-fine-tuning\u002F",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779321829749-q04l.png","research","zh","57c29f14-f339-40f7-94a1-d7c8b9ef48ae",[17,18,19,20,21,22],"Distribution Fine Tuning","SFT","LLM 寫作","分布匹配","post-training","slop",[24,25,26],"SFT 主要學會樣本格式，DFT 更重視整體文本分布。","寫作 slop 多半是訓練目標錯位，不是單純風格問題。","對寫作任務，分布匹配比單純指令跟隨更重要。",4,"2026-05-21T00:03:24.901131+00:00","2026-05-21T00:03:24.87+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":32,"relatedLang":41,"relatedPosts":45},[33,35,37,39,40],{"name":18,"slug":34},"sft",{"name":19,"slug":36},"llm-寫作",{"name":17,"slug":38},"distribution-fine-tuning",{"name":21,"slug":21},{"name":20,"slug":20},{"id":15,"slug":42,"title":43,"language":44},"why-distribution-fine-tuning-beats-sft-writing-en","Why Distribution Fine Tuning beats SFT for LLM writing","en",[46,52,58,64,70,76],{"id":47,"slug":48,"title":49,"cover_image":50,"image_url":50,"created_at":51,"category":13},"f374155a-c29e-478c-b7a5-679cad1c51e4","crdts-keep-replicas-in-sync-without-locks-zh","CRDT 讓副本不用鎖也能同步","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781011086259-4p4k.png","2026-06-09T13:17:34.493426+00:00",{"id":53,"slug":54,"title":55,"cover_image":56,"image_url":56,"created_at":57,"category":13},"4b3b5a50-45b7-4238-a38b-160f82e323ff","post-deterministic-systems-autonomous-infra-zh","後決定性分散系：自治基礎設施新框架","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781010194792-5ogb.png","2026-06-09T13:02:32.717551+00:00",{"id":59,"slug":60,"title":61,"cover_image":62,"image_url":62,"created_at":63,"category":13},"04e45398-9814-4907-b416-fcb5b8d69508","causal-learnability-formal-language-tasks-zh","用因果法量化任務可學性","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780987696075-l4g0.png","2026-06-09T06:47:34.438642+00:00",{"id":65,"slug":66,"title":67,"cover_image":68,"image_url":68,"created_at":69,"category":13},"75bcc569-5e89-45c8-b809-6f169e929f4b","rl-training-hands-off-control-gradually-zh","RL 先接管再放手","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780986786312-03yo.png","2026-06-09T06:32:32.849589+00:00",{"id":71,"slug":72,"title":73,"cover_image":74,"image_url":74,"created_at":75,"category":13},"e3ecab4b-7cc7-4246-baf6-e1c170d86ca5","omnigamearena-vlm-game-agent-benchmark-zh","OmniGameArena 讓 VLM 遊戲代理更好比","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780985893022-70pl.png","2026-06-09T06:17:32.189729+00:00",{"id":77,"slug":78,"title":79,"cover_image":80,"image_url":80,"created_at":81,"category":13},"6f25a29c-cbb8-4f53-9af7-1656b394333a","turboquant-cuts-kv-cache-memory-6x-google-tests-zh","TurboQuant 在 Google 測試中省下 6x KV 快取","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780906682236-sqe2.png","2026-06-08T08:17:21.878314+00:00",[83,88,93,98,103,108,113,118,123,128],{"id":84,"slug":85,"title":86,"created_at":87},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":89,"slug":90,"title":91,"created_at":92},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":129,"slug":130,"title":131,"created_at":132},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]