香農尺度律解釋 LLM 過訓練

OraCore Editors

返回首頁

[RSCH] 2026年5月25日6 分鐘閱讀OraCore 編輯部

香農尺度律解釋 LLM 過訓練

這篇論文把 LLM 訓練看成帶雜訊的資訊傳輸，說明為何算力增加時，模型在噪聲下反而可能變差。

Shannon theory scaling law quantization LLM training overtraining

分享 LinkedIn

這篇論文把 LLM 訓練看成帶雜訊的資訊傳輸，說明為何算力增加時，模型在噪聲下反而可能變差。

研究機構：arXiv 摘要未明確標註
核心數據：pooled R² = 0.847
突破點：把訓練建成雜訊通道

LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws 想處理一個很實際的問題：大家熟悉的 scaling law，通常都默認「模型更大、資料更多、算力更高，表現就會一路變好」。但真實訓練裡，雜訊一旦變強，這條直線就不一定成立。這篇摘要的重點很明確：當訊號雜訊比掉到某個門檻以下，更多 scale 不一定帶來更好結果，甚至可能把模型推進更差的區間。

這個切法對開發者很有感。因為失敗模式不只是「邊際效益遞減」而已，而是可能出現非單調的退化。也就是說，訓練還在繼續、算力還在加，但 loss 或表現不一定照著你期待的方向走。這篇論文就是要替這種現象找一個統一的理論框架。

這篇在補哪個洞

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

傳統 scaling law 多半是單調的 power law。它們假設你只要持續增加 compute、參數或資料，loss 就會穩定往下掉。摘要直接點出，這種觀點無法解釋一些非單調行為，例如 catastrophic overtraining，還有量化之後的性能退化。

這些問題不是理論上的小瑕疵，而是實作裡真的會碰到的坑。模型在前期擴大時看起來正常，後面卻可能因為過訓練、擾動或量化而變差。作者想做的，是把這些看似分散的失敗案例，收進同一套說法裡。

摘要裡最重要的轉向，是它不只說「雜訊很重要」，而是說雜訊會改變 scaling curve 的形狀。也就是說，單純把模型、資料或訓練步數拉大，並不保證進步；如果 SNR 沒跟上，曲線可能從單調改善，轉成 U 形退化。

方法怎麼看，才不會太抽象

這篇的核心做法，是把 LLM 訓練映射成通訊理論問題。作者把模型參數視為 channel bandwidth，把訓練 tokens 視為 signal power。這樣一來，訓練不再只是最佳化曲線，而比較像在雜訊通道裡傳遞資訊。

這個比喻之所以有用，是因為它把「學習訊號」和「內在雜訊」之間的關係講得更清楚。不是所有 scale 都會幫助模型吸收更多有效訊號。當模型已經超出可用容量，額外的 scale 可能只是在放大雜訊，而不是把訊號榨得更乾淨。

摘要提到，這套 formulation 能同時描述單調與非單調的行為。它被設計來解釋為什麼有些訓練曲線平順下降，有些卻會出現 loss basin 或 U-shaped curve。摘要也說，它能處理 Gaussian noise、quantization 這類擾動造成的退化。

論文實際證明了什麼

作者用 Pythia 和 OLMo2 做驗證，涵蓋 Gaussian noise、quantization，以及在 math、QA、code 任務上的 supervised fine-tuning。摘要沒有公開完整 benchmark 細節，所以這裡沒有逐項任務準確率可以完整列出。它能直接提供的是結論層級的訊息：這個新的 law 整體上比傳統 scaling laws 和近期的 perturbation-aware laws 表現更好。

比較具體的一個數字，是作者用 Pythia 在最多 6.9B parameters、180B tokens 的資料上擬合，然後外推到沒看過的 12B Pythia 與 307B tokens，得到 pooled R² = 0.847。對做訓練曲線預測的人來說，這種外推能力很重要，因為它直接關係到你能不能在把完整算力燒完之前，先估出這輪訓練值不值得繼續跑。

摘要還說，這個 Shannon Scaling Law 能抓到前人方法漏掉的 loss basin。這代表它不只是把趨勢線擬合得更漂亮，而是更能描述在擾動或過訓練發生時，曲線怎麼彎、怎麼掉。當然，這裡仍然只有摘要層級的說法，真正細節還是要看全文。

對開發者有什麼影響

如果你有在訓練或微調模型，這篇其實是在提醒一件事：不要把「更大」直接等同於「更穩」。摘要的論點是，只要 SNR 沒保住，checkpoint 再大、run 再長，也不保證比較好。這對 overtraining、quantization、以及任何訓練後還要再經過擾動的流程，都很有影響。

對做 capacity planning 的團隊來說，這篇的價值在於預測。若一條 law 能用較小模型、較短 token budget 去外推更大、未見過的設定，就能幫你估算一輪 run 什麼時候開始不划算。就算你不打算直接採用這套理論，至少也會被提醒：評估 scaling 時，別只看乾淨條件，還要看噪聲條件。

在部署端，quantization 的意義也被放大了。量化常被當成壓縮問題，但這篇把它放回同一個 scaling 討論裡，和訓練雜訊、過訓練一起看。這樣比較容易理解，為什麼某個模型在 full precision 看起來正常，一壓縮就開始掉。

還有哪些限制

摘要對理論和 headline 結果講得很清楚，但實務上還是留了不少空白。它沒有給完整 benchmark 表，所以我們無法從摘要知道每個任務、每種擾動到底贏多少。它也沒有說這套理論在 Pythia 和 OLMo2 之外，能不能穩定套到其他模型家族。

另一個要保留的態度是：fit 得好，不等於就是萬用規則。作者主張的是一個統一框架，但目前可見的材料，只能證明它在有限的模型、擾動與任務上成立。開發者比較適合把它當成理解失敗模式的鏡頭，而不是保證所有 noisy training run 都會照同一條曲線走的定律。

不過，這篇論文最有力的地方還是很清楚：它把 LLM scaling 從「越大越好」改寫成「這是一個 capacity problem」。一旦噪聲壓過訊號，曲線就可能往錯的方向彎。

總結

這篇的貢獻不是再補一條普通的 scaling law，而是用 Shannon 的語言去解釋，為什麼模型在噪聲下會過訓練、會退化、甚至會出現 U 形表現。對訓練、微調、量化或預估 LLM 成本的人來說，這是一個值得放進工具箱的視角。

它也提醒了一個很實際的工程原則：scale 不是唯一答案，noise 才是決定曲線會不會轉彎的關鍵。當你在規劃下一輪訓練時，除了看算力，也要看訊號還剩多少。

把 LLM 訓練改寫成雜訊通道問題。
能解釋 overtraining 與量化退化這類非單調失敗。
在摘要提供的設定下，對 Pythia 外推得到 pooled R² = 0.847。

// 相關文章

香農尺度律解釋 LLM 過訓練

這篇在補哪個洞

訂閱 AI 趨勢週報

方法怎麼看，才不會太抽象

論文實際證明了什麼

對開發者有什麼影響

還有哪些限制

總結

CRDT 讓副本不用鎖也能同步

後決定性分散系：自治基礎設施新框架

用因果法量化任務可學性

RL 先接管再放手

OmniGameArena 讓 VLM 遊戲代理更好比

TurboQuant 在 Google 測試中省下 6x KV 快取