[RSCH] 6 分鐘閱讀OraCore 編輯部

香農尺度律解釋 LLM 過訓練

這篇論文把 LLM 訓練看成帶雜訊的資訊傳輸,說明為何算力增加時,模型在噪聲下反而可能變差。

分享 LinkedIn
香農尺度律解釋 LLM 過訓練

這篇論文把 LLM 訓練看成帶雜訊的資訊傳輸,說明為何算力增加時,模型在噪聲下反而可能變差。

  • 研究機構:arXiv 摘要未明確標註
  • 核心數據:pooled R² = 0.847
  • 突破點:把訓練建成雜訊通道

LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws 想處理一個很實際的問題:大家熟悉的 scaling law,通常都默認「模型更大、資料更多、算力更高,表現就會一路變好」。但真實訓練裡,雜訊一旦變強,這條直線就不一定成立。這篇摘要的重點很明確:當訊號雜訊比掉到某個門檻以下,更多 scale 不一定帶來更好結果,甚至可能把模型推進更差的區間。

這個切法對開發者很有感。因為失敗模式不只是「邊際效益遞減」而已,而是可能出現非單調的退化。也就是說,訓練還在繼續、算力還在加,但 loss 或表現不一定照著你期待的方向走。這篇論文就是要替這種現象找一個統一的理論框架。

這篇在補哪個洞

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

傳統 scaling law 多半是單調的 power law。它們假設你只要持續增加 compute、參數或資料,loss 就會穩定往下掉。摘要直接點出,這種觀點無法解釋一些非單調行為,例如 catastrophic overtraining,還有量化之後的性能退化。

香農尺度律解釋 LLM 過訓練

這些問題不是理論上的小瑕疵,而是實作裡真的會碰到的坑。模型在前期擴大時看起來正常,後面卻可能因為過訓練、擾動或量化而變差。作者想做的,是把這些看似分散的失敗案例,收進同一套說法裡。

摘要裡最重要的轉向,是它不只說「雜訊很重要」,而是說雜訊會改變 scaling curve 的形狀。也就是說,單純把模型、資料或訓練步數拉大,並不保證進步;如果 SNR 沒跟上,曲線可能從單調改善,轉成 U 形退化。

方法怎麼看,才不會太抽象

這篇的核心做法,是把 LLM 訓練映射成通訊理論問題。作者把模型參數視為 channel bandwidth,把訓練 tokens 視為 signal power。這樣一來,訓練不再只是最佳化曲線,而比較像在雜訊通道裡傳遞資訊。

這個比喻之所以有用,是因為它把「學習訊號」和「內在雜訊」之間的關係講得更清楚。不是所有 scale 都會幫助模型吸收更多有效訊號。當模型已經超出可用容量,額外的 scale 可能只是在放大雜訊,而不是把訊號榨得更乾淨。

摘要提到,這套 formulation 能同時描述單調與非單調的行為。它被設計來解釋為什麼有些訓練曲線平順下降,有些卻會出現 loss basin 或 U-shaped curve。摘要也說,它能處理 Gaussian noise、quantization 這類擾動造成的退化。

論文實際證明了什麼

作者用 Pythia 和 OLMo2 做驗證,涵蓋 Gaussian noise、quantization,以及在 math、QA、code 任務上的 supervised fine-tuning。摘要沒有公開完整 benchmark 細節,所以這裡沒有逐項任務準確率可以完整列出。它能直接提供的是結論層級的訊息:這個新的 law 整體上比傳統 scaling laws 和近期的 perturbation-aware laws 表現更好。

香農尺度律解釋 LLM 過訓練

比較具體的一個數字,是作者用 Pythia 在最多 6.9B parameters、180B tokens 的資料上擬合,然後外推到沒看過的 12B Pythia 與 307B tokens,得到 pooled R² = 0.847。對做訓練曲線預測的人來說,這種外推能力很重要,因為它直接關係到你能不能在把完整算力燒完之前,先估出這輪訓練值不值得繼續跑。

摘要還說,這個 Shannon Scaling Law 能抓到前人方法漏掉的 loss basin。這代表它不只是把趨勢線擬合得更漂亮,而是更能描述在擾動或過訓練發生時,曲線怎麼彎、怎麼掉。當然,這裡仍然只有摘要層級的說法,真正細節還是要看全文。

對開發者有什麼影響

如果你有在訓練或微調模型,這篇其實是在提醒一件事:不要把「更大」直接等同於「更穩」。摘要的論點是,只要 SNR 沒保住,checkpoint 再大、run 再長,也不保證比較好。這對 overtraining、quantization、以及任何訓練後還要再經過擾動的流程,都很有影響。

對做 capacity planning 的團隊來說,這篇的價值在於預測。若一條 law 能用較小模型、較短 token budget 去外推更大、未見過的設定,就能幫你估算一輪 run 什麼時候開始不划算。就算你不打算直接採用這套理論,至少也會被提醒:評估 scaling 時,別只看乾淨條件,還要看噪聲條件。

在部署端,quantization 的意義也被放大了。量化常被當成壓縮問題,但這篇把它放回同一個 scaling 討論裡,和訓練雜訊、過訓練一起看。這樣比較容易理解,為什麼某個模型在 full precision 看起來正常,一壓縮就開始掉。

還有哪些限制

摘要對理論和 headline 結果講得很清楚,但實務上還是留了不少空白。它沒有給完整 benchmark 表,所以我們無法從摘要知道每個任務、每種擾動到底贏多少。它也沒有說這套理論在 Pythia 和 OLMo2 之外,能不能穩定套到其他模型家族。

另一個要保留的態度是:fit 得好,不等於就是萬用規則。作者主張的是一個統一框架,但目前可見的材料,只能證明它在有限的模型、擾動與任務上成立。開發者比較適合把它當成理解失敗模式的鏡頭,而不是保證所有 noisy training run 都會照同一條曲線走的定律。

不過,這篇論文最有力的地方還是很清楚:它把 LLM scaling 從「越大越好」改寫成「這是一個 capacity problem」。一旦噪聲壓過訊號,曲線就可能往錯的方向彎。

總結

這篇的貢獻不是再補一條普通的 scaling law,而是用 Shannon 的語言去解釋,為什麼模型在噪聲下會過訓練、會退化、甚至會出現 U 形表現。對訓練、微調、量化或預估 LLM 成本的人來說,這是一個值得放進工具箱的視角。

它也提醒了一個很實際的工程原則:scale 不是唯一答案,noise 才是決定曲線會不會轉彎的關鍵。當你在規劃下一輪訓練時,除了看算力,也要看訊號還剩多少。

  • 把 LLM 訓練改寫成雜訊通道問題。
  • 能解釋 overtraining 與量化退化這類非單調失敗。
  • 在摘要提供的設定下,對 Pythia 外推得到 pooled R² = 0.847。