為何 embedding LR 決定 μP 轉移

OraCore Editors

返回首頁

[RSCH] 2026年5月21日6 分鐘閱讀OraCore 編輯部

為何 embedding LR 決定 μP 轉移

這篇論文指出，μP 比標準參數化更會轉移，關鍵不是整套方法本身，而是 embedding layer 的學習率設定。

hyperparameter transfer weight decay μP embedding layer learning rate AdamW

分享 LinkedIn

這篇論文指出，μP 比標準參數化更會轉移，關鍵不是整套方法本身，而是 embedding layer 的學習率設定。

研究機構：arXiv 摘要未明確標註
核心數據：摘要無公開 benchmark 數字
突破點：拆解 embedding LR

對訓練大型語言模型的人來說，超參數能不能從小模型一路搬到大模型，差別非常大。搬得過去，前期實驗就有價值；搬不過去，放大規模後很容易重來。這篇論文要處理的，就是這種「轉移」到底怎麼量、怎麼比，以及為什麼 μP 看起來比標準參數化更容易成功。

作者沒有把問題停在「μP 好像比較穩」這種直覺層次，而是想把它拆開。因為如果你只看結果，很難知道到底是整個參數化設計有用，還是某個局部設定在幫忙。對工程實作來說，這個差別很重要，因為它決定你是要整套換掉，還是只要修一個關鍵超參數。

這篇在解什麼痛點

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

超參數轉移聽起來很簡單：先在小模型上調好 learning rate、weight decay 等設定，再把同一組設定拿去大模型用。但真正在訓練時，這件事常常不穩。規模一變，最佳設定就可能跟著變，甚至直接讓訓練失敗。

論文把常見做法分成兩條路。第一條是先擬合 scaling law，再外推到更大規模。第二條是選一種參數化方式，像 μP，讓最佳超參數盡量接近尺度不變。問題是，這兩條路通常只看「有沒有轉移成功」，卻很少把轉移拆成可比較的量。

作者認為，這種模糊判斷不夠用。因為一個方法可能 fit 很漂亮，但外推一放大就歪掉；也可能在某個尺度表現正常，到了更大模型卻留下隱性代價。這篇工作的價值，就是把這些不同失敗模式拆開來看。

方法怎麼運作

這篇論文提出一個用來量化超參數轉移的框架，分成三個指標。第一個看 scaling law 的擬合品質。第二個看外推錯誤的魯棒性。第三個看參數化本身帶來的 asymptotic loss penalty，也就是往大規模走時會不會留下額外損失。

這樣拆的好處很直接。你不再只問「這方法有沒有用」，而是能分辨它是在哪一段出問題。可能是 fit 不好，也可能是外推不穩，或者是方法本身有長期代價。對研究和工程都很有幫助，因為它把原本很抽象的「可轉移性」變成可以觀察的幾個面向。

接著，作者用一系列 ablation 來比較 μP 和 SP，訓練設定是 AdamW。這裡的重點不是單純比誰最後分數高，而是要找出 μP 優勢到底來自哪個局部機制。也就是說，作者想知道：μP 真的是整體設計比較好，還是它只是剛好把某個瓶頸修掉了。

根據摘要，答案偏向後者。作者發現，μP 相對於 SP 的主要優勢，來自 embedding layer learning rate。換句話說，SP 的 embedding layer learning rate 會成為瓶頸，造成訓練不穩。把它按 width 放大，讓它對齊 μP 的做法，就能讓訓練更平滑，也更容易轉移超參數。

論文實際證明了什麼

這篇最重要的結論，不是「μP 比 SP 好」這種大方向判斷，而是把優勢縮小到一個具體設定：embedding layer 的 learning rate。這代表 μP 的許多好處，可能不是來自一個神祕的整體魔法，而是來自這個局部調整剛好解掉了 SP 的卡點。

對開發者來說，這種結論很實用。因為它暗示你不一定非得整套切到 μP，才有機會拿到大部分轉移收益。至少在這份摘要描述的結果裡，關鍵是把 embedding layer 的 learning rate 拉到合適的尺度，而不是把所有超參數都當成同一件事。

論文還提到 weight decay 的兩個面向。第一，weight decay 會改善 scaling law 的擬合。第二，在固定 token-per-parameter 的設定下，weight decay 會傷害外推魯棒性。這兩個結果不是同方向，反而提醒人：一個超參數可能在某個評估指標上幫忙，卻在另一個面向上拖累。

不過，摘要沒有公開完整 benchmark 數字。沒有具體 loss、accuracy、compute 節省或 scaling 常數，所以從這份 raw 資料只能做定性解讀。能確定的是，這篇論文提出了量化框架，也透過 ablation 指出 embedding layer learning rate 是 μP 轉移行為的核心驅動因素。

對開發者有什麼影響

如果你平常要在不同規模的模型之間做實驗，這篇論文提供了一個更精準的觀察點：不要把所有 learning rate 都看成同一層級的問題，embedding layer 可能才是最容易出事的地方。尤其在 SP 裡，這一層可能就是讓訓練隨 width 變化時不穩的源頭。

這對做小模型 sweep、再把設定搬到大模型的人特別有用。很多時候你在小模型上覺得設定沒問題，但一放大就開始飄，原因可能不是整體訓練策略錯了，而是 embedding layer 的 learning rate 沒跟著 scale。這篇論文的訊號很明確：把它按 width 對齊，可能比你想像中更重要。

另一個實務上的提醒是，scaling law fit 不是全部。你當然希望擬合好，但還要看外推穩不穩，以及參數化本身會不會留下長期損失。這篇框架的價值就在這裡，它把「看起來有轉移」拆成幾個不同問題，讓你知道到底是哪一段在幫忙。

限制與未解問題

摘要也留下不少空白。它沒有說這個結論在多少種架構、資料集或除了 AdamW 之外的 optimizer 上都成立。也沒有提供跨任務的廣泛驗證，所以不能直接把結果當成所有訓練場景都通用的規則。

另一個限制是，摘要沒有 benchmark 數字。這表示我們無法從這份資料判斷實際提升有多大，也不能比較不同方法之間的差距是否足以改變工程決策。從研究新聞角度來看，這篇比較像是把因果關係釐清，而不是端出一個大幅刷新 SOTA 的結果。

即便如此，它仍然有價值，因為它縮小了搜尋空間。如果 μP 的主要收益其實來自 embedding layer learning rate，那工程上就有一個更具體、也更容易調整的槓桿。這比把問題歸因成「某種參數化天生比較好」更可操作。

結論

這篇論文的核心訊息很直接：超參數轉移常常不是整體方法誰贏誰輸，而是某個局部設定有沒有對準。這裡的關鍵點是 embedding layer learning rate。作者用一個三指標框架量化轉移，再用 ablation 指出 μP 的主要優勢，來自把這個瓶頸處理好。

對開發者來說，最實際的 takeaway 不是「永遠用 μP」，而是「先盯住 embedding layer 的 learning rate」。當你在小模型上調參，再準備把設定搬去更大規模時，這個細節可能比你原本以為的更重要。

也就是說，這篇不是在告訴你一個新神技，而是在提醒你：模型放大後會不會穩，常常取決於一個看起來很小的 optimization 細節。

超參數轉移可以拆成 fit、外推魯棒性與長期損失三個面向。
μP 的主要優勢，摘要指向 embedding layer learning rate。
weight decay 對擬合有利，但在固定 token-per-parameter 下可能傷害外推。

// 相關文章

為何 embedding LR 決定 μP 轉移

這篇在解什麼痛點

訂閱 AI 趨勢週報

方法怎麼運作

論文實際證明了什麼

對開發者有什麼影響

限制與未解問題

結論

CRDT 讓副本不用鎖也能同步

後決定性分散系：自治基礎設施新框架

用因果法量化任務可學性

RL 先接管再放手

OmniGameArena 讓 VLM 遊戲代理更好比

TurboQuant 在 Google 測試中省下 6x KV 快取