[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-embedding-layer-lr-hyperparameter-transfer-zh":3,"article-related-embedding-layer-lr-hyperparameter-transfer-zh":30,"series-research-e786bb53-c4b9-48d5-a337-96e872e96e56":83},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"e786bb53-c4b9-48d5-a337-96e872e96e56","embedding-layer-lr-hyperparameter-transfer-zh","為何 embedding LR 決定 μP 轉移","\u003Cp data-speakable=\"summary\">這篇論文指出，μP 比標準參數化更會轉移，關鍵不是整套方法本身，而是 embedding layer 的學習率設定。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：摘要無公開 benchmark 數字\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：拆解 embedding LR\u003C\u002Fli>\u003C\u002Ful>\u003Cp>對訓練\u003Ca href=\"\u002Fnews\u002Fwhat-large-language-models-are-how-they-work-zh\">大型語言\u003C\u002Fa>模型的人來說，超參數能不能從小模型一路搬到大模型，差別非常大。搬得過去，前期實驗就有價值；搬不過去，放大規模後很容易重來。這篇論文要處理的，就是這種「轉移」到底\u003Ca href=\"\u002Fnews\u002Fhow-to-write-clear-ai-prompts-zh\">怎麼\u003C\u002Fa>量、怎麼比，以及為什麼 μP 看起來比標準參數化更容易成功。\u003C\u002Fp>\u003Cp>作者沒有把問題停在「μP 好像比較穩」這種直覺層次，而是想把它拆開。因為如果你只看結果，很難知道到底是整個參數化設計有用，還是某個局部設定在幫忙。對工程實作來說，這個差別很重要，因為它決定你是要整套換掉，還是只要修一個關鍵超參數。\u003C\u002Fp>\u003Ch2>這篇在解什麼痛點\u003C\u002Fh2>\u003Cp>超參數轉移聽起來很簡單：先在小模型上調好 learning rate、weight decay 等設定，再把同一組設定拿去大模型用。但真正在訓練時，這件事常常不穩。規模一變，最佳設定就可能跟著變，甚至直接讓訓練失敗。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779344766617-4pa3.png\" alt=\"為何 embedding LR 決定 μP 轉移\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>論文把常見做法分成兩條路。第一條是先擬合 scaling law，再外推到更大規模。第二條是選一種參數化方式，像 μP，讓最佳超參數盡量接近尺度不變。問題是，這兩條路通常只看「有沒有轉移成功」，卻很少把轉移拆成可比較的量。\u003C\u002Fp>\u003Cp>作者認為，這種\u003Ca href=\"\u002Fnews\u002Fprompt-engineering-vague-asks-usable-outputs-zh\">模糊\u003C\u002Fa>判斷不夠用。因為一個方法可能 fit 很漂亮，但外推一放大就歪掉；也可能在某個尺度表現正常，到了更大模型卻留下隱性代價。這篇工作的價值，就是把這些不同失敗模式拆開來看。\u003C\u002Fp>\u003Ch2>方法怎麼運作\u003C\u002Fh2>\u003Cp>這篇論文提出一個用來量化超參數轉移的框架，分成三個指標。第一個看 scaling law 的擬合品質。第二個看外推錯誤的魯棒性。第三個看參數化本身帶來的 asymptotic loss penalty，也就是往大規模走時會不會留下額外損失。\u003C\u002Fp>\u003Cp>這樣拆的好處很直接。你不再只問「這方法有沒有用」，而是能分辨它是在哪一段出問題。可能是 fit 不好，也可能是外推不穩，或者是方法本身有長期代價。對研究和工程都很有幫助，因為它把原本很抽象的「可轉移性」變成可以觀察的幾個面向。\u003C\u002Fp>\u003Cp>接著，作者用一系列 ablation 來比較 μP 和 SP，訓練設定是 AdamW。這裡的重點不是單純比誰最後分數高，而是要找出 μP 優勢到底來自哪個局部機制。也就是說，作者想知道：μP 真的是整體設計比較好，還是它只是剛好把某個瓶頸修掉了。\u003C\u002Fp>\u003Cp>根據摘要，答案偏向後者。作者發現，μP 相對於 SP 的主要優勢，來自 embedding layer learning rate。換句話說，SP 的 embedding layer learning rate 會成為瓶頸，造成訓練不穩。把它按 width 放大，讓它對齊 μP 的做法，就能讓訓練更平滑，也更容易轉移超參數。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>這篇最重要的結論，不是「μP 比 SP 好」這種大方向判斷，而是把優勢縮小到一個具體設定：embedding layer 的 learning rate。這代表 μP 的許多好處，可能不是來自一個神祕的整體魔法，而是來自這個局部調整剛好解掉了 SP 的卡點。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779344770344-6r6z.png\" alt=\"為何 embedding LR 決定 μP 轉移\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>對開發者來說，這種結論很實用。因為它暗示你不一定非得整套切到 μP，才有機會拿到大部分轉移收益。至少在這份摘要描述的結果裡，關鍵是把 embedding layer 的 learning rate 拉到合適的尺度，而不是把所有超參數都當成同一件事。\u003C\u002Fp>\u003Cp>論文還提到 weight decay 的兩個面向。第一，weight decay 會改善 scaling law 的擬合。第二，在固定 \u003Ca href=\"\u002Ftag\u002Ftoken\">token\u003C\u002Fa>-per-parameter 的設定下，weight decay 會傷害外推魯棒性。這兩個結果不是同方向，反而提醒人：一個超參數可能在某個評估指標上幫忙，卻在另一個面向上拖累。\u003C\u002Fp>\u003Cp>不過，摘要沒有公開完整 benchmark 數字。沒有具體 loss、accuracy、compute 節省或 scaling 常數，所以從這份 raw 資料只能做定性解讀。能確定的是，這篇論文提出了量化框架，也透過 ablation 指出 embedding layer learning rate 是 μP 轉移行為的核心驅動因素。\u003C\u002Fp>\u003Ch2>對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你平常要在不同規模的模型之間做實驗，這篇論文提供了一個更精準的觀察點：不要把所有 learning rate 都看成同一層級的問題，embedding layer 可能才是最容易出事的地方。尤其在 SP 裡，這一層可能就是讓訓練隨 width 變化時不穩的源頭。\u003C\u002Fp>\u003Cp>這對做小模型 sweep、再把設定搬到大模型的人特別有用。很多時候你在小模型上覺得設定沒問題，但一放大就開始飄，原因可能不是整體訓練策略錯了，而是 embedding layer 的 learning rate 沒跟著 scale。這篇論文的訊號很明確：把它按 width 對齊，可能比你想像中更重要。\u003C\u002Fp>\u003Cp>另一個實務上的提醒是，scaling law fit 不是全部。你當然希望擬合好，但還要看外推穩不穩，以及參數化本身會不會留下長期損失。這篇框架的價值就在這裡，它把「看起來有轉移」拆成幾個不同問題，讓你知道到底是哪一段在幫忙。\u003C\u002Fp>\u003Ch2>限制與未解問題\u003C\u002Fh2>\u003Cp>摘要也留下不少空白。它沒有說這個結論在多少種架構、資料集或除了 AdamW 之外的 optimizer 上都成立。也沒有提供跨任務的廣泛驗證，所以不能直接把結果當成所有訓練場景都通用的規則。\u003C\u002Fp>\u003Cp>另一個限制是，摘要沒有 benchmark 數字。這表示我們無法從這份資料判斷實際提升有多大，也不能比較不同方法之間的差距是否足以改變工程決策。從研究新聞角度來看，這篇比較像是把因果關係釐清，而不是端出一個大幅刷新 SOTA 的結果。\u003C\u002Fp>\u003Cp>即便如此，它仍然有價值，因為它縮小了搜尋空間。如果 μP 的主要收益其實來自 embedding layer learning rate，那工程上就有一個更具體、也更容易調整的槓桿。這比把問題歸因成「某種參數化天生比較好」更可操作。\u003C\u002Fp>\u003Ch2>結論\u003C\u002Fh2>\u003Cp>這篇論文的核心訊息很直接：超參數轉移常常不是整體方法誰贏誰輸，而是某個局部設定有沒有對準。這裡的關鍵點是 embedding layer learning rate。作者用一個三指標框架量化轉移，再用 ablation 指出 μP 的主要優勢，來自把這個瓶頸處理好。\u003C\u002Fp>\u003Cp>對開發者來說，最實際的 takeaway 不是「永遠用 μP」，而是「先盯住 embedding layer 的 learning rate」。當你在小模型上調參，再準備把設定搬去更大規模時，這個細節可能比你原本以為的更重要。\u003C\u002Fp>\u003Cp>也就是說，這篇不是在告訴你一個新神技，而是在提醒你：模型放大後會不會穩，常常取決於一個看起來很小的 optimization 細節。\u003C\u002Fp>\u003Cul>\u003Cli>超參數轉移可以拆成 fit、外推魯棒性與長期損失三個面向。\u003C\u002Fli>\u003Cli>μP 的主要優勢，摘要指向 embedding layer learning rate。\u003C\u002Fli>\u003Cli>weight decay 對擬合有利，但在固定 token-per-parameter 下可能傷害外推。\u003C\u002Fli>\u003C\u002Ful>","這篇論文指出，μP 比標準參數化更會轉移，關鍵不是整套方法本身，而是 embedding layer 的學習率設定。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.21486",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779344766617-4pa3.png","research","zh","87e30e9e-b4a7-4ec0-99aa-aea553d70869",[17,18,19,20,21],"hyperparameter transfer","μP","embedding layer learning rate","AdamW","weight decay",[23,24,25],"μP 的優勢不一定來自整體參數化，而可能主要來自 embedding layer learning rate。","作者把轉移拆成三個指標，讓 fit、外推與長期代價可以分開看。","摘要沒有公開 benchmark 數字，因此目前只能確定方向，不能量化實際幅度。",4,"2026-05-21T06:25:34.782362+00:00","2026-05-21T06:25:34.712+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":42,"relatedPosts":46},[32,34,36,38,40],{"name":17,"slug":33},"hyperparameter-transfer",{"name":21,"slug":35},"weight-decay",{"name":18,"slug":37},"μp",{"name":19,"slug":39},"embedding-layer-learning-rate",{"name":20,"slug":41},"adamw",{"id":15,"slug":43,"title":44,"language":45},"embedding-layer-lr-hyperparameter-transfer-en","Why embedding layer LR dominates hyperparameter transfer","en",[47,53,59,65,71,77],{"id":48,"slug":49,"title":50,"cover_image":51,"image_url":51,"created_at":52,"category":13},"f374155a-c29e-478c-b7a5-679cad1c51e4","crdts-keep-replicas-in-sync-without-locks-zh","CRDT 讓副本不用鎖也能同步","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781011086259-4p4k.png","2026-06-09T13:17:34.493426+00:00",{"id":54,"slug":55,"title":56,"cover_image":57,"image_url":57,"created_at":58,"category":13},"4b3b5a50-45b7-4238-a38b-160f82e323ff","post-deterministic-systems-autonomous-infra-zh","後決定性分散系：自治基礎設施新框架","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781010194792-5ogb.png","2026-06-09T13:02:32.717551+00:00",{"id":60,"slug":61,"title":62,"cover_image":63,"image_url":63,"created_at":64,"category":13},"04e45398-9814-4907-b416-fcb5b8d69508","causal-learnability-formal-language-tasks-zh","用因果法量化任務可學性","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780987696075-l4g0.png","2026-06-09T06:47:34.438642+00:00",{"id":66,"slug":67,"title":68,"cover_image":69,"image_url":69,"created_at":70,"category":13},"75bcc569-5e89-45c8-b809-6f169e929f4b","rl-training-hands-off-control-gradually-zh","RL 先接管再放手","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780986786312-03yo.png","2026-06-09T06:32:32.849589+00:00",{"id":72,"slug":73,"title":74,"cover_image":75,"image_url":75,"created_at":76,"category":13},"e3ecab4b-7cc7-4246-baf6-e1c170d86ca5","omnigamearena-vlm-game-agent-benchmark-zh","OmniGameArena 讓 VLM 遊戲代理更好比","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780985893022-70pl.png","2026-06-09T06:17:32.189729+00:00",{"id":78,"slug":79,"title":80,"cover_image":81,"image_url":81,"created_at":82,"category":13},"6f25a29c-cbb8-4f53-9af7-1656b394333a","turboquant-cuts-kv-cache-memory-6x-google-tests-zh","TurboQuant 在 Google 測試中省下 6x KV 快取","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780906682236-sqe2.png","2026-06-08T08:17:21.878314+00:00",[84,89,94,99,104,109,114,119,124,129],{"id":85,"slug":86,"title":87,"created_at":88},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":90,"slug":91,"title":92,"created_at":93},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":115,"slug":116,"title":117,"created_at":118},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":120,"slug":121,"title":122,"created_at":123},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":125,"slug":126,"title":127,"created_at":128},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":130,"slug":131,"title":132,"created_at":133},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]