OraCore
.dev
新聞
趨勢
比較
排行
學習
Claude Code
更多
EN
更多
EN
新聞
趨勢
比較
排行
學習
Claude Code
返回首頁
標籤
embedding layer learning rate
1 篇文章
技術研究
/
5月21日
為何 embedding LR 決定 μP 轉移
這篇論文指出,μP 比標準參數化更會轉移,關鍵不是整套方法本身,而是 embedding layer 的學習率設定。