OraCore
.dev
新聞
趨勢
比較
排行
學習
Claude Code
更多
EN
更多
EN
新聞
趨勢
比較
排行
學習
Claude Code
返回首頁
標籤
dual space RL
1 篇文章
技術研究
/
4月16日
PreRL:把強化學習搬進預訓練空間
PreRL 把 RL 從 P(y|x) 轉向 P(y),直接在預訓練空間做獎勵更新,主打增強推理與探索。摘要也提到 NSR 與 DSRL 兩種設計。