標籤

RLVR

RLVR（reinforcement learning with verifiable rewards）指的是以可驗證回饋訓練模型，常見於數學、程式與推理任務。重點不在主觀偏好，而是用正確答案、單元測試或規則檢查來驅動學習，也因此牽動冷啟動、探索與穩定性等問題。

3 篇文章

Direct-OPD 讓弱模型 RL 成果可重用

48.3% 提升到 62.4%。Direct-OPD 把弱模型 RL 產生的政策變化抽出來，再轉給更強模型，減少重跑強模型 RL 的成本。

這篇論文用 Tsallis q-logarithm 搭出一條損失函數光譜，想解決推理模型在冷啟動時卡住的問題。它把 RLVR 和 latent trajectory 的 log-marginal-likelihood 串成可調參的連續體。

PreRL 把 RL 從 P(y|x) 轉向 P(y)，直接在預訓練空間做獎勵更新，主打增強推理與探索。摘要也提到 NSR 與 DSRL 兩種設計。