返回首頁

標籤

RLVR

RLVR(reinforcement learning with verifiable rewards)指的是以可驗證回饋訓練模型,常見於數學、程式與推理任務。重點不在主觀偏好,而是用正確答案、單元測試或規則檢查來驅動學習,也因此牽動冷啟動、探索與穩定性等問題。

2 篇文章