標籤
RLVR
RLVR(reinforcement learning with verifiable rewards)指的是以可驗證回饋訓練模型,常見於數學、程式與推理任務。重點不在主觀偏好,而是用正確答案、單元測試或規則檢查來驅動學習,也因此牽動冷啟動、探索與穩定性等問題。
2 篇文章
標籤
RLVR(reinforcement learning with verifiable rewards)指的是以可驗證回饋訓練模型,常見於數學、程式與推理任務。重點不在主觀偏好,而是用正確答案、單元測試或規則檢查來驅動學習,也因此牽動冷啟動、探索與穩定性等問題。
2 篇文章