標籤
推理模型強調多步驟思考與可驗證的中間推理,常見於數學、程式與代理任務。這個標籤聚焦訓練方法、冷啟動、RLVR、損失設計與成本效能取捨。
1 篇文章
這篇論文用 Tsallis q-logarithm 搭出一條損失函數光譜,想解決推理模型在冷啟動時卡住的問題。它把 RLVR 和 latent trajectory 的 log-marginal-likelihood 串成可調參的連續體。