標籤
1 篇文章
這篇論文用 Tsallis q-logarithm 搭出一條損失函數光譜,想解決推理模型在冷啟動時卡住的問題。它把 RLVR 和 latent trajectory 的 log-marginal-likelihood 串成可調參的連續體。