標籤
LLM 推理指模型在數學、物理與多步驟任務中進行規劃、驗證與錯誤修正的能力。這個主題涵蓋強化學習、pre-train space 訓練、以及用物理模擬器產生合成資料,反映模型如何從答案生成走向可檢驗的推理。
2 篇文章
AutoTTS把 test-time scaling 變成環境搜尋問題,讓 LLM 在推理時自動找出更省算力的策略,而不是靠人手調 heuristics。
研究者把物理模擬器變成強化學習資料來源,訓練 LLM 學會物理推理,並在 IPhO 題目上帶來 zero-shot 提升。