標籤

LLM reasoning

LLM 推理指模型在數學、物理與多步驟任務中進行規劃、驗證與錯誤修正的能力。這個主題涵蓋強化學習、pre-train space 訓練、以及用物理模擬器產生合成資料，反映模型如何從答案生成走向可檢驗的推理。

3 篇文章

強化感知蒸餾，想把推理一起學進去

技術研究/6月5日

強化感知蒸餾，想把推理一起學進去

這篇論文提出強化感知知識蒸餾，目標不是只壓縮答案，而是把 LLM 的推理行為一起轉移給學生模型。

AutoTTS讓LLM自己找推理策略

技術研究/5月11日

AutoTTS讓LLM自己找推理策略

AutoTTS把 test-time scaling 變成環境搜尋問題，讓 LLM 在推理時自動找出更省算力的策略，而不是靠人手調 heuristics。

用物理模擬器訓練 LLM 推理

技術研究/4月14日

用物理模擬器訓練 LLM 推理

研究者把物理模擬器變成強化學習資料來源，訓練 LLM 學會物理推理，並在 IPhO 題目上帶來 zero-shot 提升。