返回首頁

標籤

reasoning models

推理模型強調多步驟思考與可驗證的中間推理,常見於數學、程式與代理任務。這個標籤聚焦訓練方法、冷啟動、RLVR、損失設計與成本效能取捨。

1 篇文章