標籤

reinforcement learning

強化學習研究如何讓模型在回饋訊號下逐步學會決策，常見於機器人控制、長期代理訓練與 LLM 微調。這個主題也涵蓋 PPO、BRRL、持續學習與安全約束等方法，重點在穩定更新、長期規劃與部署風險。

7 篇文章

BRRL 取代 PPO 剪裁：BPO 與 GBPO 的穩定性升級

BRRL 把 PPO 的剪裁目標改寫成有界比例框架，推出 BPO 與 GBPO，主打更穩定的更新與更清楚的理論基礎。

這篇合成最短路徑研究把「會換地圖」和「能拉長題目」拆開看，結果發現 LLM 能跨地圖泛化，卻在長度變長時因遞迴推理不穩而失手。

研究者把物理模擬器變成強化學習資料來源，訓練 LLM 學會物理推理，並在 IPhO 題目上帶來 zero-shot 提升。

HDPO 把「答對」和「少叫工具」分開訓練，想修正多模態代理的盲目工具使用。摘要稱它能大幅減少呼叫次數，同時提升推理正確率。

Bessemer 2026 AI infra 藍圖指向 memory、continual learning、RL、inference 與 world models。重點不是更大模型，而是讓 AI 真正進到生產環境。

2026 AI 加密貨幣交易機器人實作指南：資料管線、模型選擇、風控、部署與合規，幫你把想法變成能上線的系統。

Cursor 在 2026 年 3 月推出自架雲端代理，並公開 Composer 的即時 RL 訓練法。官方稱新 checkpoint 最快每 5 小時更新一次，企業可把程式碼與工具執行留在自家網路內。