標籤
reinforcement learning
強化學習研究如何讓模型在回饋訊號下逐步學會決策,常見於機器人控制、長期代理訓練與 LLM 微調。這個主題也涵蓋 PPO、BRRL、持續學習與安全約束等方法,重點在穩定更新、長期規劃與部署風險。
7 篇文章

技術研究/4月21日
BRRL 取代 PPO 剪裁:BPO 與 GBPO 的穩定性升級
BRRL 把 PPO 的剪裁目標改寫成有界比例框架,推出 BPO 與 GBPO,主打更穩定的更新與更清楚的理論基礎。

技術研究/4月17日
LLM 會看地圖,卻撐不住長度
這篇合成最短路徑研究把「會換地圖」和「能拉長題目」拆開看,結果發現 LLM 能跨地圖泛化,卻在長度變長時因遞迴推理不穩而失手。

技術研究/4月14日
用物理模擬器訓練 LLM 推理
研究者把物理模擬器變成強化學習資料來源,訓練 LLM 學會物理推理,並在 IPhO 題目上帶來 zero-shot 提升。

技術研究/4月10日
教代理何時別叫工具
HDPO 把「答對」和「少叫工具」分開訓練,想修正多模態代理的盲目工具使用。摘要稱它能大幅減少呼叫次數,同時提升推理正確率。

產業動態/4月3日
Bessemer 看準的 5 個 AI 基礎設施前線
Bessemer 2026 AI infra 藍圖指向 memory、continual learning、RL、inference 與 world models。重點不是更大模型,而是讓 AI 真正進到生產環境。

區塊鏈/4月2日
如何打造 AI 加密貨幣交易機器人
2026 AI 加密貨幣交易機器人實作指南:資料管線、模型選擇、風控、部署與合規,幫你把想法變成能上線的系統。

工具應用/3月28日
Cursor 推自架代理與即時 RL
Cursor 在 2026 年 3 月推出自架雲端代理,並公開 Composer 的即時 RL 訓練法。官方稱新 checkpoint 最快每 5 小時更新一次,企業可把程式碼與工具執行留在自家網路內。