返回首頁

標籤

reinforcement learning

強化學習研究如何讓模型在回饋訊號下逐步學會決策,常見於機器人控制、長期代理訓練與 LLM 微調。這個主題也涵蓋 PPO、BRRL、持續學習與安全約束等方法,重點在穩定更新、長期規劃與部署風險。

7 篇文章

BRRL 取代 PPO 剪裁:BPO 與 GBPO 的穩定性升級
技術研究/4月21日

BRRL 取代 PPO 剪裁:BPO 與 GBPO 的穩定性升級

BRRL 把 PPO 的剪裁目標改寫成有界比例框架,推出 BPO 與 GBPO,主打更穩定的更新與更清楚的理論基礎。

LLM 會看地圖,卻撐不住長度
技術研究/4月17日

LLM 會看地圖,卻撐不住長度

這篇合成最短路徑研究把「會換地圖」和「能拉長題目」拆開看,結果發現 LLM 能跨地圖泛化,卻在長度變長時因遞迴推理不穩而失手。

用物理模擬器訓練 LLM 推理
技術研究/4月14日

用物理模擬器訓練 LLM 推理

研究者把物理模擬器變成強化學習資料來源,訓練 LLM 學會物理推理,並在 IPhO 題目上帶來 zero-shot 提升。

教代理何時別叫工具
技術研究/4月10日

教代理何時別叫工具

HDPO 把「答對」和「少叫工具」分開訓練,想修正多模態代理的盲目工具使用。摘要稱它能大幅減少呼叫次數,同時提升推理正確率。

Bessemer 看準的 5 個 AI 基礎設施前線
產業動態/4月3日

Bessemer 看準的 5 個 AI 基礎設施前線

Bessemer 2026 AI infra 藍圖指向 memory、continual learning、RL、inference 與 world models。重點不是更大模型,而是讓 AI 真正進到生產環境。

如何打造 AI 加密貨幣交易機器人
區塊鏈/4月2日

如何打造 AI 加密貨幣交易機器人

2026 AI 加密貨幣交易機器人實作指南:資料管線、模型選擇、風控、部署與合規,幫你把想法變成能上線的系統。

Cursor 推自架代理與即時 RL
工具應用/3月28日

Cursor 推自架代理與即時 RL

Cursor 在 2026 年 3 月推出自架雲端代理,並公開 Composer 的即時 RL 訓練法。官方稱新 checkpoint 最快每 5 小時更新一次,企業可把程式碼與工具執行留在自家網路內。