OraCore
.dev
新聞
趨勢
比較
排行
學習
Claude Code
更多
EN
更多
EN
新聞
趨勢
比較
排行
學習
Claude Code
返回首頁
標籤
weak rewards
1 篇文章
技術研究
/
5月18日
弱回饋讓 LLM 記住偏好
這篇論文主張,可從檢索增強互動中抽出弱回饋,來建立可持續的使用者偏好模型。