標籤
1 篇文章
LongMemEval-V2 用 451 題測試 agent 能否記住 Web 環境經驗,而不只是使用者歷史;結果顯示以 coding agent 蒐證的記憶法準確率最高,但延遲也更高。