LongMemEval-V2：測 agent 長期記憶

OraCore Editors

返回首頁

[RSCH] 2026年5月13日6 分鐘閱讀OraCore 編輯部

LongMemEval-V2：測 agent 長期記憶

LongMemEval-V2 用 451 題測試 agent 能否記住 Web 環境經驗，而不只是使用者歷史；結果顯示以 coding agent 蒐證的記憶法準確率最高，但延遲也更高。

RAG agent memory coding agent web workflows long-context evaluation

分享 LinkedIn

LongMemEval-V2 用 451 題測試 agent 能否記住 Web 環境經驗，而不只是使用者歷史。

對很多 agent 來說，記憶一直是個卡點。問題不只在於要不要記住使用者說過什麼，而是能不能記住某個 Web 環境的規則、介面變化、常見失誤，還有哪些工作流程真的有用。這篇 LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced Colleagues，就是要把這件事拿來直接測。

它想回答的不是「agent 有沒有記憶功能」，而是更實際的問題：當 agent 在同一個環境裡反覆工作後，記憶系統能不能把那些經驗累積起來，讓它表現得像一個熟悉現場的同事，而不是每次都從零開始。

這篇在解什麼痛點

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

現有很多 agent 記憶評測，重點都放在使用者歷史、短對話軌跡，或是任務有沒有做完。這種測法有它的價值，但它會漏掉一大塊真實場景裡很重要的東西：環境本身的經驗。

在 Web 工作流程裡，很多成功與失敗不是來自單次對話，而是來自你有沒有記住某個系統的靜態狀態、它會怎麼變、哪種流程比較穩、哪些坑很容易重踩。若 benchmark 沒有把這些納進來，就很容易高估記憶系統的實用性。

LongMemEval-V2 的核心想法很直接：記憶不該只是存資料，而是要把反覆接觸環境後累積的經驗內化進去。也就是說，它評的不是背誦能力，而是經驗沉澱能力。

方法怎麼做

LongMemEval-V2 一共收了 451 題手工整理的問題。這些問題被整理成五種 Web agent 的記憶能力：static state recall、dynamic state tracking、workflow knowledge、environment gotchas、premise awareness。這五類本身就很能反映作者想測的不是單純問答，而是 agent 對環境的整體理解。

每一題都會配上歷史 trajectories，而且這些歷史可以多到 500 條 trajectories、總計 115M tokens。這代表它不是小型回憶題，而是很明顯的長上下文記憶測試。對記憶系統來說，重點不是能不能看懂一段歷史，而是能不能在一大堆歷史裡找出有用的那一段。

作者把這個流程定義成 context gathering formulation。白話一點，就是記憶系統先讀歷史軌跡，再吐出可以用來回答問題的精簡證據。這樣的設計，測的不只是存不存得住，也測取回來的內容是不是對的、是不是剛好夠用。

論文在這個框架下比較了兩種記憶方法：

AgentRunbook-R：一種效率導向的 RAG 記憶法，分成 raw state observations、events、strategy notes 這幾個知識池
AgentRunbook-C：把 trajectories 存成檔案，再用 coding agent 在增強 sandbox 裡蒐集證據

這個對比很有意思。它不是只在比兩個模型誰比較會答題，而是在比兩種完全不同的記憶工作流：一種偏向檢索，一種偏向主動蒐證。這對實作端很重要，因為很多團隊現在都在想，單靠 RAG 式記憶到底夠不夠，還是要讓 agent 自己去整理、推敲、抓證據。

結果證明了什麼

摘要裡最明確的數字，是 AgentRunbook-C 的平均準確率達到 72.5%。這個成績高於最強的 RAG baseline，後者是 48.5%，也高於 off-the-shelf coding agent baseline 的 69.3%。

這組結果透露出一個很清楚的訊號：單純把資訊檢索出來，和用 coding agent 去歷史軌跡裡蒐證，能力差距不小。換句話說，對長期 agent 記憶來說，「能找到資料」不等於「能把經驗用對」。

論文也提到，AgentRunbook-C 在 accuracy-latency Pareto frontier 上有進步。這句話的意思很務實：它在準確率上更好，但不是沒有代價。作者同時明講，基於 coding agent 的方法有很高的延遲成本。也就是說，效果更好，不代表部署起來就一定輕鬆。

摘要沒有公開更細的 benchmark breakdown，因此看不到五種記憶能力各自的表現差異。就目前公開資訊來看，我們只能確認整體平均準確率與方法間的落差，還不能進一步判斷哪一類記憶最難、哪一類最容易。

不過，從作者的描述可以看出，LME-V2 被設計成一個有挑戰性的測試。就算最強方法拿到目前的最佳成績，也仍然留有不少改善空間。這代表長期 agent 記憶還不是一個已經被解完的題目。

對開發者有什麼影響

如果你在做的是專門跑 Web 工作流程的 agent，這篇論文很值得放進你的評估清單。它提醒我們，記憶不是單純的資料庫問題，而是「經驗管理」問題。agent 要記的不只是事實，還包括環境狀態、流程習慣、常見陷阱，以及哪些前提在這個系統裡成立。

這對很多架構都會有影響。像是依賴 retrieval 的 agent、用 runbook 管理操作步驟的系統，或是要長期維持操作知識的工作流，都會碰到同一個問題：如果只記住使用者，卻沒記住環境，錯誤還是會一再重演。

LongMemEval-V2 提供了一個比較像真實世界的壓力測試。它逼你回答一個很工程化的問題：你的記憶堆疊，到底只是存檔，還是真的把環境經驗吸收進去。對台灣開發團隊來說，這種測法特別適合拿來檢查內部 agent 是否真的能在固定系統裡越做越順，而不是每次都像第一次上線。

但這篇也有明顯限制。摘要沒有說這些方法能不能泛化到 benchmark 以外的環境，也沒有交代不同環境設定下的敏感度。它也沒有告訴我們，五種記憶能力裡哪一種最難，或是 coding-agent 式蒐證在 production 的嚴格延遲要求下是否仍然可行。

所以，這篇論文更像是一個方向明確的壓力測試，而不是一個已經定案的最佳解。它把討論重心從「agent 會不會記得」往前推了一步，變成「agent 能不能真的學會這個環境，並把學到的東西用在下一次任務裡」。

對現在正在做 agent 的團隊來說，這個問題幾乎就是實戰核心。因為真正有價值的記憶，不是把歷史堆起來，而是讓系統在下一次遇到同樣情境時，少犯一次同樣的錯。

// 相關文章

LongMemEval-V2：測 agent 長期記憶

這篇在解什麼痛點

訂閱 AI 趨勢週報

方法怎麼做

結果證明了什麼

對開發者有什麼影響

TurboQuant 與小站 SEO 變化

TurboQuant 與 FP8 實測結果

LLMbda 演算替 AI 代理人立安全規則

更簡單的毫米波波束域去噪器

為什麼 AI 基準賽在資安領域的勝利，應該讓防守方警醒

為什麼 Linux 安全需要「補丁浪潮」思維