MemPalace 的 100% 記憶宣稱被拆穿

OraCore Editors

返回首頁

[AGENT] 2026年4月8日6 分鐘閱讀OraCore 編輯部

MemPalace 的 100% 記憶宣稱被拆穿

MemPalace 48 小時衝破 1.1 萬 GitHub stars，但 LongMemEval 的 100% 記憶分數在啟用壓縮後掉到 84.2%。專案本身有料，宣傳數字卻太滿。

AI 記憶本機優先 MCP LongMemEval Claude Code MemPalace LLM ChromaDB

分享 LinkedIn

MemPalace 48 小時內衝到 1.1 萬 GitHub stars。這數字很猛，代表大家真的在找 AI 記憶工具。問題是，它主打的 LongMemEval 100% 分數，後來在啟用壓縮後掉到 84.2%。

講白了，專案本身不假。誇張的是宣傳。這種差距很重要，因為 AI 工具圈最常見的坑，就是 demo 很漂亮，實戰很普通。

我覺得這篇最值得看的，不是誰被打臉。是你能不能看懂，哪些數字是工程結果，哪些只是行銷話術。

MemPalace 到底在做什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

MemPalace 的核心想法不複雜。它不是把聊天紀錄平鋪在一個長 log 裡。它把記憶切成 wing、hall、room。這套設計借用「記憶宮殿」概念，讓系統用空間結構去整理資料。

它底層用 ChromaDB 做檢索。設定檔和中繼資料則交給 PyYAML。另外，它還有 Model Context Protocol 的 MCP server。這代表它能接到 Claude、Cursor 這類工具。

這種 local-first 設計，對台灣開發者很有感。很多 AI 記憶產品都先把資料丟雲端。方便是方便，但資料控制權也一起送出去。MemPalace 至少把記憶留在本機，這點很實際。

48 小時 GitHub stars：11,000+
原始宣稱：LongMemEval 100%
壓縮後實測：84.2%
R@5 檢索成績：96.6%
MCP 工具數：19 個

100% 分數為何站不住腳

LongMemEval 不是假 benchmark。它來自 UC San Diego，總共 500 題，測的是長期記憶能力。題目涵蓋多種記憶任務，不是隨便跑個 embedding 相似度就能混過去。

但問題出在呈現方式。外部檢查發現，最後三題錯誤是先手動修掉，再重跑同一份資料集。這就很像先看答案再考一次。分數會漂亮，但不能證明系統真的泛化。

“The first principle is that you must not fool yourself and you are the easiest person to fool.” — Richard Feynman

費曼這句話很適合這次事件。模型可以是真的，repo 可以是真的，分數還是可能很會騙人。AI 圈最怕的，不是沒成果，是把 demo 當結論。

還有一個更細的問題。96.6% 的 R@5，看起來像是 ChromaDB 預設檢索撐出來的。那比較像最近鄰搜尋，不等於整套 memory palace 架構真的做到 lossless。等到 AAAK 壓縮真的上場，成績就掉到 84.2%。

跟其他記憶系統比，差在哪

如果只看 LongMemEval，MemPalace 其實還算能打。只是它沒有宣稱的那麼神。把數字攤開來看，它比較像一個不錯的本機記憶原型，而不是什麼滿分怪物。

先看幾個對照組。這些數字來自公開 repo 或評測說明。你會發現，MemPalace 的原始檢索不差，但壓縮後就不太穩。

Mastra：94.87%
OMEGA：95.4%
agentmemory：96.2%
MemPalace 原始檢索：96.6% R@5
MemPalace 壓縮後：84.2%

這組比較很直白。MemPalace 的檢索能力有料，但 100% 這種說法太滿。你如果是做 agent、RAG、或個人知識庫，真正該看的不是滿分，而是壓縮後還剩多少。

架構上也有差異。很多記憶系統，本質上就是向量資料庫加幾條規則。MemPalace 想模仿人類回憶路徑，用空間結構整理資訊。這想法比較有趣，但也更容易被資料分布打臉。

誰真的做了這個專案

Milla Jovovich 的參與不是假的。她的 GitHub bio 寫自己是 MemPalace 的 architect。她的公開社群足跡也對得上。這表示她不是掛名而已，至少有實際參與方向設計。

Ben Sigman 的貼文也透露了更多細節。他提到是用 Claude 做出來的，還開玩笑講了 “Multipass”。這很明顯是在說 Claude Code 幫忙寫了不少程式。這沒什麼好羞恥的，現在很多團隊都這樣做。

這件事真正有趣的地方，在於它改寫了誰能做軟體。以前你可能要先會寫完整系統，才有資格做產品。現在只要 workflow 對，LLM 夠穩，一個沒有傳統工程背景的人也能把工具做出來。

但這也提醒我們一件事。AI 輔助開發很強，不代表評測就可以亂講。專案可以是真的，數字也可以是真的，兩者還是可能一起出現問題。

這件事對開發者有什麼用

如果你在做 agent 或記憶系統，MemPalace 值得看的是設計，不是那個 100%。它的空間化記憶模型，對某些工作流可能比平面 log 更好用。尤其是要人工檢查、刪除、或重組記憶時。

但你也要更小心評測。只要幾題能手動補，分數就能往上拉。那種測法很容易把工程品質包裝成成果。這條原則不只適用 open source，也適用新創 demo 和內部 prototype。

我自己的判斷很簡單。MemPalace 是一個有料的原型。只是它被包在太滿的宣稱裡。真正值得學的，是 local-first、MCP、空間記憶這三件事，不是那個 100%。

接下來最該問的，不是它有沒有上過 1.1 萬 stars。是它換新模型、換新資料、換新任務後，還能不能維持同樣水準。這才是開發者真正要看的地方。

AI 記憶工具接下來會怎麼走

AI 記憶這條線，現在很像早期 RAG。大家都在找更好的檢索、更好的壓縮、更好的上下文管理。問題是，很多產品都先講故事，再補技術細節。

台灣團隊如果要做這類工具，我會建議先把三件事做扎實。第一，資料留在哪裡。第二，壓縮後還剩多少可用資訊。第三，評測是不是能被輕易修答案。這三件事比宣傳頁面重要很多。

MemPalace 給的訊號很清楚。它證明 local memory 有市場，也證明一個好看的分數，不能直接等於好產品。下次你看到 100% 這種字眼，先問一句：壓縮開了嗎？資料換了嗎？新樣本跑過嗎？

我猜接下來 6 到 12 個月，這類工具會更重視可驗證性。誰能把記憶結構、檢索流程、和評測方法講清楚，誰就比較容易留下來。說真的，這比喊滿分有用多了。

// 相關文章

MemPalace 的 100% 記憶宣稱被拆穿

MemPalace 到底在做什麼

訂閱 AI 趨勢週報

100% 分數為何站不住腳

跟其他記憶系統比，差在哪

誰真的做了這個專案

這件事對開發者有什麼用

AI 記憶工具接下來會怎麼走

Claude 幫 Agent 加了做夢功能

怎麼把 AI 輸出改成 HTML

Cat Wu 談 Claude 的主動式 AI

如何在 Discord 執行 Hermes Agent

為什麼 RAGFlow 是最適合自架的開源 RAG 引擎

如何在正式環境加入 Temporal RAG