MemPalace 的 100% 記憶宣稱被拆穿
MemPalace 48 小時衝破 1.1 萬 GitHub stars,但 LongMemEval 的 100% 記憶分數在啟用壓縮後掉到 84.2%。專案本身有料,宣傳數字卻太滿。

MemPalace 48 小時內衝到 1.1 萬 GitHub stars。這數字很猛,代表大家真的在找 AI 記憶工具。問題是,它主打的 LongMemEval 100% 分數,後來在啟用壓縮後掉到 84.2%。
講白了,專案本身不假。誇張的是宣傳。這種差距很重要,因為 AI 工具圈最常見的坑,就是 demo 很漂亮,實戰很普通。
我覺得這篇最值得看的,不是誰被打臉。是你能不能看懂,哪些數字是工程結果,哪些只是行銷話術。
MemPalace 到底在做什麼
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
MemPalace 的核心想法不複雜。它不是把聊天紀錄平鋪在一個長 log 裡。它把記憶切成 wing、hall、room。這套設計借用「記憶宮殿」概念,讓系統用空間結構去整理資料。

它底層用 ChromaDB 做檢索。設定檔和中繼資料則交給 PyYAML。另外,它還有 Model Context Protocol 的 MCP server。這代表它能接到 Claude、Cursor 這類工具。
這種 local-first 設計,對台灣開發者很有感。很多 AI 記憶產品都先把資料丟雲端。方便是方便,但資料控制權也一起送出去。MemPalace 至少把記憶留在本機,這點很實際。
- 48 小時 GitHub stars:11,000+
- 原始宣稱:LongMemEval 100%
- 壓縮後實測:84.2%
- R@5 檢索成績:96.6%
- MCP 工具數:19 個
100% 分數為何站不住腳
LongMemEval 不是假 benchmark。它來自 UC San Diego,總共 500 題,測的是長期記憶能力。題目涵蓋多種記憶任務,不是隨便跑個 embedding 相似度就能混過去。
但問題出在呈現方式。外部檢查發現,最後三題錯誤是先手動修掉,再重跑同一份資料集。這就很像先看答案再考一次。分數會漂亮,但不能證明系統真的泛化。
“The first principle is that you must not fool yourself and you are the easiest person to fool.” — Richard Feynman
費曼這句話很適合這次事件。模型可以是真的,repo 可以是真的,分數還是可能很會騙人。AI 圈最怕的,不是沒成果,是把 demo 當結論。
還有一個更細的問題。96.6% 的 R@5,看起來像是 ChromaDB 預設檢索撐出來的。那比較像最近鄰搜尋,不等於整套 memory palace 架構真的做到 lossless。等到 AAAK 壓縮真的上場,成績就掉到 84.2%。
跟其他記憶系統比,差在哪
如果只看 LongMemEval,MemPalace 其實還算能打。只是它沒有宣稱的那麼神。把數字攤開來看,它比較像一個不錯的本機記憶原型,而不是什麼滿分怪物。

先看幾個對照組。這些數字來自公開 repo 或評測說明。你會發現,MemPalace 的原始檢索不差,但壓縮後就不太穩。
- Mastra:94.87%
- OMEGA:95.4%
- agentmemory:96.2%
- MemPalace 原始檢索:96.6% R@5
- MemPalace 壓縮後:84.2%
這組比較很直白。MemPalace 的檢索能力有料,但 100% 這種說法太滿。你如果是做 agent、RAG、或個人知識庫,真正該看的不是滿分,而是壓縮後還剩多少。
架構上也有差異。很多記憶系統,本質上就是向量資料庫加幾條規則。MemPalace 想模仿人類回憶路徑,用空間結構整理資訊。這想法比較有趣,但也更容易被資料分布打臉。
誰真的做了這個專案
Milla Jovovich 的參與不是假的。她的 GitHub bio 寫自己是 MemPalace 的 architect。她的公開社群足跡也對得上。這表示她不是掛名而已,至少有實際參與方向設計。
Ben Sigman 的貼文也透露了更多細節。他提到是用 Claude 做出來的,還開玩笑講了 “Multipass”。這很明顯是在說 Claude Code 幫忙寫了不少程式。這沒什麼好羞恥的,現在很多團隊都這樣做。
這件事真正有趣的地方,在於它改寫了誰能做軟體。以前你可能要先會寫完整系統,才有資格做產品。現在只要 workflow 對,LLM 夠穩,一個沒有傳統工程背景的人也能把工具做出來。
但這也提醒我們一件事。AI 輔助開發很強,不代表評測就可以亂講。專案可以是真的,數字也可以是真的,兩者還是可能一起出現問題。
這件事對開發者有什麼用
如果你在做 agent 或記憶系統,MemPalace 值得看的是設計,不是那個 100%。它的空間化記憶模型,對某些工作流可能比平面 log 更好用。尤其是要人工檢查、刪除、或重組記憶時。
但你也要更小心評測。只要幾題能手動補,分數就能往上拉。那種測法很容易把工程品質包裝成成果。這條原則不只適用 open source,也適用新創 demo 和內部 prototype。
我自己的判斷很簡單。MemPalace 是一個有料的原型。只是它被包在太滿的宣稱裡。真正值得學的,是 local-first、MCP、空間記憶這三件事,不是那個 100%。
接下來最該問的,不是它有沒有上過 1.1 萬 stars。是它換新模型、換新資料、換新任務後,還能不能維持同樣水準。這才是開發者真正要看的地方。
AI 記憶工具接下來會怎麼走
AI 記憶這條線,現在很像早期 RAG。大家都在找更好的檢索、更好的壓縮、更好的上下文管理。問題是,很多產品都先講故事,再補技術細節。
台灣團隊如果要做這類工具,我會建議先把三件事做扎實。第一,資料留在哪裡。第二,壓縮後還剩多少可用資訊。第三,評測是不是能被輕易修答案。這三件事比宣傳頁面重要很多。
MemPalace 給的訊號很清楚。它證明 local memory 有市場,也證明一個好看的分數,不能直接等於好產品。下次你看到 100% 這種字眼,先問一句:壓縮開了嗎?資料換了嗎?新樣本跑過嗎?
我猜接下來 6 到 12 個月,這類工具會更重視可驗證性。誰能把記憶結構、檢索流程、和評測方法講清楚,誰就比較容易留下來。說真的,這比喊滿分有用多了。