[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-arxiv-ai-papers-agents-memory-data-zh":3,"article-related-arxiv-ai-papers-agents-memory-data-zh":34,"series-research-f0501097-0bec-43ec-b310-56fc442ab53c":84},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":25,"views":30,"created_at":31,"published_at":32,"topic_cluster_id":33},"f0501097-0bec-43ec-b310-56fc442ab53c","arxiv-ai-papers-agents-memory-data-zh","ArXiv這批 AI 論文都在補三件事","\u003Cp data-speakable=\"summary\">這批 arXiv AI 論文在講 \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa>、記憶和資料。重點是模型不只會回話，還要會規劃、記住步驟，還能吃下更長的文件。\u003C\u002Fp>\u003Cp>說真的，這批論文很像在補作業。\u003Ca href=\"https:\u002F\u002Fpapers.cool\" target=\"_blank\" rel=\"noopener\">papers.cool\u003C\u002Fa> 上的 \u003Ca href=\"https:\u002F\u002Fpapers.cool\u002Farxiv\u002Fcs.AI\" target=\"_blank\" rel=\"noopener\">arXiv AI\u003C\u002Fa> 目錄，6 月 17 日列出 214 篇。主軸很清楚，就是 agent、memory、data 三件事。\u003C\u002Fp>\u003Cp>很多人還在盯模型參數。研究圈已經往前走了。現在更像是在問：模型能不能自己想下一步。能不能記住過去做過什麼。能不能吃進 10 萬、100 萬 \u003Ca href=\"\u002Ftag\u002Ftoken\">token\u003C\u002Fa> 的文件，還不亂掉。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>Paper\u003C\u002Fth>\u003Cth>數字\u003C\u002Fth>\u003Cth>重點\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>\u003Ca href=\"https:\u002F\u002Fpapers.cool\u002Farxiv\u002Fcs.AI\" target=\"_blank\" rel=\"noopener\">EvolveNav\u003C\u002Fa>\u003C\u002Ftd>\u003Ctd>成功率提升 10.1%\u003C\u002Ftd>\u003Ctd>零樣本導航加入 test-time learning\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>\u003Ca href=\"https:\u002F\u002Fpapers.cool\u002Farxiv\u002Fcs.AI\" target=\"_blank\" rel=\"noopener\">SEFD\u003C\u002Fa>\u003C\u002Ftd>\u003Ctd>152B tokens、18.5M filings、550B token 估算\u003C\u002Ftd>\u003Ctd>金融長上下文資料集\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>\u003Ca href=\"https:\u002F\u002Fpapers.cool\u002Farxiv\u002Fcs.AI\" target=\"_blank\" rel=\"noopener\">DRFLOW\u003C\u002Fa>\u003C\u002Ftd>\u003Ctd>100 tasks、1,246 steps、3,900+ sources\u003C\u002Ftd>\u003Ctd>個人化工作流程 benchmark\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>Agent 研究開始重視「先想再做」\u003C\u002Fh2>\u003Cp>這批裡最有意思的，是 \u003Ca href=\"https:\u002F\u002Fpapers.cool\u002Farxiv\u002Fcs.AI\" target=\"_blank\" rel=\"noopener\">EvolveNav\u003C\u002Fa>。它做的是 \u003Ca href=\"\u002Fnews\u002Fwazero-turns-go-wasm-into-plain-go-zh\">zero\u003C\u002Fa>-shot object-goal navigation。白話就是，agent 沒看過目標物件，也要自己找得到。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781685180920-w8wl.png\" alt=\"ArXiv這批 AI 論文都在補三件事\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這類問題很難。因為模型不是只要答對。它還要少走冤枉路。每多一步，就多一次失誤機會。對\u003Ca href=\"\u002Fnews\u002Fveritas-robot-policy-visual-verification-zh\">機器人\u003C\u002Fa>或模擬環境來說，浪費動作就是成本。\u003C\u002Fp>\u003Cp>EvolveNav 的做法很務實。它把過去軌跡整理成 rule memory。再用 UCB retrieval 挑規則。還加了一個 preflection 模組，先預測下一步可能結果，再決定要不要動。\u003C\u002Fp>\u003Cul>\u003Cli>rule memory 把舊軌跡變成可重用知識。\u003C\u002Fli>\u003Cli>UCB retrieval 同時看語意和成功率。\u003C\u002Fli>\u003Cli>preflection 先猜結果，再執行動作。\u003C\u002Fli>\u003Cli>成功率提升 10.1%，而且少走冤枉路。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這種設計很像人類在做事。不是亂試。是先回想，再決定。講白了，這才像 agent，不像只會吐字的聊天機器。\u003C\u002Fp>\u003Cblockquote>“The challenge is not to generate a report, but to identify the correct action-step sequence for the user’s task.” — Md Tawkat Islam Khondaker et al., DRFLOW\u003C\u002Fblockquote>\u003Ch2>Benchmark 也在變，因為真實工作不是摘要題\u003C\u002Fh2>\u003Cp>另一篇很值得看的是 \u003Ca href=\"https:\u002F\u002Fpapers.cool\u002Farxiv\u002Fcs.AI\" target=\"_blank\" rel=\"noopener\">DRFLOW\u003C\u002Fa>。它在做的，不是單純問答。它要 agent 找出一整串正確工作流程。\u003C\u002Fp>\u003Cp>這差很多。很多企業任務不是「寫一段摘要」。而是「先查哪裡，再比對什麼，再決定下一步」。如果 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 只測總結，模型很容易假裝很會。\u003C\u002Fp>\u003Cp>DRFLOW 的規模也不小。它有 100 個任務，跨 5 個領域。參考流程有 1,246 個步驟。來源超過 3,900 筆。它還設計 7 個診斷指標，去看 grounding、步驟回復、排序、條件處理和個人化。\u003C\u002Fp>\u003Cp>結果也蠻誠實。DRFLOW-Agent 比強基線最高多出 10.02% average F1。這數字不算誇張，但夠真。因為 benchmark 如果一開始就被做爛，後面再高分也只是自嗨。\u003C\u002Fp>\u003Cul>\u003Cli>DRFLOW 有 100 tasks，覆蓋 5 個領域。\u003C\u002Fli>\u003Cli>參考流程共有 1,246 steps。\u003C\u002Fli>\u003Cli>資料來源超過 3,900 筆。\u003C\u002Fli>\u003Cli>DRFLOW-Agent 最高提升 10.02% average F1。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>你可能會想問，這跟一般 LLM benchmark 差在哪。差在它測的是「工作流」，不是「答案」。這對做\u003Ca href=\"\u002Ftag\u002F企業軟體\">企業軟體\u003C\u002Fa>的人很重要。因為真實產品常常要接流程，不是接一段漂亮文字。\u003C\u002Fp>\u003Ch2>資料比模型更卡，長上下文現在是硬仗\u003C\u002Fh2>\u003Cp>這批裡最像基礎建設的，是 \u003Ca href=\"https:\u002F\u002Fpapers.cool\u002Farxiv\u002Fcs.AI\" target=\"_blank\" rel=\"noopener\">The Stanford EDGAR Filings Dataset\u003C\u002Fa>。它把 SEC filings 整理成適合\u003Ca href=\"\u002Ftag\u002F長上下文\">長上下文\u003C\u002Fa>訓練的格式，還保留版面結構。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781685185464-kq1w.png\" alt=\"ArXiv這批 AI 論文都在補三件事\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這件事很實際。公開網路文字越來越混。很多長文本資料要嘛太雜，要嘛太短，要嘛根本不能拿來訓練。財報和法規文件反而很有價值，因為它們密集、結構化，而且有明確事實。\u003C\u002Fp>\u003Cp>這份資料集的數字很硬。SEFD-v1 有 152B tokens。更大的 archive 有 18.5M 份 filings。作者估算總量可到 550B tokens。還有一個很重要的點，是它和 Common Crawl 衍生資料的重疊不到 0.1%。\u003C\u002Fp>\u003Cp>這代表什麼。代表它不是再把舊網頁磨一次。它提供的是不同分佈的資料。對 long-context pretraining 來說，這很有價值。因為模型如果只看網頁，最後很容易只學到網頁味。\u003C\u002Fp>\u003Cp>它還加了兩個 benchmark。\u003Ca href=\"https:\u002F\u002Fpapers.cool\u002Farxiv\u002Fcs.AI\" target=\"_blank\" rel=\"noopener\">EDGAR-Forecast\u003C\u002Fa> 測財報知識截止後的數字預測。\u003Ca href=\"https:\u002F\u002Fpapers.cool\u002Farxiv\u002Fcs.AI\" target=\"_blank\" rel=\"noopener\">EDGAR-OCR\u003C\u002Fa> 測複雜財務表格轉錄。這組合很聰明，因為同時考 reasoning 和 document fidelity。\u003C\u002Fp>\u003Cul>\u003Cli>SEFD-v1：152B tokens。\u003C\u002Fli>\u003Cli>archive：18.5M filings。\u003C\u002Fli>\u003Cli>估算總量：550B tokens。\u003C\u002Fli>\u003Cli>與 Common Crawl 重疊少於 0.1%。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>Agent 已經跑進醫療、電力和硬體成本\u003C\u002Fh2>\u003Cp>這批論文的另一個訊號，是 agent 不再只活在聊天框。\u003Ca href=\"https:\u002F\u002Fpapers.cool\u002Farxiv\u002Fcs.AI\" target=\"_blank\" rel=\"noopener\">WEQA\u003C\u002Fa> 把 LLM 和穿戴式健康工具接在一起。它比 LLM 和 agentic baselines 高出 24% accuracy。\u003C\u002Fp>\u003Cp>這種題目很適合 agent。因為醫療場景不是單次回答。它需要多步查詢、比對和判斷。WEQA 還做了 blinded study，找了 12 位醫療專家和 8 位使用者。結果顯示，它在實用性和臨床合理性上都更好。\u003C\u002Fp>\u003Cp>再看 \u003Ca href=\"https:\u002F\u002Fpapers.cool\u002Farxiv\u002Fcs.AI\" target=\"_blank\" rel=\"noopener\">LEADS\u003C\u002Fa>。它把 LLM agent 放進心臟電生理 digital twins。重點不是讓模型自由發揮，而是讓它在結構化 action space 裡找混合模型。\u003C\u002Fp>\u003Cp>這才是 agent 比較對的用法。不是拿來寫作文。是拿來做 guided search。模型負責找路。物理規則負責卡住亂跑。\u003C\u002Fp>\u003Cp>\u003Ca href=\"https:\u002F\u002Fpapers.cool\u002Farxiv\u002Fcs.AI\" target=\"_blank\" rel=\"noopener\">Memory as a Wasting Asset\u003C\u002Fa> 則很直接。它談的是 flash endurance。意思是，記憶寫入不是免費的。\u003C\u002Fp>\u003Cp>這篇很像在提醒工程師。你在雲端上跑 agent，可能只看 token 成本。可是一到邊緣裝置或便宜儲存，P\u002FE cycle 就會\u003Ca href=\"\u002Fnews\u002Fnewcore-turns-ai-agents-into-managed-identities-zh\">變成\u003C\u002Fa>真錢。論文說，3,000 P\u002FE 的 TLC 在規格上還撐得住，但 1,000 P\u002FE 的 QLC 或 eMMC 就很容易卡到成本。\u003C\u002Fp>\u003Cul>\u003Cli>WEQA：accuracy 高 24%。\u003C\u002Fli>\u003Cli>WEQA：做了 12 位醫療專家、8 位使用者的 blinded study。\u003C\u002Fli>\u003Cli>LEADS：用 structured action space 找混合模型。\u003C\u002Fli>\u003Cli>記憶寫入有壽命成本，不是只有算力成本。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>這批論文透露的產業脈絡很直接\u003C\u002Fh2>\u003Cp>我覺得這批 arXiv 最重要的訊號，不是某一篇分數多高。是整個研究圈開始把「做事」看得比「會講」更重。\u003C\u002Fp>\u003Cp>以前很多 demo 都在比誰回得像人。現在大家更在意，模型能不能完成任務。能不能記住上下文。能不能在 test time 自己修正。能不能在資料不夠漂亮時，還維持穩定表現。\u003C\u002Fp>\u003Cp>這也解釋了為什麼資料集會變重要。當模型能力拉近後，差距常常出在資料。誰有更好的長文本。誰有更乾淨的流程標註。誰能把文件結構保留下來。這些都會直接影響結果。\u003C\u002Fp>\u003Cp>如果你是做產品的人，這批論文其實很有參考價值。你可以少看一點花俏 demo，多看一點 workflow、memory、retrieval、long-context。這些才是接下來真的會進企業系統的東西。\u003C\u002Fp>\u003Ch2>下一波 agent 競爭，會先比誰少走冤枉路\u003C\u002Fh2>\u003Cp>這批論文的結論很簡單。agent 會越來越像流程引擎。記憶會越來越像可更新的資產。資料集會越來越像產品本體，而不是附屬品。\u003C\u002Fp>\u003Cp>如果你現在在做 LLM 產品，我會先問三件事。你的 agent 有沒有記憶。你的 benchmark 有沒有測流程。你的資料是不是只會吃 Common Crawl。這三題答不出來，通常就代表系統還沒準備好上線。\u003C\u002Fp>\u003Cp>接下來最值得看的，不是模型又多了幾個參數，而是它少了幾次錯誤動作。少走一步，少浪費一個 token，少猜一次。這些看起來很小，累積起來就是產品差距。\u003C\u002Fp>\u003Cp>講白了，下一輪 AI 競爭，先贏的可能不是最會講話的模型，而是最少出包的 agent。\u003C\u002Fp>","這批 arXiv AI 論文集中在 agent 推理、長上下文資料、以及更貼近真實工作的 benchmark 設計。","papers.cool","https:\u002F\u002Fpapers.cool\u002Farxiv\u002Fcs.AI",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781685180920-w8wl.png","research","zh","596a6b3f-d7c0-46ef-9a88-1915a6e3f238",[17,18,19,20,21,22,23,24],"arXiv","AI agent","memory","long-context","benchmark","LLM","workflow","SEC filings",[26,27,28,29],"EvolveNav 用 rule memory 和 preflection，成功率提升 10.1%。","DRFLOW 把 benchmark 拉到真實工作流程，包含 100 tasks 和 1,246 steps。","SEFD 提供 152B tokens 的長上下文資料，還有 18.5M filings 規模。","這批論文的共同點，是把 AI 從會回話推向會規劃、會記憶、會做事。",0,"2026-06-17T08:32:36.427824+00:00","2026-06-17T08:32:36.397+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":35,"relatedLang":43,"relatedPosts":47},[36,37,39,41],{"name":21,"slug":21},{"name":17,"slug":38},"arxiv",{"name":40,"slug":20},"long context",{"name":18,"slug":42},"ai-agent",{"id":15,"slug":44,"title":45,"language":46},"arxiv-ai-papers-agents-memory-data-en","ArXiv AI papers push agents, memory, and data","en",[48,54,60,66,72,78],{"id":49,"slug":50,"title":51,"cover_image":52,"image_url":52,"created_at":53,"category":13},"a11f0446-10ed-4065-b079-fd59f9d7e6e1","reprorepo-github-issues-reproducibility-audits-zh","ReproRepo 用 GitHub issues 做可重現性稽核","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781678882881-amo7.png","2026-06-17T06:47:34.915676+00:00",{"id":55,"slug":56,"title":57,"cover_image":58,"image_url":58,"created_at":59,"category":13},"7cd85acd-4f96-43b7-a980-db5092ece240","variable-width-transformers-cut-wasted-capacity-zh","可變寬度 Transformer 省算力","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781677978302-5pqn.png","2026-06-17T06:32:32.22399+00:00",{"id":61,"slug":62,"title":63,"cover_image":64,"image_url":64,"created_at":65,"category":13},"956f7918-ff9c-4c2d-b8a5-e12b4ad361f2","veritas-robot-policy-visual-verification-zh","VERITAS 讓機器人邊跑邊驗證","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781677082980-g8km.png","2026-06-17T06:17:37.525843+00:00",{"id":67,"slug":68,"title":69,"cover_image":70,"image_url":70,"created_at":71,"category":13},"60d92b7d-73c4-4da6-a3d8-3de30d8ada82","phase-noise-information-aging-massive-mimo-zh","相位雜訊讓大規模MIMO資訊老化","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781641075077-kuxz.png","2026-06-16T20:17:27.875482+00:00",{"id":73,"slug":74,"title":75,"cover_image":76,"image_url":76,"created_at":77,"category":13},"83b83aaf-90bf-44d6-a2c8-74665bfe99b8","ai-model-benchmarks-gpt-55-claude-gemini-en-zh","18 項 AI 基準更新：GPT-5.5、Claude、Gemini 同場比拼","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781636583869-5rox.png","2026-06-16T19:02:23.356505+00:00",{"id":79,"slug":80,"title":81,"cover_image":82,"image_url":82,"created_at":83,"category":13},"4c04ff19-06b6-4917-92df-189e6a34886b","exact-posterior-scores-inverse-problems-zh","精確後驗分數解線性反問題","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781591581223-cx37.png","2026-06-16T06:32:31.505084+00:00",[85,90,95,100,105,110,115,120,125,130],{"id":86,"slug":87,"title":88,"created_at":89},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":126,"slug":127,"title":128,"created_at":129},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":131,"slug":132,"title":133,"created_at":134},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]