[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-persistent-visual-memory-lvml-visual-drift-zh":3,"tags-persistent-visual-memory-lvml-visual-drift-zh":31,"related-lang-persistent-visual-memory-lvml-visual-drift-zh":41,"related-posts-persistent-visual-memory-lvml-visual-drift-zh":45,"series-research-dbd84f6a-1f4e-44c3-ae97-165482ff2d21":82},{"id":4,"title":5,"content":6,"summary":7,"source":8,"source_url":9,"author":10,"image_url":11,"keywords":12,"language":19,"translated_content":10,"views":20,"is_premium":21,"created_at":22,"updated_at":22,"cover_image":11,"published_at":23,"rewrite_status":24,"rewrite_error":10,"rewritten_from_id":25,"slug":26,"category":27,"related_article_id":28,"status":29,"google_indexed_at":30,"x_posted_at":10,"tweet_text":10,"title_rewritten_at":10,"title_original":10,"key_takeaways":10,"topic_cluster_id":10,"embedding":10,"is_canonical_seed":21},"dbd84f6a-1f4e-44c3-ae97-165482ff2d21","PVM 讓 LVLM 不再視覺漂移","\u003Cp data-speakable=\"summary\">Persistent Visual Memory 讓 LVLM 在長篇生成時，還能持續保留影像資訊。\u003C\u002Fp>\u003Cp>大型視覺語言\u003Ca href=\"\u002Fnews\u002Fhycop-modular-interpretable-pde-surrogates-zh\">模型\u003C\u002Fa>（LVLM）很會看圖，也很會寫字，但這篇論文指出一個實務上很麻煩的問題：文字一旦越生成越長，模型對視覺資訊的注意力會慢慢變弱。作者提出的 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.00814\">Persistent Visual Memory\u003C\u002Fa>（PVM），就是要把這個「越講越忘圖」的現象拉回來。\u003C\u002Fp>\u003Cp>這不是單純的提示詞技巧，也不是把資料再餵多一點就能解的問題。論文想處理的是 LVLM 的結構性失真：模型在長輸出過程中，會逐漸把內部資源分配給累積的文字上下文，而不是原本看到的影像。對開發者來說，這種漂移很危險，因為它往往不會在短答案裡立刻爆掉，而是等到模型需要長篇推理、逐步說明或多輪對話時才慢慢浮現。\u003C\u002Fp>\u003Ch2>這篇論文在解什麼痛點\u003C\u002Fh2>\u003Cp>作者把這個現象稱為「Visual Signal Dilution」。白話一點說，就是生成的 \u003Ca href=\"\u002Ftag\u002Ftoken\">token\u003C\u002Fa> 越多，文字歷史越長，影像訊號在注意力機制裡就越容易被稀釋。論文的描述是，生成序列長度與視覺注意力之間呈現反比關係。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1777876263458-zklg.png\" alt=\"PVM 讓 LVLM 不再視覺漂移\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這個問題的麻煩之處，在於它不是單一層或單一超參數的失誤，而是深度生成時就可能出現的內在偏移。模型並不是完全看不到圖，而是越往後寫，越不容易把圖像特徵放在決策路徑的前面。結果就是，模型前面還在看圖，後面卻開始靠文字自己補完。\u003C\u002Fp>\u003Cp>對實際應用來說，這會影響很多場景。像是需要長篇解釋圖片內容、對同一張圖做多步推理，或是在多輪對話裡持續引用視覺資訊的系統，都可能遇到這種「前面有看，後面走神」的狀況。論文的出發點很直接：如果 LVLM 要在長輸出裡保持可靠，就不能只在開頭看清楚一次而已。\u003C\u002Fp>\u003Ch2>PVM 的方法到底怎麼做\u003C\u002Fh2>\u003Cp>PVM 被描述成一個輕量級、可學習的模組，整合在 LVLM 的 Feed-Forw\u003Ca href=\"\u002Fnews\u002Fcloudflare-ai-code-review-prompt-injection-zh\">ar\u003C\u002Fa>d Network（FFN）旁邊，作為平行分支存在。它的核心設計概念，是提供一條「與距離無關」的檢索路徑，讓模型在需要時可以直接取回視覺嵌入。\u003C\u002Fp>\u003Cp>這個設計的重點，不是完全取代原本的注意力路徑，而是補一條更穩定的通道。論文的意思是，標準注意力在生成越長時越不可靠，PVM 則試著讓視覺資訊不要完全依賴那條會被文字上下文吃掉的路徑。換句話說，它像是在模型內部放了一個持久化的視覺記憶層，讓影像特徵不會因為 token 越堆越多就消失。\u003C\u002Fp>\u003Cp>從架構角度看，這種做法比重新設計整個 LVLM 更務實。作者把它定位成一個輕量加掛的模組，而不是大改模型骨架的重工程。這也代表它的價值，不只是在效果上，而是在可整合性上：如果一個方法能用相對小的參數成本，去補一個長生成階段的穩定性漏洞，那對模型建置者會很有吸引力。\u003C\u002Fp>\u003Cp>不過，摘要沒有交代更細的實作流程，例如模組內部的精確運算、訓練細節或插入位置的完整設計。因此，從目前公開的 raw 資料來看，我們只能確認它是「平行於 FFN 的輕量可學習分支」，不能再往下腦補成某種特定記憶網路或外掛式檢索器。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>實驗是在 Qwen3-VL 模型上做的，涵蓋 4B 和 8B 兩個尺度。摘要指出，PVM 帶來了明顯改善，而且參數增加幾乎可以忽略，並且在兩個尺度上都能看到一致的平均準確率提升。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1777876253193-8d6u.png\" alt=\"PVM 讓 LVLM 不再視覺漂移\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>但這裡要注意一點：摘要沒有公開完整 benchmark 細節。它沒有列出測了哪些資料集，也沒有提供精確分數、絕對提升幅度，或各項任務的細部表現。所以目前能確定的是「方向正向」，不能從摘要直接推導出實際提升到底有多大。\u003C\u002Fp>\u003Cp>即便如此，論文還是提供了兩個對工程上有意義的分析結果。第一，PVM 可以抵抗長度引起的訊號衰減；第二，它能加速內部預測的收斂。這兩點代表它可能不只是把最終答案做對，還可能讓模型在長生成過程中維持更穩定的內部狀態。\u003C\u002Fp>\u003Cp>如果把這些結果串起來看，論文的主張其實很清楚：PVM 對複雜推理任務特別有幫助，因為這類任務最需要持續的視覺感知。越是要一邊長篇輸出、一邊維持對圖像的依賴，這種機制就越可能派上用場。\u003C\u002Fp>\u003Cul>\u003Cli>測試模型：Qwen3-VL\u003C\u002Fli>\u003Cli>模型尺度：4B、8B\u003C\u002Fli>\u003Cli>參數成本：negligible parameter overhead\u003C\u002Fli>\u003Cli>結果描述：consistent average accuracy gains\u003C\u002Fli>\u003Cli>額外分析：抗長度衰減、加速內部預測收斂\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你有在做 LVLM，這篇最值得記住的不是某個漂亮分數，而是它指出了一個很真實的部署風險：模型不是只會「看不懂圖」，也可能是「看懂了但後面忘了怎麼用」。這種問題在短問答裡\u003Ca href=\"\u002Fnews\u002Fllms-procedural-execution-diagnostic-study-zh\">不一定\u003C\u002Fa>明顯，但在長輸出、複雜推理、逐步說明的任務裡，會慢慢變成品質落差。\u003C\u002Fp>\u003Cp>PVM 的吸引力，在於它把修補點放在架構層，而不是只靠 prompt 或訓練資料去硬撐。從摘要的描述看，它試圖用很小的額外參數，去補長生成時的視覺訊號衰減。如果這種方向成立，對需要\u003Ca href=\"\u002Ftag\u002F長上下文\">長上下文\u003C\u002Fa>多模態可靠性的系統會很有價值。\u003C\u002Fp>\u003Cp>但目前也有不少限制要先講清楚。摘要沒有說明完整 benchmark，所以我們不知道它在多少任務上成立；沒有公開精確數字，所以無法判斷提升幅度；也沒有說明方法是否能穩定泛化到 Qwen3-VL 以外的 LVLM 架構。此外，摘要沒有交代是否增加延遲，也沒有說明它在不同提示風格下的表現差異。\u003C\u002Fp>\u003Cp>所以比較務實的結論是：PVM 是一個針對「長生成時視覺漂移」的架構型修補方案，而且從摘要看起來結果不錯。但它目前比較像研究方向上的強訊號，不是已經能直接下定論的通用解法。對工程團隊來說，值得關注的是它提醒了一件事：多模態模型的失敗，有時不是因為沒看過圖，而是因為生成太長，圖像在決策路徑裡被慢慢擠掉了。\u003C\u002Fp>\u003Ch2>總結\u003C\u002Fh2>\u003Cp>PVM 想解的問題很單純：讓 LVLM 在長篇生成時，不要讓視覺資訊從模型裡慢慢流失。它用一個平行的輕量模組，把影像特徵維持在可被取用的位置，目標是減少視覺訊號隨文字變長而衰減的現象。\u003C\u002Fp>\u003Cp>從目前公開的摘要來看，這篇論文的價值在於它把一個常被忽略的失真模式講得很清楚，也提出了一個結構上的修補方向。對\u003Ca href=\"\u002Ftag\u002F台灣開發者\">台灣開發者\u003C\u002Fa>來說，這類研究最實際的意義不是「又多了一個新名詞」，而是提醒我們：多模態模型要真的能上線，重點不只是在第一眼看懂圖片，而是在整段長輸出裡，還能一直看得住。\u003C\u002Fp>","Persistent Visual Memory（PVM）用輕量級平行模組，試圖讓 LVLM 在長篇生成時持續保留視覺資訊，減少視覺訊號隨文字變長而衰減的問題。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.00814",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1777876263458-zklg.png",[13,14,15,16,17,18],"LVLM","visual drift","Persistent Visual Memory","attention","FFN","Qwen3-VL","zh",2,false,"2026-05-04T06:30:30.018682+00:00","2026-05-04T06:30:29.883+00:00","done","3ac35446-0c5c-4e86-8e31-f9e2b7d2072e","persistent-visual-memory-lvml-visual-drift-zh","research","8171cdaa-97e2-43fc-88f1-45be756c0a8e","published","2026-05-04T09:00:13.538+00:00",[32,34,36,38,40],{"name":17,"slug":33},"ffn",{"name":14,"slug":35},"visual-drift",{"name":13,"slug":37},"lvlm",{"name":15,"slug":39},"persistent-visual-memory",{"name":16,"slug":16},{"id":28,"slug":42,"title":43,"language":44},"persistent-visual-memory-lvml-visual-drift-en","Persistent Visual Memory fixes LVLM visual drift","en",[46,52,58,64,70,76],{"id":47,"slug":48,"title":49,"cover_image":50,"image_url":50,"created_at":51,"category":27},"667b72b6-e821-4d68-80a1-e03340bc85f1","turboquant-seo-shift-small-sites-zh","TurboQuant 與小站 SEO 變化","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778840440690-kcw9.png","2026-05-15T10:20:27.319472+00:00",{"id":53,"slug":54,"title":55,"cover_image":56,"image_url":56,"created_at":57,"category":27},"381fb6c6-6da7-4444-831f-8c5eed8d685c","turboquant-vllm-comparison-fp8-kv-cache-zh","TurboQuant 與 FP8 實測結果","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778839867551-4v9g.png","2026-05-15T10:10:36.034569+00:00",{"id":59,"slug":60,"title":61,"cover_image":62,"image_url":62,"created_at":63,"category":27},"c15f45ee-a548-4dbf-8152-91de159c1a11","llmbda-calculus-agent-safety-rules-zh","LLMbda 演算替 AI 代理人立安全規則","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778825503412-mlbf.png","2026-05-15T06:10:34.832664+00:00",{"id":65,"slug":66,"title":67,"cover_image":68,"image_url":68,"created_at":69,"category":27},"0c02225c-d6ff-44f8-bc92-884c8921c4a3","low-complexity-beamspace-denoiser-mmwave-mimo-zh","更簡單的毫米波波束域去噪器","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778814650361-xtc2.png","2026-05-15T03:10:30.06639+00:00",{"id":71,"slug":72,"title":73,"cover_image":74,"image_url":74,"created_at":75,"category":27},"9d27f967-62cc-433f-8cdb-9300937ade13","ai-benchmark-wins-cyber-scare-defenders-zh","為什麼 AI 基準賽在資安領域的勝利，應該讓防守方警醒","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778807450006-nofx.png","2026-05-15T01:10:29.379041+00:00",{"id":77,"slug":78,"title":79,"cover_image":80,"image_url":80,"created_at":81,"category":27},"bc402dc6-5da6-46fc-9d66-d09cb215f72b","why-linux-security-needs-patch-wave-mindset-zh","為什麼 Linux 安全需要「補丁浪潮」思維","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778741449813-s2wn.png","2026-05-14T06:50:24.052583+00:00",[83,88,93,98,103,108,113,118,123,128],{"id":84,"slug":85,"title":86,"created_at":87},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":89,"slug":90,"title":91,"created_at":92},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"9f50561b-aebd-46ba-94a8-363198aa7091","openclaw-agents-manipulated-self-sabotage-zh","OpenClaw Agent 會自己搞砸自己","2026-03-28T03:03:18.786425+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"11f22e92-7066-4978-a544-31f5f2156ec6","vega-learning-to-drive-with-natural-language-instructions-zh","Vega：使用自然語言指示進行自駕車控制","2026-03-28T14:54:04.847912+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"a4c7cfec-8d0e-4fec-93cf-1b9699a530b8","drive-my-way-en-zh","Drive My Way：個性化自駕車風格的實現","2026-03-28T14:54:26.207495+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"dec02f89-fd39-41ba-8e4d-11ede93a536d","training-knowledge-bases-with-writeback-rag-zh","用 WriteBack-RAG 強化知識庫提升檢索效能","2026-03-28T14:54:45.775606+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"3886be5c-a137-40cc-b9e2-0bf18430c002","packforcing-efficient-long-video-generation-method-zh","PackForcing：短影片訓練也能生成長影片","2026-03-28T14:55:02.688141+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"72b90667-d930-4cc9-8ced-aaa0f8968d44","pixelsmile-toward-fine-grained-facial-expression-editing-zh","PixelSmile：提升精細臉部表情編輯的新方法","2026-03-28T14:55:20.678181+00:00",{"id":129,"slug":130,"title":131,"created_at":132},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00"]