PVM 讓 LVLM 不再視覺漂移

OraCore Editors

返回首頁

[RSCH] 2026年5月4日5 分鐘閱讀OraCore 編輯部

PVM 讓 LVLM 不再視覺漂移

Persistent Visual Memory（PVM）用輕量級平行模組，試圖讓 LVLM 在長篇生成時持續保留視覺資訊，減少視覺訊號隨文字變長而衰減的問題。

FFN visual drift LVLM Persistent Visual Memory attention

分享 LinkedIn

Persistent Visual Memory 讓 LVLM 在長篇生成時，還能持續保留影像資訊。

大型視覺語言模型（LVLM）很會看圖，也很會寫字，但這篇論文指出一個實務上很麻煩的問題：文字一旦越生成越長，模型對視覺資訊的注意力會慢慢變弱。作者提出的 Persistent Visual Memory（PVM），就是要把這個「越講越忘圖」的現象拉回來。

這不是單純的提示詞技巧，也不是把資料再餵多一點就能解的問題。論文想處理的是 LVLM 的結構性失真：模型在長輸出過程中，會逐漸把內部資源分配給累積的文字上下文，而不是原本看到的影像。對開發者來說，這種漂移很危險，因為它往往不會在短答案裡立刻爆掉，而是等到模型需要長篇推理、逐步說明或多輪對話時才慢慢浮現。

這篇論文在解什麼痛點

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

作者把這個現象稱為「Visual Signal Dilution」。白話一點說，就是生成的 token 越多，文字歷史越長，影像訊號在注意力機制裡就越容易被稀釋。論文的描述是，生成序列長度與視覺注意力之間呈現反比關係。

這個問題的麻煩之處，在於它不是單一層或單一超參數的失誤，而是深度生成時就可能出現的內在偏移。模型並不是完全看不到圖，而是越往後寫，越不容易把圖像特徵放在決策路徑的前面。結果就是，模型前面還在看圖，後面卻開始靠文字自己補完。

對實際應用來說，這會影響很多場景。像是需要長篇解釋圖片內容、對同一張圖做多步推理，或是在多輪對話裡持續引用視覺資訊的系統，都可能遇到這種「前面有看，後面走神」的狀況。論文的出發點很直接：如果 LVLM 要在長輸出裡保持可靠，就不能只在開頭看清楚一次而已。

PVM 的方法到底怎麼做

PVM 被描述成一個輕量級、可學習的模組，整合在 LVLM 的 Feed-Forward Network（FFN）旁邊，作為平行分支存在。它的核心設計概念，是提供一條「與距離無關」的檢索路徑，讓模型在需要時可以直接取回視覺嵌入。

這個設計的重點，不是完全取代原本的注意力路徑，而是補一條更穩定的通道。論文的意思是，標準注意力在生成越長時越不可靠，PVM 則試著讓視覺資訊不要完全依賴那條會被文字上下文吃掉的路徑。換句話說，它像是在模型內部放了一個持久化的視覺記憶層，讓影像特徵不會因為 token 越堆越多就消失。

從架構角度看，這種做法比重新設計整個 LVLM 更務實。作者把它定位成一個輕量加掛的模組，而不是大改模型骨架的重工程。這也代表它的價值，不只是在效果上，而是在可整合性上：如果一個方法能用相對小的參數成本，去補一個長生成階段的穩定性漏洞，那對模型建置者會很有吸引力。

不過，摘要沒有交代更細的實作流程，例如模組內部的精確運算、訓練細節或插入位置的完整設計。因此，從目前公開的 raw 資料來看，我們只能確認它是「平行於 FFN 的輕量可學習分支」，不能再往下腦補成某種特定記憶網路或外掛式檢索器。

論文實際證明了什麼

實驗是在 Qwen3-VL 模型上做的，涵蓋 4B 和 8B 兩個尺度。摘要指出，PVM 帶來了明顯改善，而且參數增加幾乎可以忽略，並且在兩個尺度上都能看到一致的平均準確率提升。

但這裡要注意一點：摘要沒有公開完整 benchmark 細節。它沒有列出測了哪些資料集，也沒有提供精確分數、絕對提升幅度，或各項任務的細部表現。所以目前能確定的是「方向正向」，不能從摘要直接推導出實際提升到底有多大。

即便如此，論文還是提供了兩個對工程上有意義的分析結果。第一，PVM 可以抵抗長度引起的訊號衰減；第二，它能加速內部預測的收斂。這兩點代表它可能不只是把最終答案做對，還可能讓模型在長生成過程中維持更穩定的內部狀態。

如果把這些結果串起來看，論文的主張其實很清楚：PVM 對複雜推理任務特別有幫助，因為這類任務最需要持續的視覺感知。越是要一邊長篇輸出、一邊維持對圖像的依賴，這種機制就越可能派上用場。

測試模型：Qwen3-VL
模型尺度：4B、8B
參數成本：negligible parameter overhead
結果描述：consistent average accuracy gains
額外分析：抗長度衰減、加速內部預測收斂

對開發者有什麼影響

如果你有在做 LVLM，這篇最值得記住的不是某個漂亮分數，而是它指出了一個很真實的部署風險：模型不是只會「看不懂圖」，也可能是「看懂了但後面忘了怎麼用」。這種問題在短問答裡不一定明顯，但在長輸出、複雜推理、逐步說明的任務裡，會慢慢變成品質落差。

PVM 的吸引力，在於它把修補點放在架構層，而不是只靠 prompt 或訓練資料去硬撐。從摘要的描述看，它試圖用很小的額外參數，去補長生成時的視覺訊號衰減。如果這種方向成立，對需要長上下文多模態可靠性的系統會很有價值。

但目前也有不少限制要先講清楚。摘要沒有說明完整 benchmark，所以我們不知道它在多少任務上成立；沒有公開精確數字，所以無法判斷提升幅度；也沒有說明方法是否能穩定泛化到 Qwen3-VL 以外的 LVLM 架構。此外，摘要沒有交代是否增加延遲，也沒有說明它在不同提示風格下的表現差異。

所以比較務實的結論是：PVM 是一個針對「長生成時視覺漂移」的架構型修補方案，而且從摘要看起來結果不錯。但它目前比較像研究方向上的強訊號，不是已經能直接下定論的通用解法。對工程團隊來說，值得關注的是它提醒了一件事：多模態模型的失敗，有時不是因為沒看過圖，而是因為生成太長，圖像在決策路徑裡被慢慢擠掉了。

總結

PVM 想解的問題很單純：讓 LVLM 在長篇生成時，不要讓視覺資訊從模型裡慢慢流失。它用一個平行的輕量模組，把影像特徵維持在可被取用的位置，目標是減少視覺訊號隨文字變長而衰減的現象。

從目前公開的摘要來看，這篇論文的價值在於它把一個常被忽略的失真模式講得很清楚，也提出了一個結構上的修補方向。對台灣開發者來說，這類研究最實際的意義不是「又多了一個新名詞」，而是提醒我們：多模態模型要真的能上線，重點不只是在第一眼看懂圖片，而是在整段長輸出裡，還能一直看得住。

// 相關文章

PVM 讓 LVLM 不再視覺漂移

這篇論文在解什麼痛點

訂閱 AI 趨勢週報

PVM 的方法到底怎麼做

論文實際證明了什麼

對開發者有什麼影響

總結

TurboQuant 與小站 SEO 變化

TurboQuant 與 FP8 實測結果

LLMbda 演算替 AI 代理人立安全規則

更簡單的毫米波波束域去噪器

為什麼 AI 基準賽在資安領域的勝利，應該讓防守方警醒

為什麼 Linux 安全需要「補丁浪潮」思維