[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-protoada-multimodal-continual-instruction-tuning-zh":3,"article-related-protoada-multimodal-continual-instruction-tuning-zh":31,"series-research-02ba7be2-4123-4d11-83c5-eeb297fa4192":84},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":23,"views":27,"created_at":28,"published_at":29,"topic_cluster_id":30},"02ba7be2-4123-4d11-83c5-eeb297fa4192","protoada-multimodal-continual-instruction-tuning-zh","ProtoAda 用格式原型減少多模態漂移","\u003Cp data-speakable=\"summary\">ProtoAda 用格式感知原型減少\u003Ca href=\"\u002Fnews\u002Ffixing-bias-in-multimodal-llm-judges-zh\">多模態\u003C\u002Fa>持續指令微調中的任務干擾。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：摘要無公開 benchmark 數字\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：格式原型加幾何整合\u003C\u002Fli>\u003C\u002Ful>\u003Cp>\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.02576\">ProtoAda: Prototype-Guided Adaptive Adapter Expansion and Geometric Consolidation for Multimodal Continual Instruction Tuning\u003C\u002Fa> 這篇在處理一個很實際的問題：多模態\u003Ca href=\"\u002Fnews\u002Fdatabricks-custom-models-aws-overview-zh\">模型\u003C\u002Fa>不是訓練一次就結束。當你持續加入新任務，舊能力常常不是真的被忘掉，而是被後來的學習帶歪，尤其是答案格式會先壞掉。\u003C\u002Fp>\u003Cp>這種問題在多模態系統裡很常見。模型看起來還懂圖文語意，但輸出型態已經亂了。原本要回座標，後面卻偏成短句；原本要維持結構化輸出，結果被其他任務的學習訊號沖掉。ProtoAda 想修的，就是這種「語意像，但格式不一樣」造成的持續微調漂移。\u003C\u002Fp>\u003Ch2>它到底在解什麼痛點\u003C\u002Fh2>\u003Cp>這篇論文聚焦的是 Multimodal Continual Instruction Tuning，簡稱 MCIT。白話講，就是多模態大模型在實際部署後，還要一直學新能力，但不能把舊能力弄壞。這跟一次性 instruction tuning 不一樣，因為真實系統會一直追加新任務、新資料、新輸出型態。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780381088861-187s.png\" alt=\"ProtoAda 用格式原型減少多模態漂移\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>摘要指出，近期一些方法會用稀疏架構來減少任務干擾，例如把 LoRA expert 做成 Mixture of LoRA Experts，再搭配 image-text similarity routing。問題是，語意相近不代表輸出格式相近。兩個任務都可能看同一張圖、讀同一段文字，但一個要回座標，一個要回簡答，處理方式其實不同。\u003C\u002Fp>\u003Cp>ProtoAda 要解的，就是這種格式盲派工。摘要把它描述成 format-blind task assignment。當路由只看圖文相似度，就很容易把不同輸出型態的任務混在一起，最後造成梯度互相干擾，專家之間也難以協作。\u003C\u002Fp>\u003Cp>這不是單純的準確率問題，而是行為結構被改寫。對開發者來說，這種 bug 很難排查，因為模型不一定整體退化，只是某些任務開始「答得不像原本那樣」。\u003C\u002Fp>\u003Ch2>ProtoAda 的方法怎麼運作\u003C\u002Fh2>\u003Cp>ProtoAda 的核心是 prototype-guided adaptive tuning。它不是只靠任務語意來決定要把更新送去哪個 adapter，而是把「答案格式」也納入考量。摘要提到它引入 format-aware task prototypes，讓任務表示同時捕捉語意與輸出結構。\u003C\u002Fp>\u003Cp>這個設計的重點在路由。若兩個任務在語意上接近，但結構上不同，ProtoAda 就希望不要因為表面相似而把它們塞進同一個 expert。換句話說，它想讓模型知道：看起來像，不代表應該一起學。\u003C\u002Fp>\u003Cp>第二個關鍵是 geometric consolidation。摘要寫得很直接：ProtoAda 會以 geometry-aware 的方式整合格式相容的更新，讓既有參數可以被重用，並逐步精煉。白話來說，就是把能夠共存的更新合在一起，但避免不同任務的參數彼此撞車。\u003C\u002Fp>\u003Cp>如果把整個方法拆成工程語言，可以理解成兩層保護。第一層是更細的派工，避免錯配。第二層是更新合併時的幾何約束，避免學習訊號互相蓋掉。這樣一來，模型在持續學新任務時，比較不會把舊任務的輸出形狀弄壞。\u003C\u002Fp>\u003Cp>這也解釋了為\u003Ca href=\"\u002Fnews\u002Fwhy-ai-news-sections-are-failing-readers-zh\">什麼\u003C\u002Fa>標題裡會同時出現 adaptive adapter expansion 和 geometric consolidation。前者是擴充，後者是收斂；一個負責接新東西，一個負責別把舊東西拆掉。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>摘要說作者做了多個 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 的大量實驗，結果顯示 ProtoAda 表現更好。它特別強調，當任務的答案結構容易被 sequential tuning 損壞時，提升會更明顯。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780381084506-egfs.png\" alt=\"ProtoAda 用格式原型減少多模態漂移\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這句話很重要，因為它說明這個方法不是對所有任務平均有效，而是對「格式容易被污染」的場景特別有用。也就是說，它不是在宣稱萬用神器，而是在處理一種很具體、很棘手的持續學習失真。\u003C\u002Fp>\u003Cp>不過，摘要沒有公開 benchmark 名稱，也沒有數字。沒有列出分數、沒有列出提升幅度、也沒有提供 ablation 或效率開銷。所以就摘要層級來看，我們只能確定它主張更好，不能替它補上具體 benchmark 成績。\u003C\u002Fp>\u003Cp>這不代表方法沒價值。反而表示這篇論文的重點不在「我刷了多少分」，而在「我怎麼避免多模態持續微調把輸出格式學歪」。對研究和產品團隊來說，這種問題往往比單次分數更接近真實痛點。\u003C\u002Fp>\u003Ch2>對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你在做會持續更新的多模態系統，這篇論文其實是在提醒一件事：模型退化不一定是忘記知識，也可能是學錯了輸出格式。這種失真比一般 accuracy 掉分更麻煩，因為它常常只影響特定任務，而且表面上還像是「模型大致懂了」。\u003C\u002Fp>\u003Cp>ProtoAda 的觀點很實用。它把 answer format 拉到跟 semantic similarity 同等重要的位置。對工程實作來說，這意味著路由策略不能只看圖文內容像不像，還要看任務輸出是不是同一類型。若你同時處理 grounding、VQA 或其他多模態指令任務，這個差異會直接影響穩定性。\u003C\u002Fp>\u003Cp>另一個值得注意的點，是稀疏 expert 架構不一定天然就能隔離任務。摘要反而指出，路由策略本身也可能變成干擾來源。如果 routing 的依據太粗，就算你有很多 expert，最後還是會把不該混的更新混在一起。\u003C\u002Fp>\u003Cp>所以這篇論文給開發者的訊號很明確：持續學習不是只有「加新能力」這件事，還有「保住舊輸出形狀」這件事。尤其在多模態系統裡，輸出格式本身就是產品行為的一部分。\u003C\u002Fp>\u003Ch2>限制與還沒回答的問題\u003C\u002Fh2>\u003Cp>摘要的問題也很明顯。它沒有交代 benchmark 名稱、模型規模、提升幅度，也沒有說訓練或推理成本會不會增加。這些都是實作時一定會問的問題，但摘要沒有給答案。\u003C\u002Fp>\u003Cp>另外，format-aware prototypes 到底怎麼建，摘要也沒講清楚。它如何跨不同多模態任務泛化、對噪聲任務定義敏不敏感、幾何整合的數學形式是什麼，這些都還要看正文才能知道。對團隊來說，這些細節會決定它是能直接接進訓練管線，還是只能停在研究 demo。\u003C\u002Fp>\u003Cp>但就 abstract 能提供的訊息來看，ProtoAda 已經把問題框得很清楚：多模態持續微調的風險，不只是遺忘，而是格式漂移。當任務看起來相似，模型不一定真的該共用同一套更新。這篇論文就是在把這件事變成可操作的方法。\u003C\u002Fp>\u003Cp>如果你在做長期迭代的 multimodal assistant、\u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa> 系統，或專門型 vision-language 工具，這個方向值得注意。它提醒我們，適應新任務不只是塞新知識，還要守住舊行為的形狀。對持續學習來說，這可能就是穩定和失控的分界線。\u003C\u002Fp>\u003Cul>\u003Cli>ProtoAda 把答案格式納入任務路由，不只看語意相似度。\u003C\u002Fli>\u003Cli>摘要主張多個 benchmark 表現更好，但沒有公開數字。\u003C\u002Fli>\u003Cli>它特別針對 sequential tuning 容易破壞輸出結構的任務。\u003C\u002Fli>\u003C\u002Ful>","ProtoAda 用格式感知原型與幾何式整合，降低多模態持續指令微調中的任務干擾，特別針對答案格式容易被後續訓練扭曲的情況。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.02576",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780381088861-187s.png","research","zh","348358ba-3a10-4057-9694-235127ebd848",[17,18,19,20,21,22],"multimodal continual learning","instruction tuning","adapter expansion","task routing","prototype learning","geometric consolidation",[24,25,26],"格式感知原型可降低多模態持續微調的任務干擾。","方法重點不只在擴充 adapter，也在幾何式整合更新。","摘要沒有公開 benchmark 數字與效率成本，實作細節仍待正文。",5,"2026-06-02T06:17:34.834896+00:00","2026-06-02T06:17:34.82+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":32,"relatedLang":43,"relatedPosts":47},[33,35,37,39,41],{"name":20,"slug":34},"task-routing",{"name":21,"slug":36},"prototype-learning",{"name":17,"slug":38},"multimodal-continual-learning",{"name":19,"slug":40},"adapter-expansion",{"name":18,"slug":42},"instruction-tuning",{"id":15,"slug":44,"title":45,"language":46},"protoada-multimodal-continual-instruction-tuning-en","ProtoAda tackles multimodal continual tuning drift","en",[48,54,60,66,72,78],{"id":49,"slug":50,"title":51,"cover_image":52,"image_url":52,"created_at":53,"category":13},"f374155a-c29e-478c-b7a5-679cad1c51e4","crdts-keep-replicas-in-sync-without-locks-zh","CRDT 讓副本不用鎖也能同步","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781011086259-4p4k.png","2026-06-09T13:17:34.493426+00:00",{"id":55,"slug":56,"title":57,"cover_image":58,"image_url":58,"created_at":59,"category":13},"4b3b5a50-45b7-4238-a38b-160f82e323ff","post-deterministic-systems-autonomous-infra-zh","後決定性分散系：自治基礎設施新框架","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781010194792-5ogb.png","2026-06-09T13:02:32.717551+00:00",{"id":61,"slug":62,"title":63,"cover_image":64,"image_url":64,"created_at":65,"category":13},"04e45398-9814-4907-b416-fcb5b8d69508","causal-learnability-formal-language-tasks-zh","用因果法量化任務可學性","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780987696075-l4g0.png","2026-06-09T06:47:34.438642+00:00",{"id":67,"slug":68,"title":69,"cover_image":70,"image_url":70,"created_at":71,"category":13},"75bcc569-5e89-45c8-b809-6f169e929f4b","rl-training-hands-off-control-gradually-zh","RL 先接管再放手","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780986786312-03yo.png","2026-06-09T06:32:32.849589+00:00",{"id":73,"slug":74,"title":75,"cover_image":76,"image_url":76,"created_at":77,"category":13},"e3ecab4b-7cc7-4246-baf6-e1c170d86ca5","omnigamearena-vlm-game-agent-benchmark-zh","OmniGameArena 讓 VLM 遊戲代理更好比","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780985893022-70pl.png","2026-06-09T06:17:32.189729+00:00",{"id":79,"slug":80,"title":81,"cover_image":82,"image_url":82,"created_at":83,"category":13},"6f25a29c-cbb8-4f53-9af7-1656b394333a","turboquant-cuts-kv-cache-memory-6x-google-tests-zh","TurboQuant 在 Google 測試中省下 6x KV 快取","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780906682236-sqe2.png","2026-06-08T08:17:21.878314+00:00",[85,90,95,100,105,110,115,120,125,130],{"id":86,"slug":87,"title":88,"created_at":89},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":126,"slug":127,"title":128,"created_at":129},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":131,"slug":132,"title":133,"created_at":134},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]