[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-ipt-vlms-hidden-space-reasoning-zh":3,"article-related-ipt-vlms-hidden-space-reasoning-zh":30,"series-research-e3a4b0f7-03b3-43c6-ae51-906b337c5c2f":82},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"e3a4b0f7-03b3-43c6-ae51-906b337c5c2f","ipt-vlms-hidden-space-reasoning-zh","IPT 讓 VLM 更會想像隱藏空間","\u003Cp data-speakable=\"summary\">IPT 用中介感知 \u003Ca href=\"\u002Ftag\u002Ftoken\">token\u003C\u002Fa> 讓多模態模型學會推理看不到的空間結構，特別是在遮擋、視角切換與路徑追蹤上更準。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：20K examples\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：中介空間 token\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這篇論文在解的，不是一般看圖問答，而是更難的空間推理：當答案不在眼前、而是藏在遮擋後面、另一個視角裡，或需要先在腦中重建空間時，多模態模型到底能不能想對。作者把這種能力稱為 imaginative perception，也就是「想像式感知」。\u003C\u002Fp>\u003Cp>對開發者來說，這不是小修小補。很多系統都能描述圖片裡看得到的東西，但一碰到地圖、房間、示意圖、機器人環境，或是需要推斷被擋住的路徑時，就開始亂掉。這篇研究就是在補這個洞。\u003C\u002Fp>\u003Ch2>這篇論文想補哪個洞\u003C\u002Fh2>\u003Cp>現有 vision-language model 很擅長辨識物件、回答一般視覺問題，但遇到「看不到」的資訊就容易卡住。摘要點出的痛點很明確：模型要推理的東西，可能是從另一個視角才看得到的內容，也可能是被遮住的空間結構，或是要把多個局部觀察拼成完整空間圖像。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780468394735-1k40.png\" alt=\"IPT 讓 VLM 更會想像隱藏空間\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這種問題的本質不是純語言。你不能只靠把圖片講成文字，再讓模型用文字一路猜下去。因為真正需要的是空間運算，不是敘事。作者認為，硬把這類任務塞進文字推理，會產生 modality mismatch，也就是輸入與推理形式不對位。\u003C\u002Fp>\u003Cp>所以這篇論文的切入點很直接：與其逼模型用文字「講」出空間答案，不如訓練它先產生一個中介的感知表示，讓它先「想像」再回答。\u003C\u002Fp>\u003Ch2>IPT 到底怎麼做\u003C\u002Fh2>\u003Cp>核心方法叫 Imaginative Perception Tokens，簡稱 IPT。你可以把它理解成一組訓練時用的中介 token，專門用來表示模型在另一種空間配置下「應該看到什麼」。它不是最後答案，也不是自由發揮的解釋，而是一個要被監督的中間層。\u003C\u002Fp>\u003Cp>\u003Ca href=\"\u002Fnews\u002F5-backrooms-spoilers-ending-monster-sequel-zh\">重點\u003C\u002Fa>在於，IPT 要保留和原始輸入的一致性。也就是說，模型不是隨便幻想，而是在觀測到的圖像基礎上，去外化它對隱藏空間的推理。這讓它和一般 chain-of-thought 不太一樣。後者偏向語言式推理；前者則是把空間想像\u003Ca href=\"\u002Fnews\u002Faws-devops-agent-turns-incident-chaos-into-triage-zh\">變成\u003C\u002Fa>可學習的中介表徵。\u003C\u002Fp>\u003Cp>論文用三個任務來測這件事：Perspective Taking、Path Tracing、Multiview Counting。這三個任務分別對應換視角、追蹤被遮擋路徑，以及從多視角一致地計數。簡單說，就是在測模型能不能補出看不到的空間資訊。\u003C\u002Fp>\u003Cul>\u003Cli>Perspective Taking：推斷另一視角會看到什麼。\u003C\u002Fli>\u003Cli>Path Tracing：在部分遮擋的空間裡找路徑。\u003C\u002Fli>\u003Cli>Multiview Counting：整合多視角，做一致計數。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>為了支援這些任務，作者建立了大約 20K 筆例子，裡面包含 ground truth imaginations、答案，以及評估用的 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa>。摘要沒有公開完整資料建構細節，所以我們只能確定它是任務導向、且有明確監督的資料集，而不是泛用的 caption 或 QA 混合資料。\u003C\u002Fp>\u003Cp>這點很重要。因為 IPT 不是拿一堆通用資料硬灌，而是直接把「空間想像」變成訓練目標。從工程角度看，這代表它想修的是模型的中介表示，而不是單純修輸出格式。\u003C\u002Fp>\u003Ch2>它實際證明了什麼\u003C\u002Fh2>\u003Cp>實驗是以 unified VLM BAGEL 為 backbone。摘要說明，加入 IPT supervision 後，模型在空間推理任務上穩定進步，而且常常比純文字 chain-of-thought 訓練更好。更值得注意的是，這種好處不是靠推理時生成圖片來達成的。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780468405046-86xe.png\" alt=\"IPT 讓 VLM 更會想像隱藏空間\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>也就是說，IPT 的訓練收益可以留在模型內部表示裡，到了 \u003Ca href=\"\u002Ftag\u002Finference\">inference\u003C\u002Fa> 時還能用。這讓它比「部署時還要額外生成視覺內容」更實際，因為推理成本和系統複雜度都比較可控。\u003C\u002Fp>\u003Cp>摘要裡有幾個具體數字。首先，在 Multiview Counting 上，IPT 讓準確率提升 3.4%。其次，在 Path Tracing 上，它達到和強閉源模型相當的表現。除此之外，摘要沒有公開完整 benchmark 細節，所以我們不能從這份 raw 資料再延伸更多數字。\u003C\u002Fp>\u003Cp>作者也提到，把 IPT 和 label-only supervision 結合，還能再拿到額外增益。這代表 IPT 不是取代答案監督，而是和既有標註互補。對訓練流程來說，這是好消息，因為它比較像加一層有效的中介學習，而不是整套重做。\u003C\u002Fp>\u003Cp>另一個值得工程師注意的結果，是 textual chain-of-thought 在這類任務上可能明顯拖累表現。這句話很關鍵。很多時候大家會直覺以為「多想一點、多講一點」就會更準，但在空間任務裡，模型也許更需要的是對應的感知表徵，而不是更多文字。\u003C\u002Fp>\u003Ch2>對開發者有什麼實際意義\u003C\u002Fh2>\u003Cp>如果你在做多模態 \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa>、機器人助手、圖表閱讀器，或任何需要理解隱藏幾何關係的系統，這篇論文提供的是一個很明確的訓練方向：不要只逼模型把空間問題講成文字，而是讓它學會一個更貼近任務本質的中介表示。\u003C\u002Fp>\u003Cp>這對實作很有啟發。因為很多模型在 prompt 上看起來會推理，但一旦問題涉及遮擋、路徑、視角切換，就開始失真。IPT 的觀點是，這不是單純語言不夠多，而是模型缺了一個能承載空間想像的層次。\u003C\u002Fp>\u003Cp>從產品角度看，這種方法也可能比純文字推理更容易控管。摘要沒有宣稱完整可解釋性，但至少它把中介感知表示顯式化了。對需要除錯的系統來說，這通常比一段長長的自然語言理由更有抓手。\u003C\u002Fp>\u003Cp>不過，這裡也要提醒限制。摘要只提到 BAGEL 這個 backbone，沒有說這套方法已經跨架構驗證到什麼程度。所以目前還不能直接下結論說 IPT 對所有 VLM 都一樣有效。\u003C\u002Fp>\u003Ch2>這篇研究還沒回答什麼\u003C\u002Fh2>\u003Cp>第一，這不是一個泛化到所有多模態推理的總解。它聚焦的是「看不到的空間結構」這一類問題。換句話說，IPT 強的是特定型態的空間推理，不是所有視覺理解。\u003C\u002Fp>\u003Cp>第二，資料集雖然有約 20K examples，但仍然是任務型資料，不是大\u003Ca href=\"\u002Fnews\u002Fneuron-selectivity-changes-with-scale-zh\">規模\u003C\u002Fa>真實部署場景。這表示它很適合研究和訓練，但還不能直接等同於線上產品的全部情境。\u003C\u002Fp>\u003Cp>第三，摘要只給了少量數字。雖然我們知道 MVC 提升 3.4%，也知道 PT 能打到強閉源模型，但沒有更完整的 benchmark 表格，所以這份 raw 資料能支持的結論也只能到這裡。\u003C\u002Fp>\u003Cp>所以比較穩妥的讀法是：IPT 是一個有方向感的訓練訊號，證明「空間推理不一定要走文字路線」。它不是終局方案，但已經足夠提醒大家，multimodal model 的瓶頸，可能在中介表徵，而不只是模型大小。\u003C\u002Fp>\u003Ch2>總結\u003C\u002Fh2>\u003Cp>這篇論文最重要的訊息很清楚：當任務需要推理看不見的空間時，讓模型先學會中介感知，比硬逼它用文字繞路更有效。IPT 把「想像」變成可監督的 token，結果在多視角計數、路徑追蹤等任務上都看到改善。\u003C\u002Fp>\u003Cp>對\u003Ca href=\"\u002Ftag\u002F台灣開發者\">台灣開發者\u003C\u002Fa>來說，這代表一個實用方向。若你的應用碰到遮擋、視角或隱藏結構問題，下一步不一定是加更長 prompt，而可能是重新設計模型學到的中間表示。這篇研究就是在提醒大家：有些空間題，真的不是靠嘴巴解的。\u003C\u002Fp>\u003Cp>最終，IPT 證明的不是「模型會講故事了」，而是模型開始能把看不見的空間關係學成一種內部能力。這正是多模態系統往前走時，最值得注意的地方。\u003C\u002Fp>","IPT 用中介感知 token 讓多模態模型學會推理看不到的空間結構，特別是在遮擋、視角切換與路徑追蹤上更準。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.03988",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780468394735-1k40.png","research","zh","a65ad2e8-de08-4108-82cb-c3737a17ac6f",[17,18,19,20,21],"vision-language model","spatial reasoning","imaginative perception tokens","chain-of-thought","multiview counting",[23,24,25],"IPT 把看不見的空間結構變成可監督的中介 token，讓 VLM 先學會想像再回答。","在 Multiview Counting 上，IPT 讓準確率提升 3.4%，Path Tracing 也達到強閉源模型水準。","這方法對遮擋、換視角、路徑追蹤類任務有幫助，但摘要只提供 BAGEL 與有限 benchmark 數字。",2,"2026-06-03T06:32:46.560029+00:00","2026-06-03T06:32:46.551+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":41,"relatedPosts":45},[32,34,36,38,39],{"name":17,"slug":33},"vision-language-model",{"name":19,"slug":35},"imaginative-perception-tokens",{"name":21,"slug":37},"multiview-counting",{"name":20,"slug":20},{"name":18,"slug":40},"spatial-reasoning",{"id":15,"slug":42,"title":43,"language":44},"ipt-vlms-hidden-space-reasoning-en","IPT helps VLMs reason about hidden space","en",[46,52,58,64,70,76],{"id":47,"slug":48,"title":49,"cover_image":50,"image_url":50,"created_at":51,"category":13},"f374155a-c29e-478c-b7a5-679cad1c51e4","crdts-keep-replicas-in-sync-without-locks-zh","CRDT 讓副本不用鎖也能同步","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781011086259-4p4k.png","2026-06-09T13:17:34.493426+00:00",{"id":53,"slug":54,"title":55,"cover_image":56,"image_url":56,"created_at":57,"category":13},"4b3b5a50-45b7-4238-a38b-160f82e323ff","post-deterministic-systems-autonomous-infra-zh","後決定性分散系：自治基礎設施新框架","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781010194792-5ogb.png","2026-06-09T13:02:32.717551+00:00",{"id":59,"slug":60,"title":61,"cover_image":62,"image_url":62,"created_at":63,"category":13},"04e45398-9814-4907-b416-fcb5b8d69508","causal-learnability-formal-language-tasks-zh","用因果法量化任務可學性","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780987696075-l4g0.png","2026-06-09T06:47:34.438642+00:00",{"id":65,"slug":66,"title":67,"cover_image":68,"image_url":68,"created_at":69,"category":13},"75bcc569-5e89-45c8-b809-6f169e929f4b","rl-training-hands-off-control-gradually-zh","RL 先接管再放手","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780986786312-03yo.png","2026-06-09T06:32:32.849589+00:00",{"id":71,"slug":72,"title":73,"cover_image":74,"image_url":74,"created_at":75,"category":13},"e3ecab4b-7cc7-4246-baf6-e1c170d86ca5","omnigamearena-vlm-game-agent-benchmark-zh","OmniGameArena 讓 VLM 遊戲代理更好比","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780985893022-70pl.png","2026-06-09T06:17:32.189729+00:00",{"id":77,"slug":78,"title":79,"cover_image":80,"image_url":80,"created_at":81,"category":13},"6f25a29c-cbb8-4f53-9af7-1656b394333a","turboquant-cuts-kv-cache-memory-6x-google-tests-zh","TurboQuant 在 Google 測試中省下 6x KV 快取","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780906682236-sqe2.png","2026-06-08T08:17:21.878314+00:00",[83,88,93,98,103,108,113,118,123,128],{"id":84,"slug":85,"title":86,"created_at":87},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":89,"slug":90,"title":91,"created_at":92},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":129,"slug":130,"title":131,"created_at":132},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]