[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-geometry-aware-similarity-metrics-for-neural-representations-zh":3,"tags-geometry-aware-similarity-metrics-for-neural-representations-zh":28,"related-lang-geometry-aware-similarity-metrics-for-neural-representations-zh":33,"related-posts-geometry-aware-similarity-metrics-for-neural-representations-zh":37,"series-research-53a0dc54-0371-4e40-8d5e-74e94a73840c":74},{"id":4,"title":5,"content":6,"summary":7,"source":8,"source_url":9,"author":10,"image_url":11,"keywords":12,"language":17,"translated_content":10,"views":18,"is_premium":19,"created_at":20,"updated_at":20,"cover_image":11,"published_at":21,"rewrite_status":22,"rewrite_error":10,"rewritten_from_id":10,"slug":23,"category":24,"related_article_id":25,"status":26,"google_indexed_at":27,"x_posted_at":10,"tweet_text":10,"title_rewritten_at":10,"title_original":10,"key_takeaways":10,"topic_cluster_id":10,"embedding":10,"is_canonical_seed":19},"53a0dc54-0371-4e40-8d5e-74e94a73840c","超越距離測量：用微分幾何重新理解神經網路","\u003Cp>神經網路的成功充滿了神祕性。我們訓練它們，它們就能泛化，大多數時候我們只是聳聳肩接受這個事實。但這個表面成功的底下，藏著一個幾何現實：神經網路在高維空間裡排列資訊的方式，和它們捕捉的模式一樣重要。\u003C\u002Fp>\n\n\u003Cp>UC Berkeley的N Alex Cayco Gajic和Arthur Pellegrino決定更深入地理解這個幾何。他們沒有問「這些表示看起來像什麼」（外在幾何），而是問「它們的根本內部結構是什麼」（內在幾何）。答案是：指標相似性分析（Metric Similarity Analysis, MSA），一個用微分幾何來比較神經表示的框架，能捕捉傳統方法遺漏的東西。\u003C\u002Fp>\n\n\u003Cp>這篇於2026年3月30日提交到arXiv的論文，打開了一扇門讓我們理解：為什麼用不同方式訓練的神經網路，即使產生相似輸出，卻往往具有根本不同的內部幾何結構。\u003C\u002Fp>\n\n\u003Ch2>古典相似度量的侷限\u003C\u002Fh2>\n\n\u003Cp>研究者比較神經網路表示時，通常問：這兩個向量相似嗎？這看起來合理，直到你意識到答案完全取決於\u003Cem>怎麼\u003C\u002Fem>測量相似度。歐幾里得距離（直線距離）在某些情境有效，餘弦相似度在其他情境適用。但兩者都忽略了一個關鍵因素：表示空間的內在幾何。\u003C\u002Fp>\n\n\u003Cp>想象兩座城市，距離參考點等距（相同的歐幾里得距離），但在山脈的兩側，它們佔據著根本不同的地理結構。古典指標能捕捉距離；卻漏掉了景觀。\u003C\u002Fp>\n\n\u003Cp>神經網路的表示就像那些城市。它們所在的抽象空間有自己的結構—曲率、維度、測地距離（沿著底層流形的最短路徑）。標準指標把空間當成平坦無特徵的，遺失了表示如何組織資訊的關鍵信息。\u003C\u002Fp>\n\n\u003Ch2>指標相似性分析：微分幾何方法\u003C\u002Fh2>\n\n\u003Cp>Cayco Gajic和Pellegrino的MSA框架奠基於黎曼幾何—微分幾何的一個分支，將距離和角度概念延伸到曲面上。與其問「這些向量在歐幾里得空間裡距離多遠」，MSA問的是「它們所在流形的內在幾何是什麼，這些幾何如何比較」。\u003C\u002Fp>\n\n\u003Cp>流形假說—高維資料位於低維流形之上的信念—是現代機器學習的基礎。但它常被當成抽象假設擱置。MSA讓它具體化，實際測量流形性質：曲率、維度和內在距離。\u003C\u002Fp>\n\n\u003Cp>這個技術運用微分幾何工具來計算Ricci曲率張量這類性質，它捕捉流形在不同方向如何彎曲。兩個表示在古典指標下可能看起來相似，卻展現出完全不同的內在曲率，暗示根本不同的計算結構。\u003C\u002Fp>\n\n\u003Ch2>三個實驗領域\u003C\u002Fh2>\n\n\u003Cp>研究者在三個理解內在幾何很重要的場景測試MSA：\u003C\u002Fp>\n\n\u003Cp>\u003Cstrong>變化條件下的深度網路：\u003C\u002Fstrong>網路以不同初始化、不同學習率或不同資料增強策略訓練時，會收斂到不同的表示。古典指標可能說它們「夠相似了」。MSA會揭露底層計算流形是否真的同構，或者根本不同。\u003C\u002Fp>\n\n\u003Cp>\u003Cstrong>非線性動力系統：\u003C\u002Fstrong>理解相空間軌跡的幾何對預測系統行為至關重要。MSA提供工具比較不同參數體制下軌跡的內在幾何，揭示系統何時經歷根本重組，何時只是改變規模。\u003C\u002Fp>\n\n\u003Cp>\u003Cstrong>擴散模型：\u003C\u002Fstrong>當擴散模型透過反覆精煉產生影像時，表示幾何不斷演變。MSA能追蹤不同時間步的表示是否位於同一底層流形，或在定性不同的幾何結構間轉變。這攸關於理解生成能力來自何處。\u003C\u002Fp>\n\n\u003Ch2>為什麼幾何捕捉了指標遺漏的東西\u003C\u002Fh2>\n\n\u003Cp>古典相似度量無視流形結構。想象兩個高維空間在拓樸上相同，但內在曲率不同。點可能在兩個空間裡等距，但測地距離—沿著流形的最短路徑—卻不同，空間的計算方式也根本不同。\u003C\u002Fp>\n\n\u003Cp>這個區別不只是學術性的。它有真實的含義：兩個表示「相似」（按古典標準），卻可能學到完全不同的決策邊界，因為它們底層流形的曲率不同。MSA偵測這些結構差異，揭露兩個表示何時真正相似，何時只是表面接近。\u003C\u002Fp>\n\n\u003Cp>該框架也能處理流形維度變化的情況。一個表示可能在某個情況集中在低維子流形，在另一個情況下展開到高維度，即使逐點距離看起來相似。MSA透過測量內在維度來區分這些情景。\u003C\u002Fp>\n\n\u003Ch2>對神經網路研究的啟示\u003C\u002Fh2>\n\n\u003Cp>如果MSA確實成功捕捉了內在幾何，它提供了一個更有原則的方式來問：什麼構成好的表示？現有答案依賴下游任務表現—如果學到的表示產生好結果，我們就稱它好。但MSA暗示更深層的準則：表示應在結構良好、可詮釋的流形上組織資訊。\u003C\u002Fp>\n\n\u003Cp>這可能指導架構設計。或許過度扭曲表示流形的層（引入不必要的曲率）是不合意的。或許跳躍連接能成功的部分原因是保留流形結構。或許注意力機制成功是因為它動態調整流形幾何以適應當前任務。\u003C\u002Fp>\n\n\u003Cp>理解表示幾何也對遷移學習很重要。如果預訓練表示用「好」的流形結構—跨任務泛化的結構—那可能解釋預訓練為何有幫助。相反，如果微調過度扭曲預訓練流形，可能會摧毀遷移能力。\u003C\u002Fp>\n\n\u003Ch2>與更廣泛理論的連接\u003C\u002Fh2>\n\n\u003Cp>MSA連接到機器學習理論中的長久問題。流形假說假設資料集中在低維流形上。MSA提供工具驗證和量化這一點。梯度下降的隱含偏好—為什麼神經網路學到泛化解—可能部分反映學到的流形幾何。MSA提供透鏡來調查。\u003C\u002Fp>\n\n\u003Cp>該研究也涉及資訊幾何，用幾何工具研究機率分佈空間的領域。如果神經表示編碼機率分佈（生成模型的常見假設），它們的幾何性質編碼機率結構的資訊。MSA橋接這些視角。\u003C\u002Fp>\n\n\u003Ch2>方法論考量\u003C\u002Fh2>\n\n\u003Cp>一個挑戰是計算成本。測量黎曼性質需要仔細的數值計算。論文有解決這個問題，但實作MSA的從業者在處理超高維表示時，必須應對數值穩定性問題。\u003C\u002Fp>\n\n\u003Cp>另一個問題是可詮釋性。MSA揭露幾何差異，但要把差異轉化為可行洞察需要領域專業知識。高Ricci曲率的表示在某些情況下可能「壞」，在其他情況下「好」，取決於下游任務。\u003C\u002Fp>\n\n\u003Ch2>未來方向\u003C\u002Fh2>\n\n\u003Cp>自然的下一步是系統應用到現代架構：Transformers、視覺模型、多模態系統。基於注意力的架構產生的表示有特徵幾何性質嗎？某些設計選擇（層正規化、跳躍連接、位置編碼）是否能預測流形結構？\u003C\u002Fp>\n\n\u003Cp>也有潛力開發幾何感知學習演算法—在訓練中明確優化好流形性質的方法。如果網路幾何與泛化相關，幾何感知訓練可能改善效率和穩健性。\u003C\u002Fp>\n\n\u003Cp>對從業者而言，MSA是個診斷工具。當你有兩個表示在古典標準下看起來相似卻在生產環境表現不同時，MSA能揭露解釋差距的幾何差異。隨著神經網路進入更高利害關係應用，這些對表示結構的深入理解變得更加寶貴。\u003C\u002Fp>\n\n\u003Cp>要深入探索這項工作，請查看\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.28764\" target=\"_blank\" rel=\"noopener\">arXiv上關於黎曼幾何與神經表示的論文\u003C\u002Fa>，以及\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fsearch\u002F?query=representation+learning+geometry&searchtype=all\" target=\"_blank\" rel=\"noopener\">表示學習幾何方法的相關研究\u003C\u002Fa>。與\u003Ca href=\"https:\u002F\u002Fzh.wikipedia.org\u002Fwiki\u002F%E8%B5%B7%E5%9C%B0%E8%AE%80%E7%BE%A4%E4%BD%9F%E7%94%A8%E8%80%85%E7%A7%A4%E6%9A%A8\" target=\"_blank\" rel=\"noopener\">資訊幾何\u003C\u002Fa>和\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fsearch\u002F?query=manifold+hypothesis&searchtype=all\" target=\"_blank\" rel=\"noopener\">流形假說\u003C\u002Fa>的連接深厚，為未來研究提供豐富沃土。\u003C\u002Fp>","研究者用黎曼幾何分析神經網路表示的內在結構，揭示傳統相似度指標無法發現的深層模式。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.28764",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1774939902743-mij0.png",[13,14,15,16],"黎曼幾何","神經網路","表示學習","流形假說","zh",0,false,"2026-03-31T06:01:01.241968+00:00","2026-03-31T06:52:08.278+00:00","done","geometry-aware-similarity-metrics-for-neural-representations-zh","research","bffe6d87-1e52-49cc-8fb7-bb5776889b14","published","2026-04-09T09:00:57.277+00:00",[29,30,31,32],{"name":15,"slug":15},{"name":14,"slug":14},{"name":16,"slug":16},{"name":13,"slug":13},{"id":25,"slug":34,"title":35,"language":36},"understanding-neural-nets-metric-similarity-en","Geometry Matters: Understanding Neural Networks Through Manifolds","en",[38,44,50,56,62,68],{"id":39,"slug":40,"title":41,"cover_image":42,"image_url":42,"created_at":43,"category":24},"667b72b6-e821-4d68-80a1-e03340bc85f1","turboquant-seo-shift-small-sites-zh","TurboQuant 與小站 SEO 變化","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778840440690-kcw9.png","2026-05-15T10:20:27.319472+00:00",{"id":45,"slug":46,"title":47,"cover_image":48,"image_url":48,"created_at":49,"category":24},"381fb6c6-6da7-4444-831f-8c5eed8d685c","turboquant-vllm-comparison-fp8-kv-cache-zh","TurboQuant 與 FP8 實測結果","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778839867551-4v9g.png","2026-05-15T10:10:36.034569+00:00",{"id":51,"slug":52,"title":53,"cover_image":54,"image_url":54,"created_at":55,"category":24},"c15f45ee-a548-4dbf-8152-91de159c1a11","llmbda-calculus-agent-safety-rules-zh","LLMbda 演算替 AI 代理人立安全規則","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778825503412-mlbf.png","2026-05-15T06:10:34.832664+00:00",{"id":57,"slug":58,"title":59,"cover_image":60,"image_url":60,"created_at":61,"category":24},"0c02225c-d6ff-44f8-bc92-884c8921c4a3","low-complexity-beamspace-denoiser-mmwave-mimo-zh","更簡單的毫米波波束域去噪器","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778814650361-xtc2.png","2026-05-15T03:10:30.06639+00:00",{"id":63,"slug":64,"title":65,"cover_image":66,"image_url":66,"created_at":67,"category":24},"9d27f967-62cc-433f-8cdb-9300937ade13","ai-benchmark-wins-cyber-scare-defenders-zh","為什麼 AI 基準賽在資安領域的勝利，應該讓防守方警醒","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778807450006-nofx.png","2026-05-15T01:10:29.379041+00:00",{"id":69,"slug":70,"title":71,"cover_image":72,"image_url":72,"created_at":73,"category":24},"bc402dc6-5da6-46fc-9d66-d09cb215f72b","why-linux-security-needs-patch-wave-mindset-zh","為什麼 Linux 安全需要「補丁浪潮」思維","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778741449813-s2wn.png","2026-05-14T06:50:24.052583+00:00",[75,80,85,90,95,100,105,110,115,120],{"id":76,"slug":77,"title":78,"created_at":79},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":81,"slug":82,"title":83,"created_at":84},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":86,"slug":87,"title":88,"created_at":89},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"9f50561b-aebd-46ba-94a8-363198aa7091","openclaw-agents-manipulated-self-sabotage-zh","OpenClaw Agent 會自己搞砸自己","2026-03-28T03:03:18.786425+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"11f22e92-7066-4978-a544-31f5f2156ec6","vega-learning-to-drive-with-natural-language-instructions-zh","Vega：使用自然語言指示進行自駕車控制","2026-03-28T14:54:04.847912+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"a4c7cfec-8d0e-4fec-93cf-1b9699a530b8","drive-my-way-en-zh","Drive My Way：個性化自駕車風格的實現","2026-03-28T14:54:26.207495+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"dec02f89-fd39-41ba-8e4d-11ede93a536d","training-knowledge-bases-with-writeback-rag-zh","用 WriteBack-RAG 強化知識庫提升檢索效能","2026-03-28T14:54:45.775606+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"3886be5c-a137-40cc-b9e2-0bf18430c002","packforcing-efficient-long-video-generation-method-zh","PackForcing：短影片訓練也能生成長影片","2026-03-28T14:55:02.688141+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"72b90667-d930-4cc9-8ced-aaa0f8968d44","pixelsmile-toward-fine-grained-facial-expression-editing-zh","PixelSmile：提升精細臉部表情編輯的新方法","2026-03-28T14:55:20.678181+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00"]