超越距離測量：用微分幾何重新理解神經網路

OraCore Editors

返回首頁

[RSCH] 2026年3月31日6 分鐘閱讀OraCore 編輯部

超越距離測量：用微分幾何重新理解神經網路

研究者用黎曼幾何分析神經網路表示的內在結構，揭示傳統相似度指標無法發現的深層模式。

表示學習神經網路流形假說黎曼幾何

分享 LinkedIn

神經網路的成功充滿了神祕性。我們訓練它們，它們就能泛化，大多數時候我們只是聳聳肩接受這個事實。但這個表面成功的底下，藏著一個幾何現實：神經網路在高維空間裡排列資訊的方式，和它們捕捉的模式一樣重要。

UC Berkeley的N Alex Cayco Gajic和Arthur Pellegrino決定更深入地理解這個幾何。他們沒有問「這些表示看起來像什麼」（外在幾何），而是問「它們的根本內部結構是什麼」（內在幾何）。答案是：指標相似性分析（Metric Similarity Analysis, MSA），一個用微分幾何來比較神經表示的框架，能捕捉傳統方法遺漏的東西。

這篇於2026年3月30日提交到arXiv的論文，打開了一扇門讓我們理解：為什麼用不同方式訓練的神經網路，即使產生相似輸出，卻往往具有根本不同的內部幾何結構。

古典相似度量的侷限

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

研究者比較神經網路表示時，通常問：這兩個向量相似嗎？這看起來合理，直到你意識到答案完全取決於怎麼測量相似度。歐幾里得距離（直線距離）在某些情境有效，餘弦相似度在其他情境適用。但兩者都忽略了一個關鍵因素：表示空間的內在幾何。

想象兩座城市，距離參考點等距（相同的歐幾里得距離），但在山脈的兩側，它們佔據著根本不同的地理結構。古典指標能捕捉距離；卻漏掉了景觀。

神經網路的表示就像那些城市。它們所在的抽象空間有自己的結構—曲率、維度、測地距離（沿著底層流形的最短路徑）。標準指標把空間當成平坦無特徵的，遺失了表示如何組織資訊的關鍵信息。

指標相似性分析：微分幾何方法

Cayco Gajic和Pellegrino的MSA框架奠基於黎曼幾何—微分幾何的一個分支，將距離和角度概念延伸到曲面上。與其問「這些向量在歐幾里得空間裡距離多遠」，MSA問的是「它們所在流形的內在幾何是什麼，這些幾何如何比較」。

流形假說—高維資料位於低維流形之上的信念—是現代機器學習的基礎。但它常被當成抽象假設擱置。MSA讓它具體化，實際測量流形性質：曲率、維度和內在距離。

這個技術運用微分幾何工具來計算Ricci曲率張量這類性質，它捕捉流形在不同方向如何彎曲。兩個表示在古典指標下可能看起來相似，卻展現出完全不同的內在曲率，暗示根本不同的計算結構。

三個實驗領域

研究者在三個理解內在幾何很重要的場景測試MSA：

變化條件下的深度網路：網路以不同初始化、不同學習率或不同資料增強策略訓練時，會收斂到不同的表示。古典指標可能說它們「夠相似了」。MSA會揭露底層計算流形是否真的同構，或者根本不同。

非線性動力系統：理解相空間軌跡的幾何對預測系統行為至關重要。MSA提供工具比較不同參數體制下軌跡的內在幾何，揭示系統何時經歷根本重組，何時只是改變規模。

擴散模型：當擴散模型透過反覆精煉產生影像時，表示幾何不斷演變。MSA能追蹤不同時間步的表示是否位於同一底層流形，或在定性不同的幾何結構間轉變。這攸關於理解生成能力來自何處。

為什麼幾何捕捉了指標遺漏的東西

古典相似度量無視流形結構。想象兩個高維空間在拓樸上相同，但內在曲率不同。點可能在兩個空間裡等距，但測地距離—沿著流形的最短路徑—卻不同，空間的計算方式也根本不同。

這個區別不只是學術性的。它有真實的含義：兩個表示「相似」（按古典標準），卻可能學到完全不同的決策邊界，因為它們底層流形的曲率不同。MSA偵測這些結構差異，揭露兩個表示何時真正相似，何時只是表面接近。

該框架也能處理流形維度變化的情況。一個表示可能在某個情況集中在低維子流形，在另一個情況下展開到高維度，即使逐點距離看起來相似。MSA透過測量內在維度來區分這些情景。

對神經網路研究的啟示

如果MSA確實成功捕捉了內在幾何，它提供了一個更有原則的方式來問：什麼構成好的表示？現有答案依賴下游任務表現—如果學到的表示產生好結果，我們就稱它好。但MSA暗示更深層的準則：表示應在結構良好、可詮釋的流形上組織資訊。

這可能指導架構設計。或許過度扭曲表示流形的層（引入不必要的曲率）是不合意的。或許跳躍連接能成功的部分原因是保留流形結構。或許注意力機制成功是因為它動態調整流形幾何以適應當前任務。

理解表示幾何也對遷移學習很重要。如果預訓練表示用「好」的流形結構—跨任務泛化的結構—那可能解釋預訓練為何有幫助。相反，如果微調過度扭曲預訓練流形，可能會摧毀遷移能力。

與更廣泛理論的連接

MSA連接到機器學習理論中的長久問題。流形假說假設資料集中在低維流形上。MSA提供工具驗證和量化這一點。梯度下降的隱含偏好—為什麼神經網路學到泛化解—可能部分反映學到的流形幾何。MSA提供透鏡來調查。

該研究也涉及資訊幾何，用幾何工具研究機率分佈空間的領域。如果神經表示編碼機率分佈（生成模型的常見假設），它們的幾何性質編碼機率結構的資訊。MSA橋接這些視角。

方法論考量

一個挑戰是計算成本。測量黎曼性質需要仔細的數值計算。論文有解決這個問題，但實作MSA的從業者在處理超高維表示時，必須應對數值穩定性問題。

另一個問題是可詮釋性。MSA揭露幾何差異，但要把差異轉化為可行洞察需要領域專業知識。高Ricci曲率的表示在某些情況下可能「壞」，在其他情況下「好」，取決於下游任務。

未來方向

自然的下一步是系統應用到現代架構：Transformers、視覺模型、多模態系統。基於注意力的架構產生的表示有特徵幾何性質嗎？某些設計選擇（層正規化、跳躍連接、位置編碼）是否能預測流形結構？

也有潛力開發幾何感知學習演算法—在訓練中明確優化好流形性質的方法。如果網路幾何與泛化相關，幾何感知訓練可能改善效率和穩健性。

對從業者而言，MSA是個診斷工具。當你有兩個表示在古典標準下看起來相似卻在生產環境表現不同時，MSA能揭露解釋差距的幾何差異。隨著神經網路進入更高利害關係應用，這些對表示結構的深入理解變得更加寶貴。

要深入探索這項工作，請查看arXiv上關於黎曼幾何與神經表示的論文，以及表示學習幾何方法的相關研究。與資訊幾何和流形假說的連接深厚，為未來研究提供豐富沃土。

// 相關文章

超越距離測量：用微分幾何重新理解神經網路

古典相似度量的侷限

訂閱 AI 趨勢週報

指標相似性分析：微分幾何方法

三個實驗領域

為什麼幾何捕捉了指標遺漏的東西

對神經網路研究的啟示

與更廣泛理論的連接

方法論考量

未來方向

TurboQuant 與小站 SEO 變化

TurboQuant 與 FP8 實測結果

LLMbda 演算替 AI 代理人立安全規則

更簡單的毫米波波束域去噪器

為什麼 AI 基準賽在資安領域的勝利，應該讓防守方警醒

為什麼 Linux 安全需要「補丁浪潮」思維