超越距離測量:用微分幾何重新理解神經網路
研究者用黎曼幾何分析神經網路表示的內在結構,揭示傳統相似度指標無法發現的深層模式。

神經網路的成功充滿了神祕性。我們訓練它們,它們就能泛化,大多數時候我們只是聳聳肩接受這個事實。但這個表面成功的底下,藏著一個幾何現實:神經網路在高維空間裡排列資訊的方式,和它們捕捉的模式一樣重要。
UC Berkeley的N Alex Cayco Gajic和Arthur Pellegrino決定更深入地理解這個幾何。他們沒有問「這些表示看起來像什麼」(外在幾何),而是問「它們的根本內部結構是什麼」(內在幾何)。答案是:指標相似性分析(Metric Similarity Analysis, MSA),一個用微分幾何來比較神經表示的框架,能捕捉傳統方法遺漏的東西。
這篇於2026年3月30日提交到arXiv的論文,打開了一扇門讓我們理解:為什麼用不同方式訓練的神經網路,即使產生相似輸出,卻往往具有根本不同的內部幾何結構。
古典相似度量的侷限
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
研究者比較神經網路表示時,通常問:這兩個向量相似嗎?這看起來合理,直到你意識到答案完全取決於怎麼測量相似度。歐幾里得距離(直線距離)在某些情境有效,餘弦相似度在其他情境適用。但兩者都忽略了一個關鍵因素:表示空間的內在幾何。
想象兩座城市,距離參考點等距(相同的歐幾里得距離),但在山脈的兩側,它們佔據著根本不同的地理結構。古典指標能捕捉距離;卻漏掉了景觀。
神經網路的表示就像那些城市。它們所在的抽象空間有自己的結構—曲率、維度、測地距離(沿著底層流形的最短路徑)。標準指標把空間當成平坦無特徵的,遺失了表示如何組織資訊的關鍵信息。
指標相似性分析:微分幾何方法
Cayco Gajic和Pellegrino的MSA框架奠基於黎曼幾何—微分幾何的一個分支,將距離和角度概念延伸到曲面上。與其問「這些向量在歐幾里得空間裡距離多遠」,MSA問的是「它們所在流形的內在幾何是什麼,這些幾何如何比較」。
流形假說—高維資料位於低維流形之上的信念—是現代機器學習的基礎。但它常被當成抽象假設擱置。MSA讓它具體化,實際測量流形性質:曲率、維度和內在距離。
這個技術運用微分幾何工具來計算Ricci曲率張量這類性質,它捕捉流形在不同方向如何彎曲。兩個表示在古典指標下可能看起來相似,卻展現出完全不同的內在曲率,暗示根本不同的計算結構。
三個實驗領域
研究者在三個理解內在幾何很重要的場景測試MSA:
變化條件下的深度網路:網路以不同初始化、不同學習率或不同資料增強策略訓練時,會收斂到不同的表示。古典指標可能說它們「夠相似了」。MSA會揭露底層計算流形是否真的同構,或者根本不同。
非線性動力系統:理解相空間軌跡的幾何對預測系統行為至關重要。MSA提供工具比較不同參數體制下軌跡的內在幾何,揭示系統何時經歷根本重組,何時只是改變規模。
擴散模型:當擴散模型透過反覆精煉產生影像時,表示幾何不斷演變。MSA能追蹤不同時間步的表示是否位於同一底層流形,或在定性不同的幾何結構間轉變。這攸關於理解生成能力來自何處。
為什麼幾何捕捉了指標遺漏的東西
古典相似度量無視流形結構。想象兩個高維空間在拓樸上相同,但內在曲率不同。點可能在兩個空間裡等距,但測地距離—沿著流形的最短路徑—卻不同,空間的計算方式也根本不同。
這個區別不只是學術性的。它有真實的含義:兩個表示「相似」(按古典標準),卻可能學到完全不同的決策邊界,因為它們底層流形的曲率不同。MSA偵測這些結構差異,揭露兩個表示何時真正相似,何時只是表面接近。
該框架也能處理流形維度變化的情況。一個表示可能在某個情況集中在低維子流形,在另一個情況下展開到高維度,即使逐點距離看起來相似。MSA透過測量內在維度來區分這些情景。
對神經網路研究的啟示
如果MSA確實成功捕捉了內在幾何,它提供了一個更有原則的方式來問:什麼構成好的表示?現有答案依賴下游任務表現—如果學到的表示產生好結果,我們就稱它好。但MSA暗示更深層的準則:表示應在結構良好、可詮釋的流形上組織資訊。
這可能指導架構設計。或許過度扭曲表示流形的層(引入不必要的曲率)是不合意的。或許跳躍連接能成功的部分原因是保留流形結構。或許注意力機制成功是因為它動態調整流形幾何以適應當前任務。
理解表示幾何也對遷移學習很重要。如果預訓練表示用「好」的流形結構—跨任務泛化的結構—那可能解釋預訓練為何有幫助。相反,如果微調過度扭曲預訓練流形,可能會摧毀遷移能力。
與更廣泛理論的連接
MSA連接到機器學習理論中的長久問題。流形假說假設資料集中在低維流形上。MSA提供工具驗證和量化這一點。梯度下降的隱含偏好—為什麼神經網路學到泛化解—可能部分反映學到的流形幾何。MSA提供透鏡來調查。
該研究也涉及資訊幾何,用幾何工具研究機率分佈空間的領域。如果神經表示編碼機率分佈(生成模型的常見假設),它們的幾何性質編碼機率結構的資訊。MSA橋接這些視角。
方法論考量
一個挑戰是計算成本。測量黎曼性質需要仔細的數值計算。論文有解決這個問題,但實作MSA的從業者在處理超高維表示時,必須應對數值穩定性問題。
另一個問題是可詮釋性。MSA揭露幾何差異,但要把差異轉化為可行洞察需要領域專業知識。高Ricci曲率的表示在某些情況下可能「壞」,在其他情況下「好」,取決於下游任務。
未來方向
自然的下一步是系統應用到現代架構:Transformers、視覺模型、多模態系統。基於注意力的架構產生的表示有特徵幾何性質嗎?某些設計選擇(層正規化、跳躍連接、位置編碼)是否能預測流形結構?
也有潛力開發幾何感知學習演算法—在訓練中明確優化好流形性質的方法。如果網路幾何與泛化相關,幾何感知訓練可能改善效率和穩健性。
對從業者而言,MSA是個診斷工具。當你有兩個表示在古典標準下看起來相似卻在生產環境表現不同時,MSA能揭露解釋差距的幾何差異。隨著神經網路進入更高利害關係應用,這些對表示結構的深入理解變得更加寶貴。
要深入探索這項工作,請查看arXiv上關於黎曼幾何與神經表示的論文,以及表示學習幾何方法的相關研究。與資訊幾何和流形假說的連接深厚,為未來研究提供豐富沃土。