標籤

generalization

泛化描述模型在未見資料、不同分佈或更長推理條件下仍能維持表現的能力。這個主題常連到邊界穩定性、Hessian 光譜、訓練動態，以及 LLM 在換地圖、拉長序列時的失效模式。

2 篇文章

邊界不穩定為何反而更會泛化

這篇論文把高學習率下的混沌訓練，連到泛化能力，並用 Hessian 光譜定義新的 sharpness dimension。

這篇合成最短路徑研究把「會換地圖」和「能拉長題目」拆開看，結果發現 LLM 能跨地圖泛化，卻在長度變長時因遞迴推理不穩而失手。