標籤
泛化描述模型在未見資料、不同分佈或更長推理條件下仍能維持表現的能力。這個主題常連到邊界穩定性、Hessian 光譜、訓練動態,以及 LLM 在換地圖、拉長序列時的失效模式。
2 篇文章
這篇論文把高學習率下的混沌訓練,連到泛化能力,並用 Hessian 光譜定義新的 sharpness dimension。
這篇合成最短路徑研究把「會換地圖」和「能拉長題目」拆開看,結果發現 LLM 能跨地圖泛化,卻在長度變長時因遞迴推理不穩而失手。