標籤
2 篇文章
Sessa 把 attention 放進 state-space 的回饋路徑,想同時保留長上下文檢索與穩定記憶。摘要主打 power-law 記憶尾巴,並宣稱長上下文 benchmark 表現領先。
這篇論文把物理約束塞進狀態空間模型,目標是減少雲層變化時的相位延遲,並避免夜間出現不可能的太陽能輸出。