標籤
1 篇文章
Sessa 把 attention 放進 state-space 的回饋路徑,想同時保留長上下文檢索與穩定記憶。摘要主打 power-law 記憶尾巴,並宣稱長上下文 benchmark 表現領先。