返回首頁

標籤

attention

注意力機制是大型語言模型的核心,決定模型如何在長上下文中檢索資訊、維持狀態與控制計算成本。這個主題涵蓋傳統 Transformer、KV cache、長上下文優化,以及把 attention 與 state-space、記憶模組結合的新設計。

3 篇文章