OraCore
.dev
新聞
趨勢
比較
排行
學習
Claude Code
更多
EN
更多
EN
新聞
趨勢
比較
排行
學習
Claude Code
返回首頁
標籤
DashAttention
1 篇文章
技術研究
/
5月19日
DashAttention 讓稀疏長上下文可微
DashAttention 把長上下文的分層稀疏注意力改成可微、可自適應的選擇機制,讓模型在 75% 稀疏下仍能維持接近全注意力的表現。