標籤

long context

長上下文指的是模型在一次推理中維持大量前後文的能力，牽涉記憶壓縮、檢索、快權重更新與推理穩定性。從 1M/2M token 視窗到 state-space、TTT 與 agent 工作流，都是它的實作重點。

4 篇文章

為什麼 Xiaomi 的 MiMo-V2.5-Pro 改變的是 Coding …

MiMo-V2.5-Pro 的重點不在聊天能力，而在長時間、重工具呼叫的 coding agent 工作；它代表 AI 競爭焦點正從會說話，轉向能把任務做完。

Sessa 把 attention 放進 state-space 的回饋路徑，想同時保留長上下文檢索與穩定記憶。摘要主打 power-law 記憶尾巴，並宣稱長上下文 benchmark 表現領先。

這篇論文把 test-time training 做成可直接嵌入 LLM 的推理更新機制，讓模型在長上下文下用 fast weights 即時適應，不必整個重訓。

LLM 進到生產環境後，提示詞不再是寫得漂亮就好。這篇拆解推理、長上下文、JSON 合約與 agent 迴圈，講清楚怎麼把 GPT、Claude 和本地模型用得更穩。