標籤

長上下文

長上下文指模型能在同一次推理中保留更多文件、程式碼、對話與工具輸出，從 128K、256K 到百萬級 token 都是重點。它影響長文件分析、跨檔案編輯、代理式工作流與記憶壓縮策略，也直接牽動成本、延遲與幻覺風險。

12 篇文章

MiniMax M3 證明開放權重在寫程式上仍能贏

MiniMax M3 證明開放權重模型不只可以追上前沿，還能在寫程式、長上下文與成本控制上形成優勢。

MiniMax M3 的重要性不在於它又把上下文做大，而在於它把長上下文、多模態與代理控制綁成一個可用系統。

TurboQuant 的價值不在於更快，而在於把長上下文 AI 從資料中心拉回手機、筆電與邊緣裝置，讓本地 AI 真正可用。

Meta 的 Llama 3.1 70B 仍是 128K 長上下文的自架文字模型，適合內部聊天、RAG 與 API 編排，重點在成本控制與部署自主性。

Claude Code 在長上下文程式工作上，應優先路由到 DeepSeek v4，因為 1M context 比品牌偏好更能決定實際產出。

GPT-5.4 在 BenchLM 知識與理解拿到 97.6 分，總榜暫列第 2，還有 1.05M token 長上下文。這篇拆解它適合哪些工作、和其他模型怎麼比。

Claude Code 用多層壓縮處理長對話上下文，避免 200K 到 1M token 被文件、Shell 輸出和編輯記錄吃光。

xAI 的 Grok 4.1 把幻覺率從 12.09% 降到 4.22%，還加入 Fast 與 Thinking 兩種模式，支援 256k context 與 2M token API，對開發者很實際。

xAI 的 Grok 4.20 主打 200 萬 token 長上下文、多代理推理與 API 價格。這篇拆解它的定位、規格、競品差異與開發者該注意的坑。

Claude 擅長長上下文與程式工作；ChatGPT、Copilot、Gemini 則靠分發、整合與工作流吃香。企業 2026 年該怎麼選，重點不是誰最強，而是誰最適合你的資料、流程與控管。

Gemini 3.1 Pro 以 77.1% ARC-AGI-2、94.3% GPQA Diamond、1M token 上下文登場，價格仍維持 Gemini 3。這次重點不是噱頭，而是長文檔、程式碼與 agent 工作流的實戰成本。

Google 的 TurboQuant 可把 KV-cache 記憶體用量降到 6 倍，但更長上下文、更多 agent 與更高吞吐，可能把 DRAM 和 NAND 需求繼續往上推。