標籤
agentic coding
Agentic coding 指的是讓模型不只回答程式問題,而是能規劃、修改、測試並反覆修正整個開發流程。這類工作流常牽涉工具呼叫、多代理協作、長上下文與高額 token 成本,也直接影響 SWE-bench、Claude Code 與開源模型部署策略。
8 篇文章

為什麼 Claude Opus 4.7 現在就是 Copilot 的正確選擇
Claude Opus 4.7 應該成為 Copilot 的新預設,因為它更適合長流程、工具密集的寫碼任務,也更能降低反覆修正的成本。

Kimi K2.6 與 Qwen 3.6 拉近差距
Kimi K2.6 和 Qwen 3.6 這兩個 open-weight 模型,已經在 coding 和 agent 任務上逼近閉源模型。

AI 代理寫程式:token 比 chat 多燒 1000 倍
這篇研究看 SWE-bench Verified 上的代理式寫程式,發現 token 花費可比一般 code chat 高出 1000 倍,且多半是 input 在燒錢,成本還很難預測。

Qwen3.6-27B:更小卻更準的寫碼路線
Qwen3.6-27B 是 27B dense multimodal 模型,在 SWE-bench Verified 拿到 77.2,還贏過更大的 Qwen3.5-397B-A17B。對開發團隊來說,這代表更好部署,也更適合 agentic coding。

多代理寫程式像分散式系統
Hacker News 一篇討論把多代理寫程式比作分散式系統。重點不是模型多聰明,而是怎麼用階段、檢查點、共享狀態,把不穩定的 LLM 變成可控流程。

Qwen3.6-35B-A3B 打開開源寫碼新路線
Qwen3.6-35B-A3B 以 35B 總參數、3B 啟用參數和 Anthropic API 相容性,直接瞄準 Claude Code 工作流。這款開源 MoE 模型想把效能、成本和工具整合一次做到位。

Cursor Composer 2 走向代理式寫碼
Cursor 推出 Composer 2,CursorBench 61.3、Terminal-Bench 2.0 61.7,主打代理式寫碼與高量產團隊的成本效率。

小米 MiMo-V2-Pro 登場:1T MoE 模型
小米推出 MiMo-V2-Pro,總參數超過 1T、每 token 啟用 42B,還有 1M context。SWE-bench 成績逼近 Claude Sonnet 4.6,價格卻低很多。