標籤

agentic coding

Agentic coding 指的是讓模型不只回答程式問題，而是能規劃、修改、測試並反覆修正整個開發流程。這類工作流常牽涉工具呼叫、多代理協作、長上下文與高額 token 成本，也直接影響 SWE-bench、Claude Code 與開源模型部署策略。

19 篇文章

產業動態/7月10日

OpenAI 的 54% token 效率提升，才是 AI 寫碼真正戰場

OpenAI 把 54% token 效率提升推成主軸，代表 agentic coding 的勝負已從模型能力轉向單位經濟與部署成本。

工具應用/6月29日

Claude Code 讓代理設定變終端工作

我把 Claude Code 和 OpenHands 拆成團隊可直接套用的選型模板，重點放在安裝成本、沙箱、模型政策與採用門檻。

模型發布/6月24日

GPT-5.6 傳聞：2M 上下文與寫碼升級

傳聞指 OpenAI 可能在 6 月 25 日推出 GPT-5.6，主打 200 萬 token 上下文、agentic coding 與更低定價，直接對上 Anthropic。

工具應用/6月19日

Windsurf 正在變成模型路由器，而不只是 IDE

Windsurf 在 2026 年 6 月的更新顯示，它正在從程式編輯器轉向模型路由平台，真正的產品重心已經變成模型選擇、任務編排與驗證。

AI Agent/6月11日

5 個 Grok 更新，把我寫 code 的方式改掉

我拆 Grok 這波更新：大模型、worktrees、API beta、語音與影片工具，哪些真能改寫開發流程。

產業動態/6月5日

Microsoft 首個推理模型怎麼看

我把 ZDNET 的模型 tracker 拆成一套可抄的評估框架，讓你不用吞完 PR 也能判斷新 AI 模型值不值得碰。

AI Agent/5月27日

為什麼 Devin AI 被高估：它不是軟體工程師

Devin AI 很強，但它離真正的自主軟體工程師還差得很遠。

工具應用/5月26日

Sonar 收購 Gitar 強化 AI Code Review

Sonar 於 2026 年 5 月 21 日收購 Gitar，把 AI code review 納入 SonarQube。這筆交易把生成、審查與驗證串成同一條流程，直指代理寫碼時的品質與風險控管。

AI Agent/5月26日

Zero 把編譯錯誤變成 JSON

我拆 Vercel Zero 的 agent-first 編譯器設計，順手給你一份可直接抄走的結構化診斷模板。

工具應用/5月24日

為什麼 Claude Code 和 Qoder 打敗只會聊天的 AI 寫碼工具

Claude Code 和 Qoder 之所以更強，不是因為聊天更順，而是因為它們更能完成跨檔案、可驗證的真實開發任務。

產業動態/5月19日

為什麼 Amazon Q Developer 看錯了寫程式的未來

Amazon Q Developer 是強大的 AWS 助手，但它不該被當成軟體開發未來的通用模板。

工具應用/5月6日

為什麼 Claude Opus 4.7 現在就是 Copilot 的正確選擇

Claude Opus 4.7 應該成為 Copilot 的新預設，因為它更適合長流程、工具密集的寫碼任務，也更能降低反覆修正的成本。

模型發布/5月4日

Kimi K2.6 與 Qwen 3.6 拉近差距

Kimi K2.6 和 Qwen 3.6 這兩個 open-weight 模型，已經在 coding 和 agent 任務上逼近閉源模型。

技術研究/4月27日

AI 代理寫程式：token 比 chat 多燒 1000 倍

這篇研究看 SWE-bench Verified 上的代理式寫程式，發現 token 花費可比一般 code chat 高出 1000 倍，且多半是 input 在燒錢，成本還很難預測。

模型發布/4月27日

Qwen3.6-27B：更小卻更準的寫碼路線

Qwen3.6-27B 是 27B dense multimodal 模型，在 SWE-bench Verified 拿到 77.2，還贏過更大的 Qwen3.5-397B-A17B。對開發團隊來說，這代表更好部署，也更適合 agentic coding。

AI Agent/4月20日

多代理寫程式像分散式系統

Hacker News 一篇討論把多代理寫程式比作分散式系統。重點不是模型多聰明，而是怎麼用階段、檢查點、共享狀態，把不穩定的 LLM 變成可控流程。

模型發布/4月20日

Qwen3.6-35B-A3B 打開開源寫碼新路線

Qwen3.6-35B-A3B 以 35B 總參數、3B 啟用參數和 Anthropic API 相容性，直接瞄準 Claude Code 工作流。這款開源 MoE 模型想把效能、成本和工具整合一次做到位。

模型發布/3月28日

Cursor Composer 2 走向代理式寫碼

Cursor 推出 Composer 2，CursorBench 61.3、Terminal-Bench 2.0 61.7，主打代理式寫碼與高量產團隊的成本效率。

模型發布/3月28日

小米 MiMo-V2-Pro 登場：1T MoE 模型

小米推出 MiMo-V2-Pro，總參數超過 1T、每 token 啟用 42B，還有 1M context。SWE-bench 成績逼近 Claude Sonnet 4.6，價格卻低很多。