Cursor Composer 2 走向代理式寫碼
Cursor 推出 Composer 2,CursorBench 61.3、Terminal-Bench 2.0 61.7,主打代理式寫碼與高量產團隊的成本效率。

Cursor 推出 Cursor 的 Composer 2。它在 CursorBench 拿到 61.3,Terminal-Bench 2.0 拿到 61.7。這不是聊天玩具。它是要進 IDE 幫你改檔、跑測試、繼續做下去。
講白了,AI 寫碼工具正在換檔。以前大家看重補全。現在大家看重 agent。能不能自己拆任務、動多個檔案、把 PR 推進到可合併,這才是重點。對工程團隊來說,少切幾次視窗,往往比多講幾句廢話更值錢。
我覺得這波很現實。買單的人不在乎模型會不會寫詩。他們在乎每週能關幾個 PR,還有 token 帳單會不會炸掉。Composer 2 就是衝著這種需求來的。
Cursor 這次到底端了什麼
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
Cursor 在 2026 年 3 月 19 日發表 Composer 2。公司母體是 Anysphere。它的定位很直接:這是給開發流程用的模型,不是萬用聊天機器人。
它可以看程式碼、改多個檔案、呼叫工具,還能在長任務裡持續工作。這種能力很重要。因為真實專案裡,常常不是寫一段函式就結束。你還要補測試、修 lint、看 CI log,然後再修一次。
Cursor 公布的重點數字很清楚。它把 Composer 2 放在自己的 editor 裡測,這點也很關鍵。因為 Cursor 不是只賣 API。它直接握著工作流程,能看到模型在真實開發場景裡怎麼死、怎麼活。
- CursorBench:61.3
- Terminal-Bench 2.0:61.7
- SWE-bench Multilingual:73.7
- 標準價格:每 1,000 input tokens 收 $0.50
- 標準價格:每 1,000 output tokens 收 $2.50
- Fast 版:吞吐更高,但價格是 5 倍
這些數字代表的意思不難懂。Composer 2 不是想當全能型助理。它想當一個會做事的 coding worker。能在 repo 裡跑,能在 terminal 裡查,能在多步驟任務裡不亂掉,這才是它的賣點。
為什麼架構會影響體感
Cursor 說 Composer 2 延續了 mixture-of-experts 架構。意思是,不是每次都把全部參數打開。模型會把工作路由到少數 expert。這樣做,算力用得更省,回應也能更快。
這件事對 agentic coding 很重要。因為 agent 不是只吐一句答案。它要讀檔、推理、改 patch、看 log、再 retry。每一步都慢,開發者就會開始罵人。每一步都夠快,體感就像旁邊多了一個 junior engineer。
Cursor 也提到,它用 sandboxed coding 環境做了 reinforcement learning。簡單說,就是把模型丟進像真的開發任務裡,訓練它怎麼用工具、怎麼動檔案、怎麼面對失敗的測試。這比單純拿網頁文字做訓練,實用很多。
- MoE 讓每個 token 不必動用全部參數
- Sandbox 訓練強化工具使用能力
- 長任務需要模型記住前後文脈絡
- IDE 整合讓模型直接碰 terminal 和 worktree
這也是為什麼我會把 Composer 2 跟一般聊天模型分開看。寫碼 agent 常死在很無聊的地方。它可能改錯檔,忘記前面說過的限制,或是做一半就停。能在 repo 工作流裡訓練過的模型,至少比較懂這些坑。
分數、價格、還有大家最在意的比較
Cursor 的說法很明白。Composer 2 在 CursorBench 比 Composer 1.5 高 38%。Terminal-Bench 2.0 則拿到 61.7。對常常要跑多輪修 bug 的團隊來說,這種分數不是裝飾品。它會直接影響你要不要續訂。
價格也很有意思。標準版是每 1,000 input tokens 收 $0.50,每 1,000 output tokens 收 $2.50。這個定價把它放在不少 frontier 模型之下。對高用量團隊來說,這種差距會很有感。因為寫碼 agent 很容易吃 token,尤其是大型 repo。
Cursor 也有 Fast 版。它的吞吐更高,但價格是 5 倍。這很像拿錢換時間。你如果在趕版號,可能會想開。你如果只是做一般 refactor,標準版可能比較合理。
- Composer 2 標準版:$0.50 / 1,000 input tokens
- Composer 2 標準版:$2.50 / 1,000 output tokens
- Composer 2 Fast:吞吐更高,價格 5 倍
- Composer 1.5:分數較低,長任務能力較弱
- GPT-5、Claude Opus 級模型:通常泛用推理更強,但成本也更高
但我得吐槽一下。benchmark 再漂亮,也不等於真實開發現場就贏。Cursor 沒把每次跑分的 seed、硬體、完整流程全公開。這不代表分數沒用。只是你不能直接把它當成最後答案。
“The model is only as good as the workflow around it.” — Andrej Karpathy, X post, 2023
Karpathy 這句話很適合拿來看 Composer 2。模型本身很重要。可是真正決定體感的,還有 editor、terminal、權限、review 流程。Cursor 的優勢,就是它把這些東西綁在一起。
企業為什麼會盯上它
Cursor 不是只在小圈子裡玩。它已經進到不少工程團隊裡。這代表 Composer 2 不是只要在 demo 裡會講話。它要在真實公司裡交作業。
Tom’s Hardware 報導,NVIDIA 內部有超過 30,000 個 Cursor 席位。公司也提過,程式碼產出比起 AI 之前的基準,已經變成 3 倍。這種數字,採購跟主管都會看。
企業會在意的東西很務實。像 audit logs、sandboxed terminals、isolated worktrees、commit signing,這些都不是花拳繡腿。這些是讓 agent 能進公司流程的門票。沒有這些,很多法遵團隊根本不會點頭。
- NVIDIA 內部超過 30,000 個 Cursor 席位
- 公司宣稱程式碼產出達到 3 倍
- Audit logs 方便追查修改紀錄
- Sandboxed execution 降低危險操作外溢
但企業買不買,最後還是看結果。最難的不是寫出一段 patch。最難的是處理 flaky CI、半套 migration、還有那種靠 side effect 活著的老舊 codebase。這種環境,才是 agent 的照妖鏡。
產業脈絡沒有那麼浪漫
AI coding 工具這兩年變得很擠。OpenAI、Anthropic、Google DeepMind 都在往這裡壓。大家都知道,光會聊天不夠。要能動手做事,才有機會留在工作流裡。
這也是為什麼 Cursor 的策略很聰明。它不是只賣模型。它賣的是整個寫碼介面。模型、editor、terminal、worktree、review,一起包進去。這種整合,讓它比純 API 供應商更容易觀察使用情境。
不過,這條路也很吃驗證。外部團隊還是會想看獨立測試。尤其是同樣任務下,誰的完成率高,誰的 token 花費低,誰的延遲短。這些才是工程主管會拿來算帳的數字。
我的判斷很直接。Composer 2 不是來跟聊天機器人比嘴砲。它是來搶「幫你把任務做完」的位置。這個位置很值錢,也很難守。因為只要模型在真實 repo 裡出一次包,信任就會掉得很快。
接下來該看什麼
我會先看兩件事。第一,第三方能不能重跑出接近的分數。第二,實際團隊用起來,token 成本是不是真的壓得住。這兩件事,比 launch thread 的聲量重要太多。
如果你是台灣的工程團隊,我建議先拿一個非核心 repo 試。挑一個有多檔案修改、測試、跟簡單重構的任務。看它能不能自己走完。再看它的失敗率、重試次數、和每個 merged change 的成本。這比看簡報準多了。
我的預測很簡單。接下來 6 到 12 個月,寫碼 agent 會從「幫你補字」變成「幫你收尾」。誰能把收尾做穩,誰就比較有機會留在 IDE 裡。你如果現在就在評估工具,別只看模型分數。直接跑一個小型 pilot,答案會比較誠實。