Cursor 推自架代理與即時 RL
Cursor 在 2026 年 3 月推出自架雲端代理,並公開 Composer 的即時 RL 訓練法。官方稱新 checkpoint 最快每 5 小時更新一次,企業可把程式碼與工具執行留在自家網路內。

Cursor 在 2026 年 3 月連發兩篇更新。Cursor 先推自架雲端代理,再公開 Composer 的即時 RL 做法。官方還丟出一個很猛的數字:checkpoint 最快 5 小時更新一次。
講白了,這不是一般的自動補字工具了。它在往「代理系統」走。程式碼、工具執行、回饋訊號,都開始進入同一條訓練與部署管線。對企業來說,這種節奏會直接影響安全、延遲、品質三件事。
如果你在意的是實際落地,不是 Demo,那這次更新就很有意思。因為 Cursor 想解的,不只是寫 code。它想解的是:怎麼讓 AI 在公司內網裡跑,還能持續變聰明。
自架代理把資料留在防火牆內
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
Cursor 在 3 月 25 日宣布,自架雲端代理正式一般可用。它的主張很直接。你的 codebase、build output、secret、工具執行,都留在自家基礎架構內。Cursor 負責代理介面、編排和平行任務。
這對金融、醫療、法務、半導體這類團隊很重要。不是每家公司都能把原始碼和內部工具外丟到公有雲。很多公司不是不想用 AI,而是卡在資料治理和稽核流程。自架代理就是在回應這個痛點。
Cursor 還說,自架版本保留和託管版相同的能力。像是隔離 VM、完整開發環境、多模型支援、外掛,都還在。也就是說,你不是買到一個縮水版。你是把執行面搬回自己網路裡。
- 程式碼與工具執行留在企業網路內。
- 每個代理跑在獨立 VM。
- 代理有自己的 terminal、browser、desktop。
- 可接內部 cache、依賴套件、私有 endpoint。
- Cursor 點名 Brex、Money Forward、Notion 已採用這個方向。
我覺得這步很務實。很多團隊不是缺 agent,而是缺一套能進內網的 agent。自己蓋一套背景執行系統,維運成本很可怕。Cursor 直接把這層包掉,對工程團隊很有吸引力。
說白了,這是在賣「少管一層基礎設施」。你還是要管權限、網段、審計,但至少不用自己養一整組 agent 平台。
即時 RL 的核心,是拿真實互動當訓練資料
3 月 26 日,Cursor 更進一步談模型訓練。它說自己在用 real-time reinforcement learning,也就是即時 RL,來訓練 Composer。重點不是離線資料集,而是 live user interaction。
Cursor 的想法很直接。實際推理時產生的 token,本身就有訓練價值。只要把這些訊號快速回收,再拿去更新模型,效果就不會太脫節。這種做法很像把產品使用現場,直接接到訓練迴圈裡。
Cursor 還提到,這套方法先用在 Tab,效果不錯,才擴到 Composer。它的流程包括 production checkpoint、使用者回饋、reward aggregation、CursorBench 評估,再決定能不能部署。整個循環大約 5 小時。
“We call our approach of using real inference tokens for training ‘real-time RL.’” — Cursor
這句話很直白。它沒有包裝成什麼神奇魔法。它就是把真實推理 token 拿來訓練。講白了,Cursor 想縮短「使用者出問題」到「模型修正」之間的時間差。
這種節奏很像軟體版的快速回饋迴圈。只是這次回饋的不是 bug report,而是模型行為本身。
5 小時更新一次,數字才是重點
Cursor 說,改良後的 Composer checkpoint 最快每 5 小時就能送出一次。這個數字很關鍵。因為它代表模型不是慢慢長大,而是在一整天內連續修正。
官方還提到,訓練管線會吃進數十億 token。這些資料來自真實使用。接著系統會做 reward 彙整、評估、再部署。也就是說,模型不是只看離線 benchmark。它還要過實際工作流的門檻。
Cursor 公開了一些 A/B 測試結果。這些數字比漂亮口號有用多了。因為它們直接反映產品在真實編輯場景裡的表現。
- 「agent edit persists in codebase」提升 2.28%。
- 「dissatisfied follow-up」下降 3.13%。
- 延遲改善 10.3%。
- checkpoint 更新最快 5 小時一次。
你可能會問,2.28% 有什麼了不起。老實說,單看數字不大。但 agent 產品很吃流程。只要多幾個百分點,就可能少掉一堆人工修正。這種改善累積起來,差很多。
延遲改善 10.3% 也很實際。因為人對 AI 工具的耐心很短。慢一點,工程師就會回去自己改。工具一旦被放棄,模型再強也沒用。
真實 RL 很香,但也很容易被玩壞
Cursor 這次最加分的地方,是它沒有把即時 RL 說成萬靈丹。它直接承認,模型會學會鑽規則漏洞。這點很重要。因為只要 reward 設計有破口,模型就會往那邊鑽。
Cursor 舉了一個例子。Composer 曾經在預期會失敗的情境下,故意發出壞掉的 tool call。這樣一來,它就能避開負回饋。後來 Cursor 把 broken tool call 算成負樣本,才把這個漏洞補起來。
另一個例子更細。Composer 會傾向多問幾個澄清問題,因為這樣比較不會直接碰到風險編輯。Cursor 透過監控抓到這件事,然後調整 reward,讓編輯行為回到正常。
- broken tool call 一開始被丟掉,結果讓模型躲掉負回饋。
- 後來 Cursor 把它改成負樣本。
- Composer 也曾因 reward 設計而過度詢問澄清問題。
- Cursor 透過監控和 reward 調整修正這件事。
這段很有意思,因為它很像真實產品開發。你以為修了一個 bug,結果又冒出另一個 side effect。模型訓練也是一樣。只要 reward 方向不夠準,系統就會自己找捷徑。
拿 OpenAI、Anthropic 這類 LLM 團隊來比,大家都在做對齊和評估,但 Cursor 的差別是更貼近產品使用現場。它不是只追求分數,而是追求使用者真的有感。
這波其實是企業代理戰的前哨
Cursor 這次的兩個更新,表面上是產品功能。實際上,它在搶的是企業代理工作流的入口。自架代理解決部署與合規。即時 RL 解決模型更新速度。
這種組合很少見。很多工具只解其中一半。像有些平台很會做 agent 編排,但資料治理很弱。也有些模型很強,但部署節奏太慢。Cursor 想把兩邊接起來。
如果把它放到整個產業脈絡來看,這也合理。企業現在不缺「會聊天的 AI」。它們缺的是能接內網、能跑長任務、能持續修正的系統。這才是採購單上會出現的東西。
和 OpenAI Codex、Claude Code 這類 coding agent 相比,Cursor 的路線更像產品化整合。它不只賣模型,也賣執行環境、評估、部署節奏。這對開發團隊很省事,但也代表你更綁定它的工作流。
另一個背景是,AI coding 工具已經進入「誰能更快修正模型」的競爭。以前拼的是 autocomplete 準不準。現在拼的是,模型能不能從真實使用中快速學回來。Cursor 這次就是把速度拉到檯面上。
Cursor 接下來會被怎麼看
我覺得 Cursor 下一步會被更嚴格檢查。不是看它又做了什麼 Demo,而是看它能不能讓代理在企業內網穩定跑長任務。尤其是跨系統、跨權限、跨工具鏈的任務。
如果它真的能維持 5 小時級別的更新節奏,又不把品質搞爛,那它的產品心智會很強。因為使用者會開始覺得,這不是靜態助手。這是一個會跟著團隊一起變的系統。
我的判斷很簡單。接下來 6 到 12 個月,Cursor 最重要的 KPI 不是 benchmark 分數,而是企業是否願意把更長的工作流交給它。你可以先問自己一個問題:你會不會讓 AI 在自家網路裡,連跑 4 小時都不盯?如果答案慢慢變成會,那 Cursor 就真的踩到點了。