[RSCH] 7 分鐘閱讀OraCore 編輯部

AI 代理寫程式:token 比 chat 多燒 1000 倍

這篇研究看 SWE-bench Verified 上的代理式寫程式,發現 token 花費可比一般 code chat 高出 1000 倍,且多半是 input 在燒錢,成本還很難預測。

分享 LinkedIn
AI 代理寫程式:token 比 chat 多燒 1000 倍

AI 代理寫程式越來越像真的能幹活,但代價也開始浮現。這篇論文 How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks,直接把焦點放在一個很實際的問題:當 agent 開始讀檔、呼叫工具、反覆嘗試修 code 時,token 到底是怎麼被燒掉的。

這不是單純在比誰答得準,而是把「成本」拉到檯面上。對開發者來說,這件事很重要,因為 agent 的費用常常不是出在最後那段輸出,而是出在前面一輪又一輪的上下文讀取、工具互動與重試。你看到的是一次修 bug,帳單看到的可能是整段流程。

論文的核心訊息很直接:代理式寫程式不是一般的 LLM 工作負載。它的 token 消耗高、波動大,而且 frontier model 目前也還不太會自己準確估算成本。這代表 token 不是後台細節,而是系統設計的一部分。

這篇研究在解什麼痛點

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

AI agent 從 demo 走進真實流程,token 花費就不再只是帳務欄位,而是產品與基礎設施問題。agent 會不會一直讀上下文、一直 retry、一直打工具,直接影響成本。即使最後答案差不多,過程也可能差很多。

AI 代理寫程式,token 為何狂燒

這篇研究想回答三個實務問題。第一,token 都花在哪裡。第二,同樣任務下,哪些模型比較省。第三,模型能不能在開始前先估算自己大概要燒多少 token,讓系統可以先做預算、分流或限制。

作者把焦點放在 agentic coding tasks,因為這類任務很適合當壓力測試:上下文長、工具多、推理過程反覆,成本特性會被放大。研究使用的是 SWE-bench Verified 上的軌跡,並分析八個 frontier LLM 的 token 消耗模式,以及模型在執行前自我預測成本的能力。

換句話說,這篇不是在提一個新演算法,而是在拆解現有 agent 工作流的成本結構。這個角度對做產品的人很有用,因為很多時候真正的瓶頸不是模型不會做,而是做一次太貴、太不穩定。

方法怎麼看,白話版

研究方法偏觀察式與比較式。作者收集八個 frontier 模型在同一個 coding benchmark 上的 agent trajectories,再比較每次執行消耗多少 token,以及這些成本跟任務結果之間的關係。

他們不只看「有沒有修好」,還看「修這題花了多少」。這個差別很重要,因為在 agent 系統裡,成功不等於划算。某些模型可能能解題,但要先吃掉大量上下文、反覆試錯,成本就會被拉高。

論文也把 input tokens 和 output tokens 分開看。這點很關鍵,因為 agent 的成本常常不是輸出文字本身,而是前面那些被反覆餵進模型的內容。讀檔、重送上下文、工具回傳結果,這些都會堆高 input tokens。

另一個角度是「可預測性」。作者測試模型能不能在執行前估算自己的 token 消耗。這等於在問:模型是否知道自己這次任務會不會很燒錢?如果答案是否定的,那麼想靠模型自我報價來做路由或預算控管,就會有風險。

論文也拿人類專家對任務難度的評分來對照實際 token 花費。這是在檢查一件很現實的事:人類覺得難的題目,是否真的會讓 agent 燒更多 token?

論文實際證明了什麼

最醒目的結果是:agentic coding 的 token 消耗非常誇張。論文指出,這類任務消耗的 token 比 code reasoning 和 code chat 高出 1000 倍,而且主要是 input tokens 在驅動總成本。也就是說,真正燒錢的不是最後吐出來的答案,而是前面那堆反覆吃進去的上下文。

AI 代理寫程式,token 為何狂燒

這個發現對做 agent 的團隊很重要。很多人直覺會盯著模型輸出長不長,但這篇研究提醒你,真正的成本黑洞常常藏在輸入端。只要 agent 一直帶著大量歷史狀態、工具輸出和重試內容跑,費用就會迅速放大。

而且成本不是穩定的。論文指出,同一個任務在不同 run 之間,總 token 最高可差到 30 倍。這代表 token 花費不是單純由 benchmark 任務決定,而是帶有很強的隨機性。對平台來說,這種波動會直接影響預算、延遲和資源配置。

更有意思的是,多花 token 不一定換來更好的結果。作者觀察到,accuracy 往往在中等成本時就達到高點,之後再往上加碼,表現會趨於飽和。這打破了「多花一點就會更準」的直覺。

模型之間也有明顯差異。論文提到,在相同任務下,Kimi-K2 和 Claude-Sonnet-4.5 平均比 GPT-5 多消耗超過 150 萬個 token。這不是小差距,而是會直接影響 production 成本的等級。對要做模型選型的人來說,token efficiency 可能跟解題能力一樣重要。

人類對難度的直覺也不太可靠。研究發現,專家標註的任務難度只和實際 token 花費有弱相關。也就是說,光靠人眼看題目,很難準確預估 agent 會燒多少資源。

最後,模型自己也不太會算。frontier models 對自身 token 使用量的預測只有弱到中等的相關性,最高到 0.39,而且普遍低估真實成本。這表示如果你想把「模型自己報價」當成成本控制機制,目前還不夠穩。

對開發者的實際影響

如果你在做 agentic coding workflow,這篇研究的第一個提醒很簡單:token cost 要當成一級指標。不要只看成功率,還要看每次成功付出了多少代價。兩個看起來差不多的任務,最後帳單可能差很多。

這會影響產品設計,也會影響基礎設施規劃。你可能需要 token budget、重試上限、路由規則,或是在任務開始前先做成本分流。尤其當系統要處理大量使用者請求時,成本波動本身就是風險。

這篇研究也在提醒一件常被忽略的事:benchmark 成績不等於 production 適配度。若兩個模型解題率差不多,但其中一個能用更少 token 完成,後者在真實環境裡可能更划算,也更容易控制延遲。

對平台團隊來說,這篇論文還揭露了人類直覺和 agent 行為之間的落差。既然專家難以準確預測 token 花費,那麼靠人工判斷來做成本預估,效果很可能有限。成本管理可能得更多依賴系統化量測,而不是經驗猜測。

這也意味著,下一波 agent 優化不一定只是追求更高分數,而是把同樣能力做得更便宜、更穩定、更可預算。對實務落地來說,這通常比多拿一點 benchmark 分數更重要。

限制與還沒回答的問題

這裡也要說清楚,這份來源是 abstract 級別的資訊,所以沒有公開完整 benchmark 細節、逐模型成本表或更細的實作設定。也就是說,這篇摘要沒有公開完整 benchmark 細節;如果要深入檢查實驗設計,還是得看全文。

另外,研究聚焦在 SWE-bench Verified 與八個 frontier LLM。這讓結果對 agentic coding 很有代表性,但不代表能直接外推到所有工具型工作流,或所有模型家族。不同任務、不同工具鏈、不同上下文管理方式,成本型態都可能變。

還有一個開放問題是:如果改變 prompting 策略、工具流程,或 context 管理方式,token 消耗會不會明顯下降?這篇研究已經指出 input tokens 是主要成本來源,也指出波動很大,但它沒有宣稱已經解決效率問題。

不過,這個結論本身已經很有價值。它告訴開發者,代理式寫程式的成本不是附帶現象,而是系統行為的一部分。想把 agent 做到能上線、能擴量、能控預算,就不能只看「會不會做」,還要看「做一次要燒多少」。

  • 代理式寫程式的 token 成本可能遠高於一般 code chat 或 reasoning。
  • input tokens 是主要成本來源,不是 output。
  • 同一任務的成本波動很大,最高可差到 30 倍。
  • 更多 token 不一定帶來更高 accuracy。
  • 模型目前還不擅長預測自己的成本。

對台灣開發者來說,這篇研究的訊號很清楚:如果你正在做 AI coding agent,下一個要優化的,不只是模型準不準,而是它到底有多會燒 token。能解題只是起點,能穩定、可預測、可控成本地解題,才比較接近能上線的系統。