合成電腦訓練長程代理人
這篇論文用大量合成使用者電腦,模擬長達數月的生產力工作,讓代理人能在更像真實辦公環境的情境中訓練與評估。

這篇論文用合成使用者電腦來訓練代理人,讓它在長時間的生產力工作情境中學會操作檔案、文件與多步驟任務。
長程生產力工作,很少是單一問答可以解完的事。真正的工作常常卡在檔案系統、資料夾結構、試算表、簡報、文件,還有那些分散在不同位置的上下文。這篇論文 Synthetic Computers at Scale for Long-Horizon Productivity Simulation 的出發點很直接:如果要讓代理人真的進步,訓練環境就不能只像聊天題庫,而要更像一台真實電腦。
作者要解的痛點,不是「代理人會不會回答問題」,而是「代理人能不能在一個像真實工作機器的環境裡,持續做一個月等級的任務」。這種任務通常需要跨資料夾找線索、在多個檔案之間保持上下文,還要一路產出多個交付物。對現在很多 agent 來說,這正是最難的地方。
這篇在解什麼問題
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
論文認為,現有的 agent 訓練資料,對長程生產力工作來說太淺。環境如果不夠像真實電腦,代理人就學不到實務上最重要的習慣:怎麼從檔案系統裡抓到 grounding、怎麼在很多輪互動中維持狀態、怎麼跟模擬協作者協調、怎麼把一個長專案拆成多個可交付成果。

這也是為什麼作者要做的是「環境生成」,不是只做題目生成。因為長程工作不是單點事件,而是一段持續的流程。資料如果只是一小段 prompt 或 toy task,代理人很難學到真正會用的行為模式。論文想把這種工作脈絡,放進可大量生成的訓練環境裡。
從這個角度看,這篇不是在補一個 benchmark 而已,而是在補 agent 訓練的底層土壤。它把重點放在:如何建立足夠像樣的使用者電腦,讓後續的長時間模擬真的有訓練價值。
方法怎麼運作
方法分成兩段。第一段是建立 synthetic computers,也就是合成使用者電腦。這些環境會有比較像真實工作的資料夾階層,裡面放的是內容豐富的 artifacts,例如文件、試算表和簡報。目標不是做出漂亮 demo,而是讓電腦在結構上、上下文上都更接近真實工作機器。
第二段是長程模擬。作者會根據每一台 synthetic computer 生成對應的生產力目標。這些目標不是單一步驟,而是需要多個專業交付物,時間尺度大約對應到人類一個月的工作量。接著,另一個 agent 會在這個合成環境裡持續執行,直到把目標完成。
模擬過程中,agent 會做的事情也很像知識工作者:在檔案系統裡找資料作為 grounding、和模擬協作者互動、產出專業文件。這讓資料不再只是靜態樣本,而是一串有連續決策、有長時間依賴的經驗軌跡。對訓練來說,這種訊號比單輪問答更接近真實需求。
論文把這套流程視為可擴充的方法論。不是只手工做少數環境,而是要能批量生成很多使用者世界,再讓 agent 從這些軌跡中學習。
論文實際證明了什麼
摘要裡有幾個數字,代表這不是一個小型玩具實驗。作者在初步實驗中建立了 1,000 台 synthetic computers,並在上面跑長程模擬。每次模擬平均超過 2,000 個 turns,而且單次執行時間超過 8 小時。

這些數字至少說明一件事:這個設定很重,而且互動深度很高。它不是短 prompt、不是幾步就結束的任務,而是需要長時間維持狀態與決策的流程。對 agent 來說,這種資料型態本身就很有價值,因為它逼近了真實工作中的持續性。
作者也表示,這些模擬產生了豐富的 experiential learning signals,並且在 in-domain 與 out-of-domain 的 productivity evaluation 上,都帶來了顯著改善。不過,摘要沒有公開完整 benchmark 細節,也沒有列出具體評估名稱、任務設計,或是改善幅度的數字。所以就摘要能確認的範圍來看,我們只能說它宣稱有明顯進步,但還不能直接從這裡檢查它到底贏了多少、贏在哪些任務上。
另一個值得注意的點,是作者對規模的想像。他們提到 personas 已經有 billion scale 的供給量,並認為這套方法在算力足夠時,理論上可以擴到 millions 甚至 billions 的 synthetic user worlds。這不是已經完成的結果,而是對可擴展性的主張。它代表作者想把合成工作環境,做成未來 agent 自我改進的基礎設施。
對開發者有什麼影響
如果你在做辦公型 agent,這篇論文提供了一個很實際的提醒:環境本身就是訓練訊號的一部分。只看短 prompt 的模型,往往學不到怎麼使用檔案結構、怎麼跨多個檔案維持上下文、怎麼處理長期專案狀態。Synthetic computers 的想法,就是把這些能力變成可訓練的行為。
對工程實作來說,這種方法的吸引力很明確。若它真的能穩定運作,就可能幫助打造更會做持續性工作的 agent,例如整理文件、追蹤任務、和協作者協調、長時間維持交付節奏。這和一般聊天式助理是不同問題,資料需求也完全不同。
它還有一個更大的系統意義。長程軌跡如果能以足夠規模產出,就可能成為 agent self-improvement 的資料來源,讓模型在接近真實工作流程的環境裡反覆修正行為。論文明確把 synthetic computer creation 和 at-scale simulation,視為 agentic reinforcement learning 在 productivity 場景中的潛力方向。
限制與還沒回答的問題
最大的限制,是摘要只給了高層概念,沒有把方法細節攤開。像是 synthetic computers 到底怎麼建、內容怎麼生成、評估流程怎麼設計、實際用了哪些 productivity benchmarks,摘要都沒有公開。這讓外部讀者很難只靠這段資訊判斷它的泛化能力。
第二個限制是成本。單次模擬超過 8 小時,平均又超過 2,000 turns,代表算力和 orchestration 的負擔都不小。方法在概念上可擴展,不代表在實務上便宜。對想把這類系統落地的人來說,成本會是核心考量之一。
第三個問題是 realism。作者主張 synthetic worlds 可以涵蓋不同職業、角色、環境與生產力需求,但這在摘要裡仍屬於方向性的說法,不是已經完整驗證的大範圍結論。真正的挑戰是:合成世界能不能保留真實工作的複雜性與不可預測性,又不會變得太腳本化。
- 優點:把長程、環境豐富的 agent 訓練資料做成可批量生成。
- 優點:把檔案系統、文件、試算表、簡報等真實工作元素納入模擬。
- 結果:初步實驗建立 1,000 台 synthetic computers,單次模擬平均 2,000+ turns、超過 8 小時。
- 限制:摘要沒有公開完整 benchmark 名稱與精確改善幅度。
- 待解問題:這種合成工作世界在更大規模下,能否維持真實性與可控性。
如果你在關注 productivity agent、長程規劃、或 agentic reinforcement learning,這篇論文的核心訊息其實很簡單:要訓練會做長工作的人,先得有像樣的工作環境。這篇是在嘗試把那個環境,做成可以大規模生成的基礎建設。
也因為如此,它的價值不只在某個單點模型表現,而在於它提出了一種資料生成思路:讓 agent 在更接近真實電腦的世界裡,累積足夠長、足夠雜、足夠像工作的經驗。對開發者來說,這可能比再多一個短 benchmark 更接近下一階段的需求。