[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-synthetic-computers-long-horizon-agent-training-zh":3,"tags-synthetic-computers-long-horizon-agent-training-zh":30,"related-lang-synthetic-computers-long-horizon-agent-training-zh":41,"related-posts-synthetic-computers-long-horizon-agent-training-zh":45,"series-research-64bc321d-8357-4be8-9fdb-1a1e902b3258":82},{"id":4,"title":5,"content":6,"summary":7,"source":8,"source_url":9,"author":10,"image_url":11,"keywords":12,"language":18,"translated_content":10,"views":19,"is_premium":20,"created_at":21,"updated_at":21,"cover_image":11,"published_at":22,"rewrite_status":23,"rewrite_error":10,"rewritten_from_id":24,"slug":25,"category":26,"related_article_id":27,"status":28,"google_indexed_at":29,"x_posted_at":10,"tweet_text":10,"title_rewritten_at":10,"title_original":10,"key_takeaways":10,"topic_cluster_id":10,"embedding":10,"is_canonical_seed":20},"64bc321d-8357-4be8-9fdb-1a1e902b3258","合成電腦訓練長程代理人","\u003Cp data-speakable=\"summary\">這篇論文用合成使用者電腦來訓練代理人，讓它在長時間的生產力工作情境中學會操作檔案、文件與多步驟任務。\u003C\u002Fp>\u003Cp>長程生產力工作，很少是單一問答可以解完的事。真正的工作常常卡在檔案系統、資料夾結構、試算表、簡報、文件，還有那些分散在不同位置的上下文。這篇論文 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.28181\">Synthetic Computers at Scale for Long-Horizon Productivity Simulation\u003C\u002Fa> 的出發點很直接：如果要讓代理人真的進步，訓練環境就不能只像聊天題庫，而要更像一台真實電腦。\u003C\u002Fp>\u003Cp>作者要解的痛點，不是「代理人會不會回答問題」，而是「代理人能不能在一個像真實工作機器的環境裡，持續做一個月等級的任務」。這種任務通常需要跨資料夾找線索、在多個檔案之間保持上下文，還要一路產出多個交付物。對現在很多 \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa> 來說，這正是最難的地方。\u003C\u002Fp>\u003Ch2>這篇在解什麼問題\u003C\u002Fh2>\u003Cp>論文認為，現有的 agent 訓練資料，對長程生產力工作來說太淺。環境如果不夠像真實電腦，代理人就學不到實務上最重要的習慣：怎麼從檔案系統裡抓到 grounding、怎麼在很多輪互動中維持狀態、怎麼跟模擬協作者協調、怎麼把一個長專案拆成多個可交付成果。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1777620220113-to6h.png\" alt=\"合成電腦訓練長程代理人\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這也是為什麼作者要做的是「環境生成」，不是只做題目生成。因為長程工作不是單點事件，而是一段持續的流程。資料如果只是一小段 prompt 或 toy task，代理人很難學到真正會用的行為模式。論文想把這種工作脈絡，放進可大量生成的訓練環境裡。\u003C\u002Fp>\u003Cp>從這個角度看，這篇不是在補一個 benchmark 而已，而是在補 agent 訓練的底層土壤。它把重點放在：如何建立足夠像樣的使用者電腦，讓後續的長時間模擬真的有訓練價值。\u003C\u002Fp>\u003Ch2>方法怎麼運作\u003C\u002Fh2>\u003Cp>方法分成兩段。第一段是建立 sy\u003Ca href=\"\u002Fnews\u002Fanthropic-claude-security-public-beta-zh\">nth\u003C\u002Fa>etic computers，也就是合成使用者電腦。這些環境會有比較像真實工作的資料夾階層，裡面放的是內容豐富的 artifacts，例如文件、試算表和簡報。目標不是做出漂亮 demo，而是讓電腦在結構上、上下文上都更接近真實工作機器。\u003C\u002Fp>\u003Cp>第二段是長程模擬。作者會根據每一台 sy\u003Ca href=\"\u002Fnews\u002Fanthropic-eyes-openai-valuation-lead-900b-zh\">nth\u003C\u002Fa>etic computer 生成對應的生產力目標。這些目標不是單一步驟，而是需要多個專業交付物，時間尺度大約對應到人類一個月的工作量。接著，另一個 agent 會在這個合成環境裡持續執行，直到把目標完成。\u003C\u002Fp>\u003Cp>模擬過程中，agent 會做的事情也很像知識工作者：在檔案系統裡找資料作為 grounding、和模擬協作者互動、產出專業文件。這讓資料不再只是靜態樣本，而是一串有連續決策、有長時間依賴的經驗軌跡。對訓練來說，這種訊號比單輪問答更接近真實需求。\u003C\u002Fp>\u003Cp>論文把這套流程視為可擴充的方法論。不是只手工做少數環境，而是要能批量生成很多使用者世界，再讓 agent 從這些軌跡中學習。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>摘要裡有幾個數字，代表這不是一個小型玩具實驗。作者在初步實驗中建立了 1,000 台 synthetic computers，並在上面跑長程模擬。每次模擬平均超過 2,000 個 turns，而且單次執行時間超過 8 小時。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1777620214769-zh57.png\" alt=\"合成電腦訓練長程代理人\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這些數字至少說明一件事：這個設定很重，而且互動深度很高。它不是短 prompt、不是幾步就結束的任務，而是需要長時間維持狀態與決策的流程。對 agent 來說，這種資料型態本身就很有價值，因為它逼近了真實工作中的持續性。\u003C\u002Fp>\u003Cp>作者也表示，這些模擬產生了豐富的 experiential learning signals，並且在 in-domain 與 out-of-domain 的 productivity evalu\u003Ca href=\"\u002Fnews\u002Ftokenization-moving-from-idea-to-infrastructure-zh\">atio\u003C\u002Fa>n 上，都帶來了顯著改善。不過，摘要沒有公開完整 benchmark 細節，也沒有列出具體評估名稱、任務設計，或是改善幅度的數字。所以就摘要能確認的範圍來看，我們只能說它宣稱有明顯進步，但還不能直接從這裡檢查它到底贏了多少、贏在哪些任務上。\u003C\u002Fp>\u003Cp>另一個值得注意的點，是作者對規模的想像。他們提到 personas 已經有 billion scale 的供給量，並認為這套方法在算力足夠時，理論上可以擴到 millions 甚至 billions 的 synthetic user worlds。這不是已經完成的結果，而是對可擴展性的主張。它代表作者想把合成工作環境，做成未來 agent 自我改進的基礎設施。\u003C\u002Fp>\u003Ch2>對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你在做辦公型 agent，這篇論文提供了一個很實際的提醒：環境本身就是訓練訊號的一部分。只看短 prompt 的模型，往往學不到怎麼使用檔案結構、怎麼跨多個檔案維持上下文、怎麼處理長期專案狀態。Synthetic computers 的想法，就是把這些能力變成可訓練的行為。\u003C\u002Fp>\u003Cp>對工程實作來說，這種方法的吸引力很明確。若它真的能穩定運作，就可能幫助打造更會做持續性工作的 agent，例如整理文件、追蹤任務、和協作者協調、長時間維持交付節奏。這和一般聊天式助理是不同問題，資料需求也完全不同。\u003C\u002Fp>\u003Cp>它還有一個更大的系統意義。長程軌跡如果能以足夠規模產出，就可能成為 agent self-improvement 的資料來源，讓模型在接近真實工作流程的環境裡反覆修正行為。論文明確把 synthetic computer creation 和 at-scale simulation，視為 agentic reinforcement learning 在 productivity 場景中的潛力方向。\u003C\u002Fp>\u003Ch2>限制與還沒回答的問題\u003C\u002Fh2>\u003Cp>最大的限制，是摘要只給了高層概念，沒有把方法細節攤開。像是 synthetic computers 到底怎麼建、內容怎麼生成、評估流程怎麼設計、實際用了哪些 productivity benchmarks，摘要都沒有公開。這讓外部讀者很難只靠這段資訊判斷它的泛化能力。\u003C\u002Fp>\u003Cp>第二個限制是成本。單次模擬超過 8 小時，平均又超過 2,000 turns，代表算力和 orchestration 的負擔都不小。方法在概念上可擴展，不代表在實務上便宜。對想把這類系統落地的人來說，成本會是核心考量之一。\u003C\u002Fp>\u003Cp>第三個問題是 realism。作者主張 synthetic worlds 可以涵蓋不同職業、角色、環境與生產力需求，但這在摘要裡仍屬於方向性的說法，不是已經完整驗證的大範圍結論。真正的挑戰是：合成世界能不能保留真實工作的複雜性與不可預測性，又不會變得太腳本化。\u003C\u002Fp>\u003Cul>\u003Cli>優點：把長程、環境豐富的 agent 訓練資料做成可批量生成。\u003C\u002Fli>\u003Cli>優點：把檔案系統、文件、試算表、簡報等真實工作元素納入模擬。\u003C\u002Fli>\u003Cli>結果：初步實驗建立 1,000 台 synthetic computers，單次模擬平均 2,000+ turns、超過 8 小時。\u003C\u002Fli>\u003Cli>限制：摘要沒有公開完整 benchmark 名稱與精確改善幅度。\u003C\u002Fli>\u003Cli>待解問題：這種合成工作世界在更大規模下，能否維持真實性與可控性。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>如果你在關注 productivity agent、長程規劃、或 agentic reinforcement learning，這篇論文的核心訊息其實很簡單：要訓練會做長工作的人，先得有像樣的工作環境。這篇是在嘗試把那個環境，做成可以大規模生成的基礎建設。\u003C\u002Fp>\u003Cp>也因為如此，它的價值不只在某個單點模型表現，而在於它提出了一種資料生成思路：讓 agent 在更接近真實電腦的世界裡，累積足夠長、足夠雜、足夠像工作的經驗。對開發者來說，這可能比再多一個短 benchmark 更接近下一階段的需求。\u003C\u002Fp>","這篇論文用大量合成使用者電腦，模擬長達數月的生產力工作，讓代理人能在更像真實辦公環境的情境中訓練與評估。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.28181",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1777620220113-to6h.png",[13,14,15,16,17],"agent training","synthetic computers","long-horizon tasks","productivity simulation","agentic reinforcement learning","zh",0,false,"2026-05-01T06:30:45.987929+00:00","2026-05-01T06:30:45.917+00:00","done","1ad5e65f-6002-4153-9a59-0229dd4ec30e","synthetic-computers-long-horizon-agent-training-zh","research","14c7a767-8a49-4a9f-9531-3ea654444daf","published","2026-05-01T09:00:07.247+00:00",[31,33,35,37,39],{"name":16,"slug":32},"productivity-simulation",{"name":14,"slug":34},"synthetic-computers",{"name":15,"slug":36},"long-horizon-tasks",{"name":13,"slug":38},"agent-training",{"name":17,"slug":40},"agentic-reinforcement-learning",{"id":27,"slug":42,"title":43,"language":44},"synthetic-computers-long-horizon-agent-training-en","Synthetic computers for long-horizon agent training","en",[46,52,58,64,70,76],{"id":47,"slug":48,"title":49,"cover_image":50,"image_url":50,"created_at":51,"category":26},"667b72b6-e821-4d68-80a1-e03340bc85f1","turboquant-seo-shift-small-sites-zh","TurboQuant 與小站 SEO 變化","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778840440690-kcw9.png","2026-05-15T10:20:27.319472+00:00",{"id":53,"slug":54,"title":55,"cover_image":56,"image_url":56,"created_at":57,"category":26},"381fb6c6-6da7-4444-831f-8c5eed8d685c","turboquant-vllm-comparison-fp8-kv-cache-zh","TurboQuant 與 FP8 實測結果","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778839867551-4v9g.png","2026-05-15T10:10:36.034569+00:00",{"id":59,"slug":60,"title":61,"cover_image":62,"image_url":62,"created_at":63,"category":26},"c15f45ee-a548-4dbf-8152-91de159c1a11","llmbda-calculus-agent-safety-rules-zh","LLMbda 演算替 AI 代理人立安全規則","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778825503412-mlbf.png","2026-05-15T06:10:34.832664+00:00",{"id":65,"slug":66,"title":67,"cover_image":68,"image_url":68,"created_at":69,"category":26},"0c02225c-d6ff-44f8-bc92-884c8921c4a3","low-complexity-beamspace-denoiser-mmwave-mimo-zh","更簡單的毫米波波束域去噪器","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778814650361-xtc2.png","2026-05-15T03:10:30.06639+00:00",{"id":71,"slug":72,"title":73,"cover_image":74,"image_url":74,"created_at":75,"category":26},"9d27f967-62cc-433f-8cdb-9300937ade13","ai-benchmark-wins-cyber-scare-defenders-zh","為什麼 AI 基準賽在資安領域的勝利，應該讓防守方警醒","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778807450006-nofx.png","2026-05-15T01:10:29.379041+00:00",{"id":77,"slug":78,"title":79,"cover_image":80,"image_url":80,"created_at":81,"category":26},"bc402dc6-5da6-46fc-9d66-d09cb215f72b","why-linux-security-needs-patch-wave-mindset-zh","為什麼 Linux 安全需要「補丁浪潮」思維","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778741449813-s2wn.png","2026-05-14T06:50:24.052583+00:00",[83,88,93,98,103,108,113,118,123,128],{"id":84,"slug":85,"title":86,"created_at":87},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":89,"slug":90,"title":91,"created_at":92},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"9f50561b-aebd-46ba-94a8-363198aa7091","openclaw-agents-manipulated-self-sabotage-zh","OpenClaw Agent 會自己搞砸自己","2026-03-28T03:03:18.786425+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"11f22e92-7066-4978-a544-31f5f2156ec6","vega-learning-to-drive-with-natural-language-instructions-zh","Vega：使用自然語言指示進行自駕車控制","2026-03-28T14:54:04.847912+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"a4c7cfec-8d0e-4fec-93cf-1b9699a530b8","drive-my-way-en-zh","Drive My Way：個性化自駕車風格的實現","2026-03-28T14:54:26.207495+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"dec02f89-fd39-41ba-8e4d-11ede93a536d","training-knowledge-bases-with-writeback-rag-zh","用 WriteBack-RAG 強化知識庫提升檢索效能","2026-03-28T14:54:45.775606+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"3886be5c-a137-40cc-b9e2-0bf18430c002","packforcing-efficient-long-video-generation-method-zh","PackForcing：短影片訓練也能生成長影片","2026-03-28T14:55:02.688141+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"72b90667-d930-4cc9-8ced-aaa0f8968d44","pixelsmile-toward-fine-grained-facial-expression-editing-zh","PixelSmile：提升精細臉部表情編輯的新方法","2026-03-28T14:55:20.678181+00:00",{"id":129,"slug":130,"title":131,"created_at":132},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00"]