[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-openai-plan-automated-ai-researcher-zh":3,"tags-openai-plan-automated-ai-researcher-zh":31,"related-lang-openai-plan-automated-ai-researcher-zh":47,"related-posts-openai-plan-automated-ai-researcher-zh":51,"series-ai-agent-7379b422-576e-45df-ad5a-d57a0d9dd467":88},{"id":4,"title":5,"content":6,"summary":7,"source":8,"source_url":9,"author":10,"image_url":10,"keywords":11,"language":19,"translated_content":10,"views":20,"is_premium":21,"created_at":22,"updated_at":22,"cover_image":23,"published_at":22,"rewrite_status":24,"rewrite_error":10,"rewritten_from_id":25,"slug":26,"category":27,"related_article_id":28,"status":29,"google_indexed_at":30,"x_posted_at":10,"tweet_text":10,"title_rewritten_at":10,"title_original":10,"key_takeaways":10,"topic_cluster_id":10,"embedding":10,"is_canonical_seed":21},"7379b422-576e-45df-ad5a-d57a0d9dd467","OpenAI 想做自動化 AI 研究員","\u003Cp>OpenAI 想做一個\u003Ca href=\"https:\u002F\u002Fopenai.com\" target=\"_blank\" rel=\"noopener\">AI researcher\u003C\u002Fa>。第一步是 9 月前做出自主研究實習生。終點則是 2028 年的多代理系統。這時間表很敢開。因為 \u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fgpt-5\u002F\" target=\"_blank\" rel=\"noopener\">GPT-5\u003C\u002Fa> 在科學任務上，還是會冒出不少錯。\u003C\u002Fp>\u003Cp>講白了，OpenAI 現在押的是一件事。讓軟體自己盯著問題跑幾小時，甚至幾天。人類不用每一步都盯死。這種工具如果做成，對數學、物理、生物、化學都很有用。做不成，就只是另一個很會聊天的 LLM。\u003C\u002Fp>\u003Ch2>OpenAI 這次押的是研究代理人\u003C\u002Fh2>\u003Cp>OpenAI 首席科學家 \u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fjakub-pachocki\u002F\" target=\"_blank\" rel=\"noopener\">Jakub Pachocki\u003C\u002Fa> 接受 \u003Ca href=\"https:\u002F\u002Fwww.technologyreview.com\u002F2026\u002F03\u002F20\u002F1134438\u002Fopenai-is-throwing-everything-into-building-a-fully-automated-researcher\u002F\" target=\"_blank\" rel=\"noopener\">MIT Technology Review\u003C\u002Fa> 訪問時，講得很直接。公司把這件事當成長線目標。它想把推理模型、寫程式代理、可解釋性研究，串成一套系統。\u003C\u002Fp>\u003Cp>這個方向不難懂。研究不是單次問答。研究是拆問題、跑實驗、整理中間結果。你要的是一個能自己回頭修正的系統。不是那種答一句就結束的 chatbot。OpenAI 看到的，就是這個落差。\u003C\u002Fp>\u003Cp>他們手上其實已經有一個雛形。那就是 \u003Ca href=\"https:\u002F\u002Fopenai.com\u002Fcodex\u002F\" target=\"_blank\" rel=\"noopener\">Codex\u003C\u002Fa>。Pachocki 直接把它當成研究員系統的早期版本。這說法很合理。因為會寫 code、會跑測試、會追蹤步驟的 agent，確實比較像研究助理。\u003C\u002Fp>\u003Cul>\u003Cli>目標一：9 月前做出自主研究實習生\u003C\u002Fli>\u003Cli>目標二：2028 年做出多代理研究系統\u003C\u002Fli>\u003Cli>研究範圍含數學、物理、生物、化學\u003C\u002Fli>\u003Cli>OpenAI 內部也把 Codex 當日常工具\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>為什麼 OpenAI 覺得自己做得到\u003C\u002Fh2>\u003Cp>Pachocki 的邏輯，其實很工程派。第一，模型的推理能力變強了。第二，模型可以撐更久。第三，OpenAI 在訓練更硬的任務，逼模型學會拆解工作。這三件事湊在一起，就會讓人開始相信，長時間自治不是幻想。\u003C\u002Fp>\u003Cp>他還拿 \u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fgpt-4\u002F\" target=\"_blank\" rel=\"noopener\">GPT-4\u003C\u002Fa> 的進步當例子。從 GPT-3 到 GPT-4，能力確實跨了一大段。這代表一件事。只要模型夠強，連續工作能力就有機會跟著上去。至少在紙上，這套推論說得通。\u003C\u002Fp>\u003Cblockquote>“I think we are getting close to a point where we’ll have models capable of working indefinitely in a coherent way just like people do,” Pachocki said in the interview with MIT Technology Review.\u003C\u002Fblockquote>\u003Cp>這句話很關鍵。它等於在說，chatbot 和研究員的距離，主要是規模與訓練問題。不是天花板問題。很多研究者不買單，但 OpenAI 顯然是先假設可以做到，再回頭補工程。\u003C\u002Fp>\u003Cp>他們也挑了比較好驗證的任務。像數學競賽、程式挑戰。這些題目有明確答案。模型做對了，就很容易看出來。這比開放式科學研究更好管理。因為後者常常沒有標準解，還一堆模糊地帶。\u003C\u002Fp>\u003Ch2>數據很猛，但錯誤也很真實\u003C\u002Fh2>\u003Cp>這裡就要踩煞車了。\u003Ca href=\"https:\u002F\u002Fallenai.org\" target=\"_blank\" rel=\"noopener\">Allen Institute for AI\u003C\u002Fa> 的研究科學家 Doug Downey 說過，他們去年夏天測了幾個頂級 LLM 的科學任務。結果是，GPT-5 表現最好，但錯誤還是很多。這句話很重要。因為研究工作不是單點答題，而是一串步驟。\u003C\u002Fp>\u003Cp>只要中間一環出錯，整個結果就會歪掉。這和一般聊天完全不同。你叫模型寫一段 code，它可能看起來很順。你叫它連續做十步研究，它每一步都可能累積一點偏差。最後不是小失誤，是整包報廢。\u003C\u002Fp>\u003Cp>OpenAI 也不是沒看到這件事。它現在把 \u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fgpt-5\u002F\" target=\"_blank\" rel=\"noopener\">GPT-5\u003C\u002Fa> 接到 Codex 裡。甚至在訪談前兩週，還發了 GPT-5.4。這代表公司真的把模型迭代，當成研究代理的燃料。只是燃料夠不夠，還是另一回事。\u003C\u002Fp>\u003Cul>\u003Cli>GPT-5 在科學任務上拿到最好成績\u003C\u002Fli>\u003Cli>但 Downey 團隊仍看到大量錯誤\u003C\u002Fli>\u003Cli>OpenAI 內部已把 Codex 納入日常流程\u003C\u002Fli>\u003Cli>研究代理最怕的是錯誤一路累積\u003C\u002Fli>\u003C\u002Ful>\u003Cp>我覺得這裡最實際的例子，是 Pachocki 自己的工作方式。他說自己還是喜歡用 \u003Ca href=\"https:\u002F\u002Fwww.vim.org\" target=\"_blank\" rel=\"noopener\">Vim\u003C\u002Fa> 手打 code。可是他現在會讓模型跑週末實驗。這種差異很有感。不是炫技，是省時間。研究者最懂這種差別。\u003C\u002Fp>\u003Cp>OpenAI 也不是唯一玩家。\u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fclaude-code\" target=\"_blank\" rel=\"noopener\">Claude Code\u003C\u002Fa> 已經把 agent 寫程式這條路做得很明顯。Google DeepMind 也一直在推自己的 agent 研究系統。差別在於，OpenAI 這次把整家公司押在同一個目標上，還直接寫了日期。日期很殘酷。也很誠實。\u003C\u002Fp>\u003Ch2>真正的難題，是失誤會一路疊上去\u003C\u002Fh2>\u003Cp>如果你把研究工作交給 agent，最大問題不是會不會答題。最大問題是，它會不會在第 3 步、第 7 步、第 12 步都默默犯錯。每一個小錯，單看都不大。串起來就很麻煩。這也是為什麼自動化研究，比一般自動化 coding 難很多。\u003C\u002Fp>\u003Cp>Pachocki 也沒有迴避安全問題。他提到，OpenAI 一直在討論風險。像是模型誤判、駭入、錯讀指令。更麻煩的是，如果系統能自己跑完整研究流程，它也可能幫忙產生惡意的 cyber 想法，甚至碰到生物安全問題。\u003C\u002Fp>\u003Cp>OpenAI 現在的解法之一，是 \u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fchain-of-thought-monitoring\u002F\" target=\"_blank\" rel=\"noopener\">chain-of-thought monitoring\u003C\u002Fa>。簡單說，就是看模型的草稿推理，再用其他模型去盯。這招有用，但不是萬靈丹。因為真要高自治，光看草稿還不夠。你還得知道它到底有沒有走偏。\u003C\u002Fp>\u003Cp>這裡可以很直接地說。自治越高，人工審查越難補。sandbox 有用。監控有用。人類複核也有用。可是一旦系統真的很會做事，驚喜和驚嚇就會一起來。這不是悲觀，是工程常識。\u003C\u002Fp>\u003Ch2>放到產業脈絡看，這件事很合理\u003C\u002Fh2>\u003Cp>如果把時間拉長，你會發現這條路其實很順。先是聊天模型。再來是寫程式助手。接著是能自己跑工具的 agent。下一步自然就是研究代理。OpenAI 不是突然發瘋，它只是把這條路講得更白。\u003C\u002Fp>\u003Cp>對開發者來說，這也很像過去 10 年的工具演進。先有 IDE。再有自動補全。再有雲端 CI。現在則是把一部分探索工作交給模型。你可以不喜歡，但方向很清楚。誰先把流程做穩，誰就先拿到生產力。\u003C\u002Fp>\u003Cp>不過我也不會把這件事講得太神。研究不是只有算力。還有資料品質、實驗設計、錯誤歸因、可重現性。這些東西都很髒。LLM 很會講話，不代表它很會做研究。這中間差一大截。\u003C\u002Fp>\u003Cp>所以 OpenAI 的 9 月目標，比較像測試線。不是終點。它會告訴大家，現有模型到底能不能撐住長流程。如果連自主研究實習生都做不穩，2028 的多代理研究員就只是口號。如果做得出來，那就代表 agent 真的開始碰到實務邊界了。\u003C\u002Fp>\u003Ch2>接下來，先看它能不能少犯錯\u003C\u002Fh2>\u003Cp>我自己的判斷很簡單。這套系統第一版，應該會在窄範圍內有用。像是跑實驗、整理文獻、寫小型分析腳本。可是一碰到模糊題目，它就可能開始亂飄。研究最怕的，就是看起來很像對，實際上全錯。\u003C\u002Fp>\u003Cp>如果 OpenAI 真的在 9 月前端出雛形，重點不是它多會聊天。重點是它能不能在 10 步、20 步的流程裡，把錯誤率壓下來。這才是研究代理的生死線。不是 demo 有多帥，是結果能不能站得住。\u003C\u002Fp>\u003Cp>所以我會先盯兩件事。第一，錯誤率有沒有下降。第二，人工介入要多少次。只要這兩個數字沒改善，研究員這個稱號就還太早。你會想問，OpenAI 會不會真的做成？我的答案是：先看它能不能少翻車，再談研究員。\u003C\u002Fp>","OpenAI 想在 9 月前做出自主研究實習生，2028 年再推多代理 AI 研究員，但 GPT-5 在科學任務上仍會出錯，落差很現實。","www.technologyreview.com","https:\u002F\u002Fwww.technologyreview.com\u002F2026\u002F03\u002F20\u002F1134438\u002Fopenai-is-throwing-everything-into-building-a-fully-automated-researcher\u002F",null,[12,13,14,15,16,17,18],"OpenAI","AI researcher","GPT-5","Codex","多代理系統","agentic AI","人工智慧研究","zh",0,false,"2026-03-28T03:17:42.090548+00:00","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1774597771736-974v.png","done","fd7f61ee-82f1-467c-9f51-4738a6b0b299","openai-plan-automated-ai-researcher-zh","ai-agent","3b0bf479-e4ae-4703-9666-721a7e0cdb91","published","2026-04-09T09:00:58.786+00:00",[32,34,36,37,40,42,44,45],{"name":13,"slug":33},"ai-researcher",{"name":12,"slug":35},"openai",{"name":16,"slug":16},{"name":38,"slug":39},"研究整理","-",{"name":14,"slug":41},"gpt-5",{"name":15,"slug":43},"codex",{"name":18,"slug":18},{"name":17,"slug":46},"agentic-ai",{"id":28,"slug":48,"title":49,"language":50},"openai-plan-automated-ai-researcher-en","OpenAI’s plan for an automated AI researcher","en",[52,58,64,70,76,82],{"id":53,"slug":54,"title":55,"cover_image":56,"image_url":56,"created_at":57,"category":27},"38406a12-f833-4c69-ae22-99c31f03dd52","switch-ai-outputs-markdown-to-html-zh","怎麼把 AI 輸出改成 HTML","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778743243861-8901.png","2026-05-14T07:20:21.545364+00:00",{"id":59,"slug":60,"title":61,"cover_image":62,"image_url":62,"created_at":63,"category":27},"c7c69fe4-97e3-4edf-a9d6-a79d0c4495b4","anthropic-cat-wu-proactive-ai-assistants-zh","Cat Wu 談 Claude 的主動式 AI","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778735455993-gnw7.png","2026-05-14T05:10:30.453046+00:00",{"id":65,"slug":66,"title":67,"cover_image":68,"image_url":68,"created_at":69,"category":27},"e1d6acda-fa49-4514-aa75-709504be9f93","how-to-run-hermes-agent-on-discord-zh","如何在 Discord 執行 Hermes Agent","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778724655796-cjul.png","2026-05-14T02:10:34.362605+00:00",{"id":71,"slug":72,"title":73,"cover_image":74,"image_url":74,"created_at":75,"category":27},"4104fa5f-d95f-45c5-9032-99416cf0365c","why-ragflow-is-the-right-open-source-rag-engine-to-self-host-zh","為什麼 RAGFlow 是最適合自架的開源 RAG 引擎","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778674262278-1630.png","2026-05-13T12:10:23.762632+00:00",{"id":77,"slug":78,"title":79,"cover_image":80,"image_url":80,"created_at":81,"category":27},"7095f05c-34f5-469f-a044-2525d2010ce9","how-to-add-temporal-rag-in-production-zh","如何在正式環境加入 Temporal RAG","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778667053844-osvs.png","2026-05-13T10:10:30.930982+00:00",{"id":83,"slug":84,"title":85,"cover_image":86,"image_url":86,"created_at":87,"category":27},"10479c95-53c6-4723-9aaa-2fde5fb19ee7","github-agentic-workflows-ai-github-actions-zh","GitHub 把 AI 代理放進 Actions","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778551884342-8io7.png","2026-05-12T02:11:02.069769+00:00",[89,94,99,104,109,114,119,120,125,130],{"id":90,"slug":91,"title":92,"created_at":93},"4ae1e197-1d3d-4233-8733-eafe9cb6438b","claude-now-uses-your-pc-to-finish-tasks-zh","Claude 開始幫你操作電腦","2026-03-26T07:20:48.457387+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"5bede67f-e21c-413d-9ab8-54a3c3d26227","googles-2026-ai-agent-report-decoded-zh","Google 2026 AI Agent 報告解讀","2026-03-26T11:15:22.651956+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"2987d097-563f-46c7-b76f-b558d8ef7c2b","kimi-k25-review-stronger-still-not-legend-zh","Kimi K2.5 評測：更強，但還不是神作","2026-03-27T07:15:55.277513+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"95c9053b-e3f4-4cb5-aace-5c54f4c9e044","claude-code-controls-mac-desktop-zh","Claude Code 也能操控 Mac 了","2026-03-28T03:01:58.58121+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"dc58e153-e3a8-4c06-9b96-1aa64eabbf5f","cloudflare-100x-faster-ai-agent-sandbox-zh","Cloudflare 的 AI 沙箱跑超快","2026-03-28T03:09:44.142236+00:00",{"id":115,"slug":116,"title":117,"created_at":118},"1c8afc56-253f-47a2-979f-1065ff072f2a","openai-backs-isara-agent-swarm-bet-zh","OpenAI 挺 Isara 的 agent swarm …","2026-03-28T03:15:27.513155+00:00",{"id":4,"slug":26,"title":5,"created_at":22},{"id":121,"slug":122,"title":123,"created_at":124},"48c9889e-86df-450b-a356-e4a4b7c83c5b","harness-engineering-ai-agent-reliability-2026-zh","駕馭工程：從「馬具」到「作業系統」，AI Agent 可靠性的終極密碼","2026-03-31T06:42:53.556721+00:00",{"id":126,"slug":127,"title":128,"created_at":129},"e41546b8-ba9e-455f-9159-88d4614ad711","openai-codex-plugin-claude-code-zh","OpenAI 把 Codex 放進 Claude Code","2026-04-01T09:21:54.687617+00:00",{"id":131,"slug":132,"title":133,"created_at":134},"96d8e8c8-1edd-475d-9145-b1e7a1b02b65","mcp-explained-from-prompts-to-production-zh","MCP 怎麼把提示詞變工作流","2026-04-01T09:24:39.321274+00:00"]