OpenAI 想做自動化 AI 研究員

OraCore Editors

返回首頁

[AGENT] 2026年3月28日6 分鐘閱讀OraCore 編輯部

OpenAI 想做自動化 AI 研究員

OpenAI 想在 9 月前做出自主研究實習生，2028 年再推多代理 AI 研究員，但 GPT-5 在科學任務上仍會出錯，落差很現實。

AI researcher OpenAI 多代理系統研究整理 GPT-5 Codex 人工智慧研究 agentic AI

分享 LinkedIn

OpenAI 想做一個AI researcher。第一步是 9 月前做出自主研究實習生。終點則是 2028 年的多代理系統。這時間表很敢開。因為 GPT-5 在科學任務上，還是會冒出不少錯。

講白了，OpenAI 現在押的是一件事。讓軟體自己盯著問題跑幾小時，甚至幾天。人類不用每一步都盯死。這種工具如果做成，對數學、物理、生物、化學都很有用。做不成，就只是另一個很會聊天的 LLM。

OpenAI 這次押的是研究代理人

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

OpenAI 首席科學家 Jakub Pachocki 接受 MIT Technology Review 訪問時，講得很直接。公司把這件事當成長線目標。它想把推理模型、寫程式代理、可解釋性研究，串成一套系統。

這個方向不難懂。研究不是單次問答。研究是拆問題、跑實驗、整理中間結果。你要的是一個能自己回頭修正的系統。不是那種答一句就結束的 chatbot。OpenAI 看到的，就是這個落差。

他們手上其實已經有一個雛形。那就是 Codex。Pachocki 直接把它當成研究員系統的早期版本。這說法很合理。因為會寫 code、會跑測試、會追蹤步驟的 agent，確實比較像研究助理。

目標一：9 月前做出自主研究實習生
目標二：2028 年做出多代理研究系統
研究範圍含數學、物理、生物、化學
OpenAI 內部也把 Codex 當日常工具

為什麼 OpenAI 覺得自己做得到

Pachocki 的邏輯，其實很工程派。第一，模型的推理能力變強了。第二，模型可以撐更久。第三，OpenAI 在訓練更硬的任務，逼模型學會拆解工作。這三件事湊在一起，就會讓人開始相信，長時間自治不是幻想。

他還拿 GPT-4 的進步當例子。從 GPT-3 到 GPT-4，能力確實跨了一大段。這代表一件事。只要模型夠強，連續工作能力就有機會跟著上去。至少在紙上，這套推論說得通。

“I think we are getting close to a point where we’ll have models capable of working indefinitely in a coherent way just like people do,” Pachocki said in the interview with MIT Technology Review.

這句話很關鍵。它等於在說，chatbot 和研究員的距離，主要是規模與訓練問題。不是天花板問題。很多研究者不買單，但 OpenAI 顯然是先假設可以做到，再回頭補工程。

他們也挑了比較好驗證的任務。像數學競賽、程式挑戰。這些題目有明確答案。模型做對了，就很容易看出來。這比開放式科學研究更好管理。因為後者常常沒有標準解，還一堆模糊地帶。

數據很猛，但錯誤也很真實

這裡就要踩煞車了。Allen Institute for AI 的研究科學家 Doug Downey 說過，他們去年夏天測了幾個頂級 LLM 的科學任務。結果是，GPT-5 表現最好，但錯誤還是很多。這句話很重要。因為研究工作不是單點答題，而是一串步驟。

只要中間一環出錯，整個結果就會歪掉。這和一般聊天完全不同。你叫模型寫一段 code，它可能看起來很順。你叫它連續做十步研究，它每一步都可能累積一點偏差。最後不是小失誤，是整包報廢。

OpenAI 也不是沒看到這件事。它現在把 GPT-5 接到 Codex 裡。甚至在訪談前兩週，還發了 GPT-5.4。這代表公司真的把模型迭代，當成研究代理的燃料。只是燃料夠不夠，還是另一回事。

GPT-5 在科學任務上拿到最好成績
但 Downey 團隊仍看到大量錯誤
OpenAI 內部已把 Codex 納入日常流程
研究代理最怕的是錯誤一路累積

我覺得這裡最實際的例子，是 Pachocki 自己的工作方式。他說自己還是喜歡用 Vim 手打 code。可是他現在會讓模型跑週末實驗。這種差異很有感。不是炫技，是省時間。研究者最懂這種差別。

OpenAI 也不是唯一玩家。Claude Code 已經把 agent 寫程式這條路做得很明顯。Google DeepMind 也一直在推自己的 agent 研究系統。差別在於，OpenAI 這次把整家公司押在同一個目標上，還直接寫了日期。日期很殘酷。也很誠實。

真正的難題，是失誤會一路疊上去

如果你把研究工作交給 agent，最大問題不是會不會答題。最大問題是，它會不會在第 3 步、第 7 步、第 12 步都默默犯錯。每一個小錯，單看都不大。串起來就很麻煩。這也是為什麼自動化研究，比一般自動化 coding 難很多。

Pachocki 也沒有迴避安全問題。他提到，OpenAI 一直在討論風險。像是模型誤判、駭入、錯讀指令。更麻煩的是，如果系統能自己跑完整研究流程，它也可能幫忙產生惡意的 cyber 想法，甚至碰到生物安全問題。

OpenAI 現在的解法之一，是 chain-of-thought monitoring。簡單說，就是看模型的草稿推理，再用其他模型去盯。這招有用，但不是萬靈丹。因為真要高自治，光看草稿還不夠。你還得知道它到底有沒有走偏。

這裡可以很直接地說。自治越高，人工審查越難補。sandbox 有用。監控有用。人類複核也有用。可是一旦系統真的很會做事，驚喜和驚嚇就會一起來。這不是悲觀，是工程常識。

放到產業脈絡看，這件事很合理

如果把時間拉長，你會發現這條路其實很順。先是聊天模型。再來是寫程式助手。接著是能自己跑工具的 agent。下一步自然就是研究代理。OpenAI 不是突然發瘋，它只是把這條路講得更白。

對開發者來說，這也很像過去 10 年的工具演進。先有 IDE。再有自動補全。再有雲端 CI。現在則是把一部分探索工作交給模型。你可以不喜歡，但方向很清楚。誰先把流程做穩，誰就先拿到生產力。

不過我也不會把這件事講得太神。研究不是只有算力。還有資料品質、實驗設計、錯誤歸因、可重現性。這些東西都很髒。LLM 很會講話，不代表它很會做研究。這中間差一大截。

所以 OpenAI 的 9 月目標，比較像測試線。不是終點。它會告訴大家，現有模型到底能不能撐住長流程。如果連自主研究實習生都做不穩，2028 的多代理研究員就只是口號。如果做得出來，那就代表 agent 真的開始碰到實務邊界了。

接下來，先看它能不能少犯錯

我自己的判斷很簡單。這套系統第一版，應該會在窄範圍內有用。像是跑實驗、整理文獻、寫小型分析腳本。可是一碰到模糊題目，它就可能開始亂飄。研究最怕的，就是看起來很像對，實際上全錯。

如果 OpenAI 真的在 9 月前端出雛形，重點不是它多會聊天。重點是它能不能在 10 步、20 步的流程裡，把錯誤率壓下來。這才是研究代理的生死線。不是 demo 有多帥，是結果能不能站得住。

所以我會先盯兩件事。第一，錯誤率有沒有下降。第二，人工介入要多少次。只要這兩個數字沒改善，研究員這個稱號就還太早。你會想問，OpenAI 會不會真的做成？我的答案是：先看它能不能少翻車，再談研究員。

// 相關文章

OpenAI 想做自動化 AI 研究員

OpenAI 這次押的是研究代理人

訂閱 AI 趨勢週報

為什麼 OpenAI 覺得自己做得到

數據很猛，但錯誤也很真實

真正的難題，是失誤會一路疊上去

放到產業脈絡看，這件事很合理

接下來，先看它能不能少犯錯

怎麼把 AI 輸出改成 HTML

Cat Wu 談 Claude 的主動式 AI

如何在 Discord 執行 Hermes Agent

為什麼 RAGFlow 是最適合自架的開源 RAG 引擎

如何在正式環境加入 Temporal RAG

GitHub 把 AI 代理放進 Actions