OpenAI 想做自動化 AI 研究員
OpenAI 想在 9 月前做出自主研究實習生,2028 年再推多代理 AI 研究員,但 GPT-5 在科學任務上仍會出錯,落差很現實。

OpenAI 想做一個AI researcher。第一步是 9 月前做出自主研究實習生。終點則是 2028 年的多代理系統。這時間表很敢開。因為 GPT-5 在科學任務上,還是會冒出不少錯。
講白了,OpenAI 現在押的是一件事。讓軟體自己盯著問題跑幾小時,甚至幾天。人類不用每一步都盯死。這種工具如果做成,對數學、物理、生物、化學都很有用。做不成,就只是另一個很會聊天的 LLM。
OpenAI 這次押的是研究代理人
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
OpenAI 首席科學家 Jakub Pachocki 接受 MIT Technology Review 訪問時,講得很直接。公司把這件事當成長線目標。它想把推理模型、寫程式代理、可解釋性研究,串成一套系統。
這個方向不難懂。研究不是單次問答。研究是拆問題、跑實驗、整理中間結果。你要的是一個能自己回頭修正的系統。不是那種答一句就結束的 chatbot。OpenAI 看到的,就是這個落差。
他們手上其實已經有一個雛形。那就是 Codex。Pachocki 直接把它當成研究員系統的早期版本。這說法很合理。因為會寫 code、會跑測試、會追蹤步驟的 agent,確實比較像研究助理。
- 目標一:9 月前做出自主研究實習生
- 目標二:2028 年做出多代理研究系統
- 研究範圍含數學、物理、生物、化學
- OpenAI 內部也把 Codex 當日常工具
為什麼 OpenAI 覺得自己做得到
Pachocki 的邏輯,其實很工程派。第一,模型的推理能力變強了。第二,模型可以撐更久。第三,OpenAI 在訓練更硬的任務,逼模型學會拆解工作。這三件事湊在一起,就會讓人開始相信,長時間自治不是幻想。
他還拿 GPT-4 的進步當例子。從 GPT-3 到 GPT-4,能力確實跨了一大段。這代表一件事。只要模型夠強,連續工作能力就有機會跟著上去。至少在紙上,這套推論說得通。
“I think we are getting close to a point where we’ll have models capable of working indefinitely in a coherent way just like people do,” Pachocki said in the interview with MIT Technology Review.
這句話很關鍵。它等於在說,chatbot 和研究員的距離,主要是規模與訓練問題。不是天花板問題。很多研究者不買單,但 OpenAI 顯然是先假設可以做到,再回頭補工程。
他們也挑了比較好驗證的任務。像數學競賽、程式挑戰。這些題目有明確答案。模型做對了,就很容易看出來。這比開放式科學研究更好管理。因為後者常常沒有標準解,還一堆模糊地帶。
數據很猛,但錯誤也很真實
這裡就要踩煞車了。Allen Institute for AI 的研究科學家 Doug Downey 說過,他們去年夏天測了幾個頂級 LLM 的科學任務。結果是,GPT-5 表現最好,但錯誤還是很多。這句話很重要。因為研究工作不是單點答題,而是一串步驟。
只要中間一環出錯,整個結果就會歪掉。這和一般聊天完全不同。你叫模型寫一段 code,它可能看起來很順。你叫它連續做十步研究,它每一步都可能累積一點偏差。最後不是小失誤,是整包報廢。
OpenAI 也不是沒看到這件事。它現在把 GPT-5 接到 Codex 裡。甚至在訪談前兩週,還發了 GPT-5.4。這代表公司真的把模型迭代,當成研究代理的燃料。只是燃料夠不夠,還是另一回事。
- GPT-5 在科學任務上拿到最好成績
- 但 Downey 團隊仍看到大量錯誤
- OpenAI 內部已把 Codex 納入日常流程
- 研究代理最怕的是錯誤一路累積
我覺得這裡最實際的例子,是 Pachocki 自己的工作方式。他說自己還是喜歡用 Vim 手打 code。可是他現在會讓模型跑週末實驗。這種差異很有感。不是炫技,是省時間。研究者最懂這種差別。
OpenAI 也不是唯一玩家。Claude Code 已經把 agent 寫程式這條路做得很明顯。Google DeepMind 也一直在推自己的 agent 研究系統。差別在於,OpenAI 這次把整家公司押在同一個目標上,還直接寫了日期。日期很殘酷。也很誠實。
真正的難題,是失誤會一路疊上去
如果你把研究工作交給 agent,最大問題不是會不會答題。最大問題是,它會不會在第 3 步、第 7 步、第 12 步都默默犯錯。每一個小錯,單看都不大。串起來就很麻煩。這也是為什麼自動化研究,比一般自動化 coding 難很多。
Pachocki 也沒有迴避安全問題。他提到,OpenAI 一直在討論風險。像是模型誤判、駭入、錯讀指令。更麻煩的是,如果系統能自己跑完整研究流程,它也可能幫忙產生惡意的 cyber 想法,甚至碰到生物安全問題。
OpenAI 現在的解法之一,是 chain-of-thought monitoring。簡單說,就是看模型的草稿推理,再用其他模型去盯。這招有用,但不是萬靈丹。因為真要高自治,光看草稿還不夠。你還得知道它到底有沒有走偏。
這裡可以很直接地說。自治越高,人工審查越難補。sandbox 有用。監控有用。人類複核也有用。可是一旦系統真的很會做事,驚喜和驚嚇就會一起來。這不是悲觀,是工程常識。
放到產業脈絡看,這件事很合理
如果把時間拉長,你會發現這條路其實很順。先是聊天模型。再來是寫程式助手。接著是能自己跑工具的 agent。下一步自然就是研究代理。OpenAI 不是突然發瘋,它只是把這條路講得更白。
對開發者來說,這也很像過去 10 年的工具演進。先有 IDE。再有自動補全。再有雲端 CI。現在則是把一部分探索工作交給模型。你可以不喜歡,但方向很清楚。誰先把流程做穩,誰就先拿到生產力。
不過我也不會把這件事講得太神。研究不是只有算力。還有資料品質、實驗設計、錯誤歸因、可重現性。這些東西都很髒。LLM 很會講話,不代表它很會做研究。這中間差一大截。
所以 OpenAI 的 9 月目標,比較像測試線。不是終點。它會告訴大家,現有模型到底能不能撐住長流程。如果連自主研究實習生都做不穩,2028 的多代理研究員就只是口號。如果做得出來,那就代表 agent 真的開始碰到實務邊界了。
接下來,先看它能不能少犯錯
我自己的判斷很簡單。這套系統第一版,應該會在窄範圍內有用。像是跑實驗、整理文獻、寫小型分析腳本。可是一碰到模糊題目,它就可能開始亂飄。研究最怕的,就是看起來很像對,實際上全錯。
如果 OpenAI 真的在 9 月前端出雛形,重點不是它多會聊天。重點是它能不能在 10 步、20 步的流程裡,把錯誤率壓下來。這才是研究代理的生死線。不是 demo 有多帥,是結果能不能站得住。
所以我會先盯兩件事。第一,錯誤率有沒有下降。第二,人工介入要多少次。只要這兩個數字沒改善,研究員這個稱號就還太早。你會想問,OpenAI 會不會真的做成?我的答案是:先看它能不能少翻車,再談研究員。