為什麼 DeepScientist 才是 AI 研究的正確形狀
DeepScientist 之所以適合 AI 研究,不是因為它最會聊天,而是因為它把長期研究做成可見、可續、可接手的流程。

DeepScientist 適合 AI 研究,因為它把長期工作放在同一個可追蹤、可中斷、可續跑的流程裡。
我認為 DeepScientist 是 AI 研究工具的正確形狀,因為研究真正卡住的不是模型不夠聰明,而是上下文斷裂、環境失敗、紀錄分散,最後連做過什麼都說不清楚。它主打 10 分鐘安裝、每個 quest 對應一個獨立 repo、進度可見、隨時可由人接手,還能接上 Codex、Claude Code、Kimi Code、OpenCode 這類 runner。這些特性看起來務實,實際上正中研究工作最痛的地方:把長期實驗維持在同一條可恢復的軌道上。
第一個論點
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
DeepScientist 先解的是研究流程裡最貴的成本:協調,而不是推理。它的 README 直接點出常見失敗模式,包括 baseline repo 環境壞掉、依賴裝不起來、結果散落在終端機和筆記裡、寫作和實驗分家。這不是小瑕疵,而是很多專案死掉的原因。對研究來說,真正浪費的往往不是算力,而是每次重建脈絡、重跑環境、重找檔案的時間。

把論文或問題轉成一個可執行的 quest,並且保留每一步的狀態,等於把研究從「一次性的對話」改成「可持續的工程」。這點很關鍵,因為研究成果的價值不是某一輪回答,而是整條決策鏈。若一個系統能把失敗、修正、重試、寫作都留在同一個地方,它就能讓進展累積,而不是每次都從零開始。
第二個論點
它的架構比一般 agent demo 更接近真實研究。每個 quest 都是一個真實 Git repository,這個選擇很對,因為 branch、worktree、檔案和 artifact 本來就是技術研究最自然的管理單位。以 Git 為核心,代表系統不必把重要狀態藏在黑盒裡,使用者可以直接看到哪些路徑成功、哪些路徑失敗、哪些修改還能回收。對工程師和研究者來說,這比「看起來很聰明」更重要。
它還強調 human takeover,這也是關鍵。很多自主系統一旦偏航,使用者就只能看著它一路錯下去,因為根本沒有辦法快速介入。DeepScientist 明確允許暫停、改計畫、改 code、再繼續,這表示它不是把自主性當噱頭,而是把可接手性當前提。對高風險的研究工作來說,這種設計比全自動更合理,因為一個壞環境、一個靜默回歸、一次錯誤結論,都可能浪費好幾天。
反方可能怎麼說
反方的批評其實很有力:研究不等於軟體工程,不是每個題目都適合被塞進 repo 中心、quest 中心、長時間自動跑的框架。有些工作依賴模糊的判斷、快速的直覺切換、或是高度情境化的人工推敲,這些都不容易被流程化。再加上任何強調持續執行的系統,都有把使用者推向過度自動化的風險,最後變成大家對機器太放心,反而少了對科學本身的質疑。

這個批評成立,但它限制的是適用範圍,不是否定整個方向。DeepScientist 本來就不是要取代所有研究行為,它最適合的是長週期、技術密集、需要重現性與實驗管理的工作。那種場景裡,結構不是官僚,而是槓桿。更重要的是,它是 local-first、可見、可暫停、可接手的,這些設計反而降低了盲目自動化的風險,因為人始終能看見系統做了什麼,也能立刻拉回來。
你能做什麼
如果你是工程師、PM 或創辦人,做 AI 研究工具時應該學 DeepScientist 的核心判斷:優先做連續性、可檢查性、可接手性,不要只拼聊天品質。把 durable state、明確 artifact、環境紀錄、決策歷史放進同一個工作區,讓中斷後可以續跑,讓失敗後可以追溯,讓人介入時不必重建整個上下文。若你是使用者,選工具時也該用同一標準檢查它:它能不能把實驗活著留住,直到你把研究做完。