[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-tested-devin-10-tasks-finished-3-zh":3,"tags-tested-devin-10-tasks-finished-3-zh":33,"related-lang-tested-devin-10-tasks-finished-3-zh":49,"related-posts-tested-devin-10-tasks-finished-3-zh":53,"series-ai-agent-21805270-d3b7-4155-8e3f-2c650cef3315":90},{"id":4,"title":5,"content":6,"summary":7,"source":8,"source_url":9,"author":10,"image_url":11,"keywords":12,"language":21,"translated_content":10,"views":22,"is_premium":23,"created_at":24,"updated_at":24,"cover_image":11,"published_at":25,"rewrite_status":26,"rewrite_error":10,"rewritten_from_id":27,"slug":28,"category":29,"related_article_id":30,"status":31,"google_indexed_at":32,"x_posted_at":10,"tweet_text":10,"title_rewritten_at":10,"title_original":10,"key_takeaways":10,"topic_cluster_id":10,"embedding":10,"is_canonical_seed":23},"21805270-d3b7-4155-8e3f-2c650cef3315","我測了 Devin 10 個任務，只做完 3 個","\u003Cp>\u003Ca href=\"https:\u002F\u002Fwww.cognition.ai\u002Fblog\u002Fdevin-2\" target=\"_blank\" rel=\"noopener\">Devin\u003C\u002Fa> 被包裝成 AI 軟體工程師。\u003Ca href=\"https:\u002F\u002Fwww.swebench.com\u002F\" target=\"_blank\" rel=\"noopener\">SWE-bench\u003C\u002Fa> 只給它 13.86%。這次實測更直接，10 個真實任務，只做完 3 個。說真的，這數字很刺眼。\u003C\u002Fp>\u003Cp>但這種結果很有價值。因為它不是玩具題目。它碰到的是 bug fix、migration、feature、test、refactor，還有架構題。這些才是開發者每天會遇到的東西。\u003C\u002Fp>\u003Cp>你可能會想問。那 Dev\u003Ca href=\"\u002Fnews\u002Fchainalysis-ai-agents-crypto-investigations-zh\">in\u003C\u002Fa> 到底是能用，還是只是行銷很會講？答案比較尷尬。它能處理一部分小任務。可是一碰到資料安全、系統約束、或多步驟決策，就常常開始飄。\u003C\u002Fp>\u003Ch2>這 10 個任務到底怎麼測\u003C\u002Fh2>\u003Cp>這次測試不是空想。它拿的是活著的 codebase 裡的 backlog 項目。每個任務都有清楚說明。也有驗收條件。這很重要。因為很多 AI 工具在短 p\u003Ca href=\"\u002Fnews\u002Fkiro-aws-healthomics-bioinformatics-workflow-zh\">ro\u003C\u002Fa>mpt 看起來很猛。真的進到專案，就開始撞牆。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775167981590-g2tr.png\" alt=\"我測了 Devin 10 個任務，只做完 3 個\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>任務分布也刻意拉開。不是只測改一行字。它包含 2 個 bug fix、2 個 migration、2 個新功能、2 組測試、1 個 refactor，還有 1 個架構題。這樣才看得出來，它是會做事，還是只會套模板。\u003C\u002Fp>\u003Cp>這種拆法很合理。因為軟體工作本來就分層。低風險任務，像修字串或補測試，AI 很容易上手。高風險任務，像 schema 變更、併發處理、資料回填，就完全是另一回事。\u003C\u002Fp>\u003Cp>以下是這次的工作類型：\u003C\u002Fp>\u003Cul>\u003Cli>2 個 bug fix：日期解析錯誤、API 回應破版\u003C\u002Fli>\u003Cli>2 個 migration：資料表結構調整、套件升級\u003C\u002Fli>\u003Cli>2 個新功能：webhook 處理器、使用者設定頁\u003C\u002Fli>\u003Cli>2 組測試：auth 單元測試、payments 整合測試\u003C\u002Fli>\u003Cli>1 個 refactor：抽出共用工具模組\u003C\u002Fli>\u003Cli>1 個架構題：多租戶 API 的快取層\u003C\u002Fli>\u003C\u002Ful>\u003Cp>結果很直接。Devin 完成了 2 個 bug fix 和 1 組測試。其他任務，多半是偏掉，或產出要大修的程式碼。30% 看起來比 13.86% 好。可是在真實團隊裡，7 個失敗就會變成 7 個要收拾的坑。\u003C\u002Fp>\u003Ch2>它做對了什麼\u003C\u002Fh2>\u003Cp>最漂亮的是日期解析那題。Devin 找到根因。它抓到了時區邊界問題。也把夏令時間的情境一起處理掉。這種任務很適合 AI。範圍小。線索明確。錯誤也常常是局部的。\u003C\u002Fp>\u003Cp>API 回應破版那題也不差。它追到序列化流程。找到 response schema 少了一個欄位。然後直接補上。沒有多餘抽象。沒有亂加一堆 hel\u003Ca href=\"\u002Fnews\u002Fcuda-cp-async-ampere-hbm-latency-zh\">per\u003C\u002Fa>。這種修補型工作，它確實有機會省時間。\u003C\u002Fp>\u003Cp>測試生成也有幫助。它幫 auth 模組寫出一組像樣的 unit test。核心路徑都有覆蓋。當然，它還是漏了一些 token 過期的邊界情境。可是在 boilerplate 這一段，已經能省下不少手工時間。\u003C\u002Fp>\u003Cp>這也很像現在很多團隊的經驗。AI coding agent 最好用的時候，是任務已經長得很清楚。成功條件也很明確。只要開始牽涉判斷，它的穩定度就掉得很快。\u003C\u002Fp>\u003Cblockquote>“We are still in the very early days of AI agents,” said \u003Ca href=\"https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Fresearch\u002Fpeople\u002Fandrejk\u002F\" target=\"_blank\" rel=\"noopener\">Andrej Karpathy\u003C\u002Fa> in his February 2023 talk on software 2.0 and large language models. “The LLM is a new kind of operating system.”\u003C\u002Fblockquote>\u003Cp>Karpathy 這句話很準。講白了，這些工具不是來取代開發流程。它們是插進流程裡的一層。當這層只做一件事，它就有用。當它要自己決定產品方向，它就常常開始亂猜。\u003C\u002Fp>\u003Cp>所以問題不是它會不會寫 code。它會。問題是，它能不能在有限範圍內，穩穩寫對。這才是團隊真正關心的事。\u003C\u002Fp>\u003Ch2>它在哪裡翻車\u003C\u002Fh2>\u003Cp>migration 那題最危險。Devin 產出了一個會截斷欄位值的方案。它還先把資料複製過去，再刪掉舊欄位。這種錯在 production 不是小事。這是會出事的資料風險。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775167981040-bgc2.png\" alt=\"我測了 Devin 10 個任務，只做完 3 個\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>webhook 功能也很妙。它卡到架構選擇時，沒有選邊站。結果同步流程和 queue 流程都寫進去。還放在同一個檔案裡。看起來像做完了。其實是兩套邏輯互相打架。\u003C\u002Fp>\u003Cp>快取層那題更明顯。題目要的是多租戶 API cache。它回了一個單租戶的 in-memory cache。這不是小失誤。這是直接忽略限制條件。等於只看到「cache」，沒看到「multi-tenant」。\u003C\u002Fp>\u003Cp>這種錯很麻煩。因為它不是單純寫錯語法。它是沒抓到系統邊界。對工程來說，最貴的常常不是寫程式。是判斷哪些地方不能動。\u003C\u002Fp>\u003Cul>\u003Cli>migration 有資料截斷風險\u003C\u002Fli>\u003Cli>webhook 出現兩條互相衝突的流程\u003C\u002Fli>\u003Cli>快取設計忽略多租戶限制\u003C\u002Fli>\u003Cli>feature 任務缺少產品判斷\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這也解釋了，為什麼它在小修補表現比較好。因為小任務的約束少。大任務的約束多。越多約束，就越容易讓模型選錯路。\u003C\u002Fp>\u003Ch2>數字怎麼看才不會被話術騙\u003C\u002Fh2>\u003Cp>\u003Ca href=\"https:\u002F\u002Fwww.swebench.com\u002F\" target=\"_blank\" rel=\"noopener\">SWE-bench\u003C\u002Fa> 的 13.86% 很低。這個 benchmark 不像一般玩具題。它要求模型讀 issue、看 codebase、再做正確修改。也就是說，它測的是實戰感，不是背答案。\u003C\u002Fp>\u003Cp>這次實測的 3\u002F10，換算是 30%。表面上看，比 benchmark 好很多。可是真實開發不是只有完成率。還要算 review、修正、重跑、和 cleanup。這些成本加上去，效率常常會縮水。\u003C\u002Fp>\u003Cp>價格也值得看。Devin 一開始月費是 500 美元，後來降到 20 美元。這已經跟 \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fclaude-code\" target=\"_blank\" rel=\"noopener\">Claude Code\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fcursor.com\u002F\" target=\"_blank\" rel=\"noopener\">Cursor\u003C\u002Fa> 的定位開始重疊。價格壓低，通常代表它還在找自己的實用場景。\u003C\u002Fp>\u003Cp>幾個工具的差別，可以這樣看：\u003C\u002Fp>\u003Cul>\u003Cli>\u003Ca href=\"https:\u002F\u002Fwww.cognition.ai\u002Fblog\u002Fdevin-2\" target=\"_blank\" rel=\"noopener\">Devin\u003C\u002Fa>：偏自動化，但容易走歪\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fclaude-code\" target=\"_blank\" rel=\"noopener\">Claude Code\u003C\u002Fa>：互動式，保留人類決策\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fcursor.com\u002F\" target=\"_blank\" rel=\"noopener\">Cursor\u003C\u002Fa>：適合編輯與 review\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Ffeatures\u002Fcopilot\" target=\"_blank\" rel=\"noopener\">GitHub Copilot\u003C\u002Fa>：擅長補全和 boilerplate\u003C\u002Fli>\u003C\u002Ful>\u003Cp>重點在控制權。Devin 想自己做完。Claude Code 和 Cursor 讓人類一直在迴路裡。這次測試裡，後者反而更實際。因為錯了也比較早發現，不會一路錯到底。\u003C\u002Fp>\u003Cp>講白了，便宜不等於划算。工具如果會自己亂跑 40 分鐘，再吐一坨壞 code，20 美元也可能很貴。反過來，一個能讓你少走冤枉路的工具，才真的有價值。\u003C\u002Fp>\u003Ch2>這對團隊代表什麼\u003C\u002Fh2>\u003Cp>如果你的 backlog 裡，大多是小型 bug fix、測試補強、套件升級，那 Devin 可能真的能幫上忙。這些任務範圍窄。驗收條件也清楚。AI 比較容易交出可用草稿。\u003C\u002Fp>\u003Cp>但如果是 schema 設計、多步驟功能、或任何不能出錯的資料操作，就要小心。這時候它還是需要人盯著。不是看一眼就好。是要真的 review，真的驗證。\u003C\u002Fp>\u003Cp>對 solo developer 來說，它有時候像一個會自己跑去寫草稿的實習生。你可以先丟一個小任務給它。自己去處理別的事情。等回來再修。這種用法比較務實。\u003C\u002Fp>\u003Cp>對團隊來說，ROI 就沒那麼直覺。因為 review 和修正都要算進去。只要任務稍微複雜，省下的時間很容易被吃回去。這也是很多 AI coding agent 現在卡住的地方。\u003C\u002Fp>\u003Cp>我自己的判斷很簡單。Devin 比較像「AI 初階助理」。它能處理結構清楚的 ticket。它不是可以放手的資深工程師。更不是可以自己扛一整個 sprint 的人。\u003C\u002Fp>\u003Cp>如果你現在要評估它，我會建議你只拿 20% 的重複工作去試。像是補測試、改小 bug、整理 boilerplate。不要拿架構題、資料安全題、或產品判斷題去硬碰。那樣只會浪費時間。\u003C\u002Fp>\u003Ch2>接下來該怎麼看 AI coding agent\u003C\u002Fh2>\u003Cp>這波工具熱潮，已經把一件事講得很清楚。AI 會寫 code。這件事早就不是新聞。真正的問題，是它能不能在有約束的情境下，少犯錯。\u003C\u002Fp>\u003Cp>我覺得接下來 12 個月，大家會更重視「可控性」而不是「自動化」這個詞。因為在真實專案裡，能被人類快速接手的工具，通常比全自動但不穩的工具更有用。\u003C\u002Fp>\u003Cp>所以問題不是要不要用 Devin。問題是你要拿它做什麼。你如果把它當成草稿機，它還行。你如果把它當成主力工程師，那就太早了。真的，太早了。\u003C\u002Fp>\u003Cp>下一步最實際的做法，是先挑 5 個低風險任務測它。看它能不能穩定完成。再看 review 成本。只要 cleanup 時間比產出還多，答案就很明顯了。\u003C\u002Fp>","Devin 在 SWE-bench 只拿 13.86%，實測 10 個真實任務也只完成 3 個。這篇拆解它在哪些工作能用、哪些地方會亂掉。","dev.to","https:\u002F\u002Fdev.to\u002Falanwest\u002Fi-gave-devin-10-real-tasks-it-completed-3-3063",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775167981590-g2tr.png",[13,14,15,16,17,18,19,20],"Devin","AI coding agent","SWE-bench","Claude Code","Cursor","GitHub Copilot","人工智慧","軟體工程","zh",2,false,"2026-04-02T22:12:37.165364+00:00","2026-04-02T22:12:37.14+00:00","done","948ad51d-4103-4d34-ad2b-c53977908c5c","tested-devin-10-tasks-finished-3-zh","ai-agent","1a496462-2097-4efc-9a2b-17e192da4c86","published","2026-04-08T09:00:48.053+00:00",[34,36,37,39,41,43,45,48],{"name":17,"slug":35},"cursor",{"name":19,"slug":19},{"name":14,"slug":38},"ai-coding-agent",{"name":18,"slug":40},"github-copilot",{"name":13,"slug":42},"devin",{"name":16,"slug":44},"claude-code",{"name":46,"slug":47},"SWE-Bench","swe-bench",{"name":20,"slug":20},{"id":30,"slug":50,"title":51,"language":52},"tested-devin-10-tasks-finished-3-en","I Tested Devin on 10 Tasks. It Finished 3.","en",[54,60,66,72,78,84],{"id":55,"slug":56,"title":57,"cover_image":58,"image_url":58,"created_at":59,"category":29},"e7874ed9-592f-4e06-b7b7-ab733fe779db","claude-agent-dreaming-outcomes-multiagent-zh","Claude 幫 Agent 加了做夢功能","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778868642412-7woy.png","2026-05-15T18:10:24.427608+00:00",{"id":61,"slug":62,"title":63,"cover_image":64,"image_url":64,"created_at":65,"category":29},"38406a12-f833-4c69-ae22-99c31f03dd52","switch-ai-outputs-markdown-to-html-zh","怎麼把 AI 輸出改成 HTML","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778743243861-8901.png","2026-05-14T07:20:21.545364+00:00",{"id":67,"slug":68,"title":69,"cover_image":70,"image_url":70,"created_at":71,"category":29},"c7c69fe4-97e3-4edf-a9d6-a79d0c4495b4","anthropic-cat-wu-proactive-ai-assistants-zh","Cat Wu 談 Claude 的主動式 AI","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778735455993-gnw7.png","2026-05-14T05:10:30.453046+00:00",{"id":73,"slug":74,"title":75,"cover_image":76,"image_url":76,"created_at":77,"category":29},"e1d6acda-fa49-4514-aa75-709504be9f93","how-to-run-hermes-agent-on-discord-zh","如何在 Discord 執行 Hermes Agent","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778724655796-cjul.png","2026-05-14T02:10:34.362605+00:00",{"id":79,"slug":80,"title":81,"cover_image":82,"image_url":82,"created_at":83,"category":29},"4104fa5f-d95f-45c5-9032-99416cf0365c","why-ragflow-is-the-right-open-source-rag-engine-to-self-host-zh","為什麼 RAGFlow 是最適合自架的開源 RAG 引擎","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778674262278-1630.png","2026-05-13T12:10:23.762632+00:00",{"id":85,"slug":86,"title":87,"cover_image":88,"image_url":88,"created_at":89,"category":29},"7095f05c-34f5-469f-a044-2525d2010ce9","how-to-add-temporal-rag-in-production-zh","如何在正式環境加入 Temporal RAG","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778667053844-osvs.png","2026-05-13T10:10:30.930982+00:00",[91,96,101,106,111,116,121,126,131,136],{"id":92,"slug":93,"title":94,"created_at":95},"4ae1e197-1d3d-4233-8733-eafe9cb6438b","claude-now-uses-your-pc-to-finish-tasks-zh","Claude 開始幫你操作電腦","2026-03-26T07:20:48.457387+00:00",{"id":97,"slug":98,"title":99,"created_at":100},"5bede67f-e21c-413d-9ab8-54a3c3d26227","googles-2026-ai-agent-report-decoded-zh","Google 2026 AI Agent 報告解讀","2026-03-26T11:15:22.651956+00:00",{"id":102,"slug":103,"title":104,"created_at":105},"2987d097-563f-46c7-b76f-b558d8ef7c2b","kimi-k25-review-stronger-still-not-legend-zh","Kimi K2.5 評測：更強，但還不是神作","2026-03-27T07:15:55.277513+00:00",{"id":107,"slug":108,"title":109,"created_at":110},"95c9053b-e3f4-4cb5-aace-5c54f4c9e044","claude-code-controls-mac-desktop-zh","Claude Code 也能操控 Mac 了","2026-03-28T03:01:58.58121+00:00",{"id":112,"slug":113,"title":114,"created_at":115},"dc58e153-e3a8-4c06-9b96-1aa64eabbf5f","cloudflare-100x-faster-ai-agent-sandbox-zh","Cloudflare 的 AI 沙箱跑超快","2026-03-28T03:09:44.142236+00:00",{"id":117,"slug":118,"title":119,"created_at":120},"1c8afc56-253f-47a2-979f-1065ff072f2a","openai-backs-isara-agent-swarm-bet-zh","OpenAI 挺 Isara 的 agent swarm …","2026-03-28T03:15:27.513155+00:00",{"id":122,"slug":123,"title":124,"created_at":125},"7379b422-576e-45df-ad5a-d57a0d9dd467","openai-plan-automated-ai-researcher-zh","OpenAI 想做自動化 AI 研究員","2026-03-28T03:17:42.090548+00:00",{"id":127,"slug":128,"title":129,"created_at":130},"48c9889e-86df-450b-a356-e4a4b7c83c5b","harness-engineering-ai-agent-reliability-2026-zh","駕馭工程：從「馬具」到「作業系統」，AI Agent 可靠性的終極密碼","2026-03-31T06:42:53.556721+00:00",{"id":132,"slug":133,"title":134,"created_at":135},"e41546b8-ba9e-455f-9159-88d4614ad711","openai-codex-plugin-claude-code-zh","OpenAI 把 Codex 放進 Claude Code","2026-04-01T09:21:54.687617+00:00",{"id":137,"slug":138,"title":139,"created_at":140},"96d8e8c8-1edd-475d-9145-b1e7a1b02b65","mcp-explained-from-prompts-to-production-zh","MCP 怎麼把提示詞變工作流","2026-04-01T09:24:39.321274+00:00"]