[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-mimosa-evolving-multi-agent-science-workflows-zh":3,"tags-mimosa-evolving-multi-agent-science-workflows-zh":30,"related-lang-mimosa-evolving-multi-agent-science-workflows-zh":41,"related-posts-mimosa-evolving-multi-agent-science-workflows-zh":45,"series-research-360e622b-d834-4641-a7d3-5f60f9797146":82},{"id":4,"title":5,"content":6,"summary":7,"source":8,"source_url":9,"author":10,"image_url":11,"keywords":12,"language":18,"translated_content":10,"views":19,"is_premium":20,"created_at":21,"updated_at":21,"cover_image":11,"published_at":22,"rewrite_status":23,"rewrite_error":10,"rewritten_from_id":24,"slug":25,"category":26,"related_article_id":27,"status":28,"google_indexed_at":29,"x_posted_at":10,"tweet_text":10,"title_rewritten_at":10,"title_original":10,"key_takeaways":10,"topic_cluster_id":10,"embedding":10,"is_canonical_seed":20},"360e622b-d834-4641-a7d3-5f60f9797146","Mimosa 讓科學代理流程自己進化","\u003Cp>多數自動化科學系統，還是卡在固定流程。用哪些 agent、哪些工具、怎麼協作，常常一開始就寫死。\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fhtml\u002F2603.28986\">Mimosa Framework: Toward Evolving Multi-Agent Systems for Scientific Research\u003C\u002Fa> 這篇論文直接挑戰這個設計：與其做一條不變的多代理管線，不如讓系統針對任務自動組裝工作流，跑完之後再根據結果修正下一輪流程。\u003C\u002Fp>\u003Cp>這個方向對台灣開發者來說不陌生。很多 agent 系統 demo 看起來很強，但一換任務就失靈，原因往往不是模型不夠會講話，而是整體編排太僵硬。Mimosa 想處理的，就是這種「流程比模型更脆弱」的問題。\u003C\u002Fp>\u003Ch2>這篇論文想解什麼痛點\u003C\u002Fh2>\u003Cp>論文先從科學研究的現實困境切入。現在資料產生得很快，但把資料轉成可用知識，仍然需要時間、專業和算力。更麻煩的是，可重現性本來就有壓力：方法、工具、報告規範分散，後面要驗證結果時就更難。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775113458428-zcwq.png\" alt=\"Mimosa 讓科學代理流程自己進化\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>作者認為，現有的自動化科學研究系統有兩個明顯弱點。第一是長程執行不穩。任務拉長後，context 容易丟、注意力容易飄，重要資訊也可能在中途被捨棄。第二是架構太固定。很多系統依賴預先定義好的工具組合與協調規則，一旦工具失效、任務改變，或中途冒出新的需求，就很難快速重組。\u003C\u002Fp>\u003Cp>這點在真正的科學工作特別明顯。研究流程通常不是直線，而是反覆回頭修正。像計算藥物設計這類工作，可能會從虛擬篩選走到 docking，再走到分子動力學；每一步都可能推翻前一步的假設。論文的核心判斷是：固定管線不太適合這種會變動、會遞迴的流程。\u003C\u002Fp>\u003Ch2>Mimosa 的方法到底怎麼運作\u003C\u002Fh2>\u003Cp>Mimosa 的定位是「會演化的多代理框架」。它不是先設計一條固定 pipeline，而是先針對特定科學任務自動生成工作流，執行後再評估結果，接著把回饋拿來改進下一版流程。換句話說，系統不只會做事，還會改自己的做事方式。\u003C\u002Fp>\u003Cp>架構上，它是模組化、工具無關的，並透過 M\u003Ca href=\"\u002Fnews\u002Fclaude-code-source-leak-npm-sourcemap-zh\">ode\u003C\u002Fa>l Context Protocol，也就是 MCP，做動態工具探索。這代表它不必綁死在一組靜態整合上，工具有變、環境有變，理論上也能跟著調整。\u003C\u002Fp>\u003Cp>論文描述的流程大致分成幾層：可選的 p\u003Ca href=\"\u002Fnews\u002F8-hidden-claude-code-features-leaked-source-zh\">la\u003C\u002Fa>nning layer、tool discovery layer、負責生成工作流拓樸的 meta-orchestration layer、agent execution，最後是 evaluation。重點在 meta-orchestrator，它不是預設所有任務都用同一種 agent 排法，而是根據任務去決定 agent 應該怎麼排列、怎麼分工。\u003C\u002Fp>\u003Cp>執行階段則由會產生程式碼的 agents 來處理，它們可以呼叫可用工具與科學軟體函式庫。工作流跑完後，系統會用 LLM-based judge 來打分，然後把這個結果回饋到下一輪的 workflow refinement。也就是說，Mimosa 把「執行」和「改編」綁在一起，讓流程本身成為可學習的對象。\u003C\u002Fp>\u003Cp>這裡有兩個對實作很重要的細節。第一，Mimosa 透過 MCP 動態發現工具，不是只靠預先寫好的 integration。第二，它會保留完整的 execution traces，並把 workflow 存檔。這意味著每個分析步驟都能被檢視，對研究場景來說，這比單純產出一個答案更重要。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>從摘要公開的評估來看，Mimosa 在 ScienceAgentBench 上做了測試。使用 DeepSeek-V3.2 時，它的 succ\u003Ca href=\"\u002Fnews\u002Fclaude-code-harness-engineering-design-zh\">ess\u003C\u002Fa> rate 是 43.1%，而且作者表示這個結果超過單一 agent baseline，以及靜態多代理配置。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775113491971-kgij.png\" alt=\"Mimosa 讓科學代理流程自己進化\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這個數字至少說明一件事：在這個 benchmark 上，動態工作流設計確實有幫助，不只是把 agent 數量疊上去而已。論文的重點不是「更多 agent 就更好」，而是「工作流能不能根據任務演化」會影響結果。\u003C\u002Fp>\u003Cp>摘要也提到一個更細的觀察：不同模型對多代理拆解與迭代學習的反應不一樣。白話一點說，workflow evolution 不是對所有模型都同樣有效。這代表架構和模型能力是互相影響的，不是把任何模型包進這套框架就會自動變強。\u003C\u002Fp>\u003Cp>不過，這篇摘要沒有公開完整 benchmark 細節。像是完整表格、延遲時間、成本數字、或各任務的細部表現，摘要裡都沒有提供。就目前可見的資訊，只能確認它在作者報告的 benchmark 上，動態工作流優於單代理與靜態多代理方案。\u003C\u002Fp>\u003Ch2>對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你在做 agent 系統，Mimosa 提醒的是一個很實際的方向：設計目標不該只放在 prompt 調整，而是放在「工作流如何演化」。這對複雜任務特別有用，因為工具可用性、任務結構、甚至中間結果，都可能在執行途中改變。\u003C\u002Fp>\u003Cp>它也很貼近 production 會遇到的工程問題。很多團隊不是不想做 agent，而是怕系統太脆、太難查、太難重跑。Mimosa 的設計，剛好對應到幾個常見需求：\u003C\u002Fp>\u003Cul>\u003Cli>動態工具探索，而不是固定整合清單\u003C\u002Fli>\u003Cli>工作流自動生成，而不是一套流程打天下\u003C\u002Fli>\u003Cli>根據失敗結果反覆修正\u003C\u002Fli>\u003Cli>保留完整執行紀錄，方便稽核與檢查\u003C\u002Fli>\u003Cli>工具無關設計，方便跨科學領域延伸\u003C\u002Fli>\u003C\u002Ful>\u003Cp>對研究助理、實驗室自動化，或科學 copilot 這類應用來說，這種架構的價值在於它比較不像單體系統，而是比較像可組裝、可調整的協作層。論文也明確把它定位在 computationally accessible 的科學任務上，並提到某些情況下仍可結合 domain expert guidance。\u003C\u002Fp>\u003Ch2>限制、風險與還沒回答的問題\u003C\u002Fh2>\u003Cp>這篇論文的方向很有野心，但摘要也留下不少實務問題。首先，它沒有告訴我們迭代 refinement 會多花多少成本，也沒有說 latency 會增加多少。對要上線的系統來說，這些都很關鍵。\u003C\u002Fp>\u003Cp>其次，如果模型能力本身差異很大，那麼演化式編排的效果也可能差很多。摘要只說不同模型的反應不同，但沒有進一步說明哪些模型受益最大、哪些情況下幫助有限。這表示 Mimosa 比較像一個「放大模型能力」的架構，而不是可以無條件補強所有底層模型的萬用解。\u003C\u002Fp>\u003Cp>另外，雖然論文強調會保存 execution traces 與 archived workflows，這對可重現性是加分，但可重現性不會只靠存檔就結束。真正的科學驗證，還是要看別人能不能看懂、重跑、比較，並且接受同樣的流程在不同資料與任務下是否穩定。\u003C\u002Fp>\u003Cp>整體來看，Mimosa 提出了一個值得注意的判斷：在科學代理系統裡，workflow 可能跟模型本身一樣重要。當工具會變、任務會變、證據也會變時，固定 pipeline 很可能撐不久。Mimosa 嘗試把 orchestration layer 變成可演化的東西，這對正在做研究型 agent 的團隊來說，是一個很實際、也很值得追的方向。\u003C\u002Fp>\u003Cp>如果你正在設計自己的多代理系統，這篇論文最值得記住的不是某個單點技巧，而是整體思路：不要只問模型會不會答，還要問流程會不會跟著任務一起變。對很多科學工作來說，答案往往就藏在這裡。\u003C\u002Fp>","Mimosa 想解決科學代理系統太死板的問題：先自動組出工作流、執行、評分，再根據結果迭代調整。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fhtml\u002F2603.28986",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775113458428-zcwq.png",[13,14,15,16,17],"multi-agent systems","scientific research","workflow evolution","MCP","agent orchestration","zh",1,false,"2026-04-02T05:30:26.892841+00:00","2026-04-02T05:30:26.852+00:00","done","a5b367ae-2cb9-4385-a832-331fcd38df7d","mimosa-evolving-multi-agent-science-workflows-zh","research","6fc2f489-d3b6-4585-89d7-a4b955b8ad54","published","2026-04-09T09:00:51.576+00:00",[31,33,35,37,39],{"name":16,"slug":32},"mcp",{"name":15,"slug":34},"workflow-evolution",{"name":13,"slug":36},"multi-agent-systems",{"name":14,"slug":38},"scientific-research",{"name":17,"slug":40},"agent-orchestration",{"id":27,"slug":42,"title":43,"language":44},"mimosa-evolving-multi-agent-science-workflows-en","Mimosa builds evolving multi-agent science workflows","en",[46,52,58,64,70,76],{"id":47,"slug":48,"title":49,"cover_image":50,"image_url":50,"created_at":51,"category":26},"667b72b6-e821-4d68-80a1-e03340bc85f1","turboquant-seo-shift-small-sites-zh","TurboQuant 與小站 SEO 變化","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778840440690-kcw9.png","2026-05-15T10:20:27.319472+00:00",{"id":53,"slug":54,"title":55,"cover_image":56,"image_url":56,"created_at":57,"category":26},"381fb6c6-6da7-4444-831f-8c5eed8d685c","turboquant-vllm-comparison-fp8-kv-cache-zh","TurboQuant 與 FP8 實測結果","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778839867551-4v9g.png","2026-05-15T10:10:36.034569+00:00",{"id":59,"slug":60,"title":61,"cover_image":62,"image_url":62,"created_at":63,"category":26},"c15f45ee-a548-4dbf-8152-91de159c1a11","llmbda-calculus-agent-safety-rules-zh","LLMbda 演算替 AI 代理人立安全規則","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778825503412-mlbf.png","2026-05-15T06:10:34.832664+00:00",{"id":65,"slug":66,"title":67,"cover_image":68,"image_url":68,"created_at":69,"category":26},"0c02225c-d6ff-44f8-bc92-884c8921c4a3","low-complexity-beamspace-denoiser-mmwave-mimo-zh","更簡單的毫米波波束域去噪器","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778814650361-xtc2.png","2026-05-15T03:10:30.06639+00:00",{"id":71,"slug":72,"title":73,"cover_image":74,"image_url":74,"created_at":75,"category":26},"9d27f967-62cc-433f-8cdb-9300937ade13","ai-benchmark-wins-cyber-scare-defenders-zh","為什麼 AI 基準賽在資安領域的勝利，應該讓防守方警醒","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778807450006-nofx.png","2026-05-15T01:10:29.379041+00:00",{"id":77,"slug":78,"title":79,"cover_image":80,"image_url":80,"created_at":81,"category":26},"bc402dc6-5da6-46fc-9d66-d09cb215f72b","why-linux-security-needs-patch-wave-mindset-zh","為什麼 Linux 安全需要「補丁浪潮」思維","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778741449813-s2wn.png","2026-05-14T06:50:24.052583+00:00",[83,88,93,98,103,108,113,118,123,128],{"id":84,"slug":85,"title":86,"created_at":87},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":89,"slug":90,"title":91,"created_at":92},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"9f50561b-aebd-46ba-94a8-363198aa7091","openclaw-agents-manipulated-self-sabotage-zh","OpenClaw Agent 會自己搞砸自己","2026-03-28T03:03:18.786425+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"11f22e92-7066-4978-a544-31f5f2156ec6","vega-learning-to-drive-with-natural-language-instructions-zh","Vega：使用自然語言指示進行自駕車控制","2026-03-28T14:54:04.847912+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"a4c7cfec-8d0e-4fec-93cf-1b9699a530b8","drive-my-way-en-zh","Drive My Way：個性化自駕車風格的實現","2026-03-28T14:54:26.207495+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"dec02f89-fd39-41ba-8e4d-11ede93a536d","training-knowledge-bases-with-writeback-rag-zh","用 WriteBack-RAG 強化知識庫提升檢索效能","2026-03-28T14:54:45.775606+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"3886be5c-a137-40cc-b9e2-0bf18430c002","packforcing-efficient-long-video-generation-method-zh","PackForcing：短影片訓練也能生成長影片","2026-03-28T14:55:02.688141+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"72b90667-d930-4cc9-8ced-aaa0f8968d44","pixelsmile-toward-fine-grained-facial-expression-editing-zh","PixelSmile：提升精細臉部表情編輯的新方法","2026-03-28T14:55:20.678181+00:00",{"id":129,"slug":130,"title":131,"created_at":132},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00"]