[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-ai-anomaly-response-multi-agent-root-cause-zh":3,"article-related-ai-anomaly-response-multi-agent-root-cause-zh":29,"series-industry-17693e5b-c1f6-4e3a-b222-bbb6451456a9":83},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":11,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":11},"17693e5b-c1f6-4e3a-b222-bbb6451456a9","ai-anomaly-response-multi-agent-root-cause-zh","AI異常處置走向多Agent協作","\u003Cp>5月22日，\u003Ca href=\"https:\u002F\u002Fwww.xcops.com.cn\u002F\" target=\"_blank\" rel=\"noopener\">XCOPS智能運維管理人年會\u003C\u002Fa>廣州站，要把AI異常處置搬上檯面。這次不是空談概念。公開資訊直接丟出4個技術點：時間序列異常偵測、下鑽分析、日誌聚類、多Age\u003Ca href=\"\u002Fnews\u002Faustralia-anthropic-ai-safety-mou-zh\">nt\u003C\u002Fa>根因定位。\u003C\u002Fp>\u003Cp>說白了，這已經不是「有沒有AI」的問題。這是在問，故障來了之後，系統能不能自己找線索。對SRE、AIOps、資料平台團隊來說，這種流程如果跑順，值班壓力會差很多。\u003C\u002Fp>\u003Cp>更重要的是，這場分享來自\u003Ca href=\"https:\u002F\u002Fwww.aliyun.com\u002F\" target=\"_blank\" rel=\"noopener\">阿里雲\u003C\u002Fa>計算平台智能運維算法團隊。它談的不是 demo，而是會落到\u003Ca href=\"https:\u002F\u002Fwww.alibabacloud.com\u002Fproduct\u002Fmaxcompute\" target=\"_blank\" rel=\"noopener\">MaxCompute\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.aliyun.com\u002Fproduct\u002Fflink\" target=\"_blank\" rel=\"noopener\">Flink\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.aliyun.com\u002Fproduct\u002Fdataworks\" target=\"_blank\" rel=\"noopener\">DataWorks\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.aliyun.com\u002Fproduct\u002Fai\u002Fpaas\u002Fpai\" target=\"_blank\" rel=\"noopener\">PAI\u003C\u002Fa>這種真實產品線。這點很關鍵。因為線上故障不會等你慢慢實驗。\u003C\u002Fp>\u003Ch2>為什麼異常處置變成AI題目\u003C\u002Fh2>\u003Cp>運維最花時間的，不是收到告警。是搞懂告警在吵什麼。指標飄一下，可能是流量變化，也可能是任務堆積。再不然，就是依賴服務慢了，或資料延遲了。人工排查時，工程師通常要先看監控，再翻日誌，再查呼叫鏈。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775496631661-ga19.png\" alt=\"AI異常處置走向多Agent協作\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>如果系統一多，這個流程就很痛。尤其是大資料平台，任務多、鏈路長、元件雜。單一告警常常只是表面症狀。你看到的是 CPU 飆高，背後可能是排程卡住。你看到的是延遲升高，根因可能在上游資料源。\u003C\u002Fp>\u003Cp>阿里雲這次的方向很直接。先用通用時間序列異常偵測抓出問題。再靠下鑽分析和日誌聚類縮小範圍。最後讓多個 Age\u003Ca href=\"\u002Fnews\u002Fmoneygram-pairpoint-etoro-midnight-node-operators-zh\">nt\u003C\u002Fa> 分工做根因定位。這種設計的重點，不是把人趕走，而是把最耗時的搜尋和比對交給模型。\u003C\u002Fp>\u003Cul>\u003Cli>異常發現：時間序列模型先抓波動\u003C\u002Fli>\u003Cli>問題定界：下鑽分析配合日誌聚類\u003C\u002Fli>\u003Cli>根因定位：多Agent分工查線索\u003C\u002Fli>\u003Cli>平台落地：接到異常處置平台，形成閉環\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>多Agent的重點，不是多，是分工\u003C\u002Fh2>\u003Cp>很多人聽到多Agent，第一個反應是「是不是很多模型一起聊天」。講白了，這種想像太表面。真正能落地的多Agent系統，重點是角色切分。每個 Agent 做一件事，然後把結果串起來。\u003C\u002Fp>\u003Cp>在異常處置裡，這種分工很實用。有的 Agent 看指標。有的 Agent 查日誌。有的 Agent 負責工具呼叫。有的 Agent 整理證據，拼出因果鏈。這樣做的好處很明顯。模型不用一次吞下全部上下文。工程上也比較好控權限、審計和工具邊界。\u003C\u002Fp>\u003Cp>這次分享的講者是\u003Ca href=\"https:\u002F\u002Fwww.aliyun.com\u002F\" target=\"_blank\" rel=\"noopener\">阿里雲\u003C\u002Fa>算法專家張穎瑩。她在智能運維領域做了8年，長期支援 MaxCompute、Fli\u003Ca href=\"\u002Fnews\u002Fbuild-crypto-ai-agent-bankr-zerion-zh\">nk\u003C\u002Fa>、DataWorks、PAI 等產品。她也參與過\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Falibaba\u002FSREWorks\" target=\"_blank\" rel=\"noopener\">SREWorks\u003C\u002Fa>開源大資料運維平台開發，還參與中國信通院《智能運維能力成熟度模型》標準編寫。這種背景，代表她講的不是紙上談兵。\u003C\u002Fp>\u003Cblockquote>“用產品和服務支撐計算平台 MaxCompute、Flink、Dataworks、PAI 等多個大數據&amp;AI產品的智能化運維。” —— 張穎瑩，阿里雲計算平台智能運維算法團隊負責人\u003C\u002Fblockquote>\u003Cp>這句話很直白。它把目標講清楚了。不是做一個漂亮模型，而是把模型塞進產品鏈路，持續處理線上問題。這才是企業最在意的地方。\u003C\u002Fp>\u003Ch2>和傳統AIOps比，差在閉環速度\u003C\u002Fh2>\u003Cp>傳統AIOps常見做法，是告警降噪、異常偵測、事件關聯。這些能力有用，但到根因定位時，常常還是要人接手。多Agent方案想做的事，是把「從告警到解釋」這段路縮短。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775496623820-og9d.png\" alt=\"AI異常處置走向多Agent協作\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>如果把流程攤開看，差別會很明顯。傳統流程裡，告警出來後，工程師可能要花 30 分鐘到數小時排查。AI 流程先把異常抓出來，再自動下鑽和聚類，先把候選範圍縮小。多Agent 流程則是讓不同角色並行工作，少掉很多單線排查的等待時間。\u003C\u002Fp>\u003Cp>阿里雲這次還提到工具箱建設。這點很現實。大模型再會講，如果拿不到監控、日誌、配置、變更紀錄，推理品質就會掉。工具越完整，Agent 越像真的運維同事，而不是只會講建議的聊天框。\u003C\u002Fp>\u003Cul>\u003Cli>傳統流程：人工看告警，常耗時 30 分鐘以上\u003C\u002Fli>\u003Cli>AI流程：先偵測，再下鑽，再聚類\u003C\u002Fli>\u003Cli>多Agent流程：並行查線索，減少等待\u003C\u002Fli>\u003Cli>平台化流程：把經驗沉澱成工具箱\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這也解釋了為什麼現在很多企業不缺模型，缺的是應用框架。模型要接權限系統、觀測系統、工單系統。能接進生產鏈路，才有機會把「發現問題」推進到「解決問題」。\u003C\u002Fp>\u003Ch2>廣州站透露的，是更務實的方向\u003C\u002Fh2>\u003Cp>這場分享放在XCOPS廣州站，訊號很清楚。AI運維已經不是「要不要做」的階段，而是「怎麼做才穩」的階段。大會議程還提到垂類Agent、人機協作、資料庫自治、金融核心改造。這代表業界關注點已經從單點模型，轉向系統級交付。\u003C\u002Fp>\u003Cp>再看張穎瑩的履歷，也很有說服力。她帶隊拿過ICASSP國際智能運維演算法大賽冠軍，研究成果也被 ICLR、KDD、VLDB、SIGMOD、ICDE、WWW、CIKM、ICASSP 等國際會議接收。對一個運維團隊來說，這種科研和工程雙線並進的背景，不算常見。\u003C\u002Fp>\u003Cp>我覺得，這次公開資訊最重要的地方，是它把問題講得很清楚。現在不是「模型能不能偵測異常」。而是「模型能不能在 5 分鐘內把異常說清楚」。這會直接影響運維團隊怎麼分工，也會影響監控產品怎麼設計。\u003C\u002Fp>\u003Cp>對正在做AIOps或資料平台自治的團隊，我的建議很直接。先別急著再加告警規則。先把日誌、指標、變更、拓樸、工單串起來。先做出一條能驗證的異常處置閉環。誰先跑通，誰就先少掉一堆夜班苦工。\u003C\u002Fp>\u003Ch2>這波變化，其實有產業背景\u003C\u002Fh2>\u003Cp>AI進運維，不是突然冒出來的。它是被線上系統逼出來的。雲端服務越多，元件越多，故障樣態就越碎。以前一個服務掛掉，人工看幾個節點就懂。現在一個問題可能牽動多個叢集、多條資料管線，還有跨區部署。\u003C\u002Fp>\u003Cp>所以，AIOps 的價值也在變。早期大家想解決的是告警太多。後來變成事件關聯。現在更進一步，是希望系統自己做初步判讀。這也是為什麼多Agent、日誌聚類、下鑽分析會一起出現。它們不是獨立功能，而是同一條流程的不同段落。\u003C\u002Fp>\u003Cp>從市場角度看，這種能力很可能先在大資料、AI 平台、金融核心系統落地。因為這些場景對停機最敏感，也最怕人工慢半拍。對一般中小型系統來說，可能還不需要這麼重的架構。但只要系統規模一上來，這些工具就會變得很實際。\u003C\u002Fp>\u003Cp>如果你是工程團隊，現在就該問一個問題：你的監控系統，能不能在 5 分鐘內給出 3 個可驗證的根因候選？如果答案還不行，那就代表還有很大的自動化空間。\u003C\u002Fp>\u003Ch2>接下來，看誰先把閉環做穩\u003C\u002Fh2>\u003Cp>我的判斷很直接。接下來 12 個月，真正有價值的不是更多告警，而是更快的根因定位。誰能把異常偵測、日誌聚類、多Agent 推理、工單處理串成一條鏈，誰就能把維運成本壓下來。\u003C\u002Fp>\u003Cp>如果你在做SRE、AIOps、資料平台，現在就可以開始盤點三件事。第一，監控資料夠不夠完整。第二，日誌和變更紀錄能不能打通。第三，現有流程能不能讓 Agent 介入。這三件事做完，才有機會把AI真的接進運維。\u003C\u002Fp>\u003Cp>講白了，未來不是看誰模型名字比較炫。是看誰能在真實伺服器環境裡，5 分鐘內把問題講清楚。這件事很土，但很值錢。\u003C\u002Fp>","XCOPS廣州站揭露阿里雲AIOps路線：異常偵測、日誌聚類、多Agent根因定位，正把維運流程做成自動化閉環。","zhuanlan.zhihu.com","https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F2022978898300792880",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775496631661-ga19.png","industry","zh","4bbed30b-b804-453b-b8d2-89b7719c7c48",[17,18,19,20,21,22,23,24,25],"AI異常處置","多Agent","AIOps","根因定位","智能運維","阿里雲","XCOPS","日誌聚類","異常偵測",2,"2026-04-04T00:06:35.169674+00:00","2026-04-06T17:25:13.634127+00:00",{"tags":30,"relatedLang":42,"relatedPosts":46},[31,33,34,35,36,37,38,40],{"name":18,"slug":32},"多agent",{"name":21,"slug":21},{"name":20,"slug":20},{"name":24,"slug":24},{"name":25,"slug":25},{"name":22,"slug":22},{"name":19,"slug":39},"aiops",{"name":23,"slug":41},"xcops",{"id":15,"slug":43,"title":44,"language":45},"ai-anomaly-response-multi-agent-root-cause-en","AI异常处置正在变成多Agent协作","en",[47,53,59,65,71,77],{"id":48,"slug":49,"title":50,"cover_image":51,"image_url":51,"created_at":52,"category":13},"9a0692ba-a9c5-42eb-823d-8a0e6e6ae3fc","openai-ipo-filing-turns-hype-into-scrutiny-zh","OpenAI IPO 讓神話變審核","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781042614962-bj12.png","2026-06-09T22:03:04.524304+00:00",{"id":54,"slug":55,"title":56,"cover_image":57,"image_url":57,"created_at":58,"category":13},"40d4f012-36b6-4b8f-b470-30242a0b8483","skatteetaten-public-sector-ai-should-be-judged-by-outcomes-zh","Skatteetaten 證明公部門 AI 應該看成果，不是看噱頭","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781038986405-p8cf.png","2026-06-09T21:02:32.1198+00:00",{"id":60,"slug":61,"title":62,"cover_image":63,"image_url":63,"created_at":64,"category":13},"f937e16b-7b3c-4ec8-b9f6-2b6031c6892c","openai-ipo-filing-wall-street-test-zh","OpenAI IPO 登場，華爾街先看這 5 件事","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781032675072-oq1m.png","2026-06-09T19:17:23.187013+00:00",{"id":66,"slug":67,"title":68,"cover_image":69,"image_url":69,"created_at":70,"category":13},"8258e540-397f-4566-8ae5-37582f3e3418","openai-latest-moves-pricing-safety-scale-zh","OpenAI 4 個最新動向：定價、安全、規模都在變","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781031777355-odh9.png","2026-06-09T19:02:26.913687+00:00",{"id":72,"slug":73,"title":74,"cover_image":75,"image_url":75,"created_at":76,"category":13},"5a3f8c97-afa9-43cd-a5f7-64a1fcfd99d2","risc-v-mini-pcs-worth-buying-now-future-bet-zh","RISC-V 迷你電腦現在值得買，但只適合押注未來","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781026383355-9003.png","2026-06-09T17:32:31.318476+00:00",{"id":78,"slug":79,"title":80,"cover_image":81,"image_url":81,"created_at":82,"category":13},"651bdda4-2566-4185-a33d-254862d4290d","fedora-44-risc-v-widens-linux-board-support-zh","Fedora 44 RISC-V 把支援面擴到 17 板","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781025476806-1woq.png","2026-06-09T17:17:24.257564+00:00",[84,89,94,99,104,109,114,119,124,129],{"id":85,"slug":86,"title":87,"created_at":88},"ee073da7-28b3-4752-a319-5a501459fb87","ai-in-2026-what-actually-matters-now-zh","2026 AI 真正重要的事","2026-03-26T07:09:12.008134+00:00",{"id":90,"slug":91,"title":92,"created_at":93},"83bd1795-8548-44c9-9a7e-de50a0923f71","trump-ai-framework-power-speech-state-preemption-zh","川普 AI 框架瞄準電力、言論與州權","2026-03-26T07:12:18.695466+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"ea6be18b-c903-4e54-97b7-5f7447a612e0","nvidia-gtc-2026-big-ai-announcements-zh","NVIDIA GTC 2026 重點拆解","2026-03-26T07:14:26.62638+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"4bcec76f-4c36-4daa-909f-54cd702f7c93","claude-users-spreading-out-and-getting-better-zh","Claude 用戶更分散，也更會用","2026-03-26T07:22:52.325888+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"bd903b15-2473-4178-9789-b7557816e535","openclaw-raises-hard-question-for-ai-models-zh","OpenClaw 逼問 AI 模型價值","2026-03-26T07:24:54.707486+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"eeac6b9e-ad9d-4831-8eec-8bba3f9bca6a","gap-google-gemini-checkout-fashion-search-zh","Gap 把結帳搬進 Gemini","2026-03-26T07:28:23.937768+00:00",{"id":115,"slug":116,"title":117,"created_at":118},"0740e53f-605d-4d57-8601-c10beb126f3c","google-pushes-gemini-transition-to-march-2026-zh","Google 把 Gemini 轉換延到 2026 年 3…","2026-03-26T07:30:12.825269+00:00",{"id":120,"slug":121,"title":122,"created_at":123},"e660d801-2421-4529-8fa9-86b82b066990","metas-llama-4-benchmark-scandal-gets-worse-zh","Meta Llama 4 分數風波又擴大","2026-03-26T07:34:21.156421+00:00",{"id":125,"slug":126,"title":127,"created_at":128},"183f9e7c-e143-40bb-a6d5-67ba84a3a8bc","accenture-mistral-ai-sovereign-enterprise-deal-zh","Accenture 攜手 Mistral AI 賣主權 AI","2026-03-26T07:38:14.818906+00:00",{"id":130,"slug":131,"title":132,"created_at":133},"191d9b1b-768a-478c-978c-dd7431a38149","mistral-ai-faces-its-hardest-year-yet-zh","Mistral AI 迎來最硬的一年","2026-03-26T07:40:23.716374+00:00"]