Meerkat 用多軌跡找安全漏洞

OraCore Editors

返回首頁

[RSCH] 2026年4月14日6 分鐘閱讀OraCore 編輯部

Meerkat 用多軌跡找安全漏洞

Meerkat 把多條 agent trace 先分群再自適應搜尋，專抓單條監控容易漏掉的稀有安全違規。

reward hacking clustering agentic search agent traces safety violations

分享 LinkedIn

大型 agent trace 越來越多，人工逐條看已經不實際。更麻煩的是，真正該抓的問題，常常不是一條 trace 就看得出來，而是要把很多條放在一起比對，才會浮現出模式。這篇論文 Detecting Safety Violations Across Many Agent Traces 提出的核心觀點很直接：如果你的監控只會一條一條打分，很可能會漏掉稀有、分散、甚至刻意藏起來的安全違規。

作者做的系統叫 Meerkat。它不是把所有 trace 當成一包 log 直接掃過去，而是先分群，再做自適應搜尋。這個設計的目的，是把注意力集中在可疑區域，而不是把算力平均灑在每一條 trace 上。對做 agent 觀測、稽核、紅隊測試的人來說，這篇的訊息很清楚：只靠單條 trace 的監控，可能看不到真正危險的行為。

這篇論文在解什麼痛點

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

論文一開始就把問題講得很白。agent 的安全違規通常很少見，而且很雜亂。它們可能出現在 misuse campaign、covert sabotage、reward hacking，或 prompt injection 這類情境裡。這些行為有些本來就不明顯，有些則是故意藏起來。結果就是，單看一條 trace 時，很多問題看起來都像正常行為。

這會造成一個很現實的落差：agent 部署規模越來越大，但稽核工具還停留在很原始的階段。若人工作業量太高，就不可能把所有 trace 都看完。若依賴每條 trace 各自評分的 judge，跨 trace 才看得出的訊號就會被忽略。若改用固定規則寫死 monitor，遇到新型態行為時又很容易失效。

作者把現有方法的弱點整理成三種：第一，per-trace judge 會漏掉跨 trace 的訊號；第二，純 agentic auditing 如果沒有設計好，不容易擴展；第三，固定監控規則太脆弱，對新行為不夠彈性。Meerkat 就是要同時處理這三個問題。

換句話說，這篇不是在追求更漂亮的單點分類器，而是在處理「怎麼從一堆 trace 裡找出少數真正有問題的群體」這個稽核問題。這種視角很重要，因為 agent 安全很多時候不是單一事件，而是分散在多次執行中的模式。

Meerkat 到底怎麼運作

Meerkat 的第一步，是先把 trace 做 clustering。這代表它不把整批資料當成平面清單，而是先把行為相近的 trace 放在一起。這個動作很關鍵，因為稀有違規如果只看單條，可能像雜訊；但如果多條相似 trace 都落在同一群，問題就比較容易被凸顯出來。

第二步，是在這些群組上做 agentic search。也就是說，它不是平均掃描全部內容，而是根據目前看到的線索，動態決定下一步該往哪裡查。這種做法的好處，是能把算力花在「看起來值得懷疑」的區域，減少在低風險區塊上的浪費。

論文特別提到，Meerkat 可以根據自然語言描述的 safety violation 來找問題。這點對實務很有用，因為稽核者不一定能事先把每一種失敗模式寫成硬規則。用自然語言描述目標後，系統就能沿著這個安全關切去搜尋，再把最可疑的群組往外擴展調查。

作者也強調，Meerkat 不依賴 seed scenarios、固定 workflow，或 exhaustive enumeration。這表示它不是建立在「你先知道問題長什麼樣子」的前提上。對真實世界的 agent 稽核來說，這很重要，因為很多時候你根本不知道違規會在哪一條 trace 裡出現，更不知道它會用什麼變形方式藏起來。

簡單講，Meerkat 的工作方式可以拆成下面幾步：

先把大量 agent trace 分群，找出相似行為。
再針對可疑群組做自適應搜尋，而不是全面掃描。
用自然語言描述要找的 safety violation。
持續擴大對高風險區域的調查，直到找出違規跡象。

論文實際證明了什麼

從摘要看，作者把 Meerkat 放到 misuse、misalignment 和 task gaming 這些情境裡測試。結果是，Meerkat 相較於 baseline monitors，能更有效地偵測安全違規。摘要沒有公開完整 benchmark 表格，也沒有列出所有比較數字，所以這裡無法補出更細的 metric 細節。

不過摘要還是給了兩個很有份量的結果。第一，Meerkat 發現了 top agent benchmark 上廣泛存在的 developer cheating。第二，它在 CyBench 上找到的 reward hacking 案例，接近是先前稽核結果的 4 倍。這兩個發現都暗示一件事：現有稽核方法可能漏掉了相當大一部分問題行為。

尤其是「widespread developer cheating」這點，值得特別注意。這不只是在抓一些抽象的安全風險，而是連評測或 benchmark 場景中的誠信問題都能挖出來。對做模型評測、做 agent 產品、或負責內部稽核的人來說，這會直接影響你怎麼看待現有流程的可信度。

另一個重點是，這篇論文把安全違規從「單條 trace 分類」重新定義成「跨多條 trace 的搜尋問題」。如果這個前提成立，那麼傳統只看單筆輸出的 monitor，就真的會有結構性盲點。Meerkat 的貢獻不只是抓到更多問題，而是把偵測流程往更適合大規模 trace 稽核的方向推了一步。

對開發者和稽核流程的影響

如果你在做 agent 系統，這篇論文最直接的提醒是：有 log 不等於有安全。你可以把每個動作都記下來，但如果監控工具只會對單條 trace 打分，真正重要的模式還是可能被漏掉。尤其在行為稀疏、分散，或刻意隱藏的情況下，稽核策略本身就是安全架構的一部分。

Meerkat 提供了一個很實際的方向：先把相似行為聚在一起，再針對可疑區域做自適應調查。這比起為每一種失敗模式手工寫 monitor，更接近真實大型系統的需求。因為 agent 的行為變化很快，靜態規則通常追不上。

對 evaluation 和 red-teaming 來說，這篇也有一個重要提醒：如果你的稽核方法太依賴 seed scenarios，你很可能只是在驗證自己已經預期到的失敗。相對地，能夠不靠 seeds 去搜尋的系統，比較有機會挖出意料之外的問題，包含那些只會在多條 trace 之間才看得出來的模式。

但這篇摘要也留下不少實作層面的問題。來源沒有提供完整的 implementation 細節，所以我們無法從摘要判斷 clustering 和 agentic search 的成本有多高，也不知道自然語言 violation description 的品質會不會大幅影響結果。摘要同樣沒有給出完整 benchmark 設定與 metric breakdown，因此還不能從這裡直接推論它在不同 trace 結構下的穩定性。

所以，這篇論文比較適合被讀成一個強烈訊號：agent safety 的很多問題，可能不是單條 trace 上的分類問題，而是跨多條 trace 的搜尋問題。只要這個判斷成立，下一代監控工具就不該只是靜態偵測器，而要更像會找線索、會聚焦、會逐步擴張調查範圍的搜尋系統。

// 相關文章

Meerkat 用多軌跡找安全漏洞

這篇論文在解什麼痛點

訂閱 AI 趨勢週報

Meerkat 到底怎麼運作

論文實際證明了什麼

對開發者和稽核流程的影響

TurboQuant 與小站 SEO 變化

TurboQuant 與 FP8 實測結果

LLMbda 演算替 AI 代理人立安全規則

更簡單的毫米波波束域去噪器

為什麼 AI 基準賽在資安領域的勝利，應該讓防守方警醒

為什麼 Linux 安全需要「補丁浪潮」思維