[IND] 8 分鐘閱讀OraCore 編輯部

Project Glasswing 讓 AI 專抓軟體漏洞

Anthropic 的 Project Glasswing 讓 40+ 組織用 Claude Mythos Preview 找軟體漏洞,還宣稱已挖出數千個高風險弱點。

分享 LinkedIn
Project Glasswing 讓 AI 專抓軟體漏洞

Anthropic 這次丟出的 Project Glasswing,數字很硬。12 家主要合作夥伴,40 多個額外組織,還有最高 1 億美元的使用額度。更猛的是,Claude Mythos Preview 還被拿來找軟體漏洞,據稱已經挖出數千個高風險問題。

講白了,這不是單純的 AI demo。它是在把 LLM 直接丟進資安現場。從 Anthropic 的說法來看,AI 已經能幫忙找出老到離譜的 bug。像 OpenBSD 的 27 年漏洞、FFmpeg 的 16 年漏洞,還有 Linux kernel 的多步驟提權鏈,都被模型抓出來。這種事很難不讓人皺眉。

Project Glasswing 到底在做什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

Glasswing 的定位很明確。它不是要做一個更會寫 code 的聊天機器人。它要做的是,把前沿模型的資安能力,直接塞進防禦流程裡。這種做法很像把 AI 從辦公室拉去值夜班,專門盯那些人類容易漏掉的角落。

Project Glasswing 讓 AI 專抓軟體漏洞

第一批合作夥伴名單也很有意思。裡面有 Amazon Web ServicesAppleBroadcomCiscoCrowdStrikeGoogle CloudJPMorganChaseLinux FoundationMicrosoftNVIDIA,還有 Palo Alto Networks。這些名字不是來站台而已。它們掌握雲端、晶片、端點、網路和作業系統的核心場景。

Anthropic 還開放給 40 多個其他組織使用。重點是,這些組織多半在維護關鍵基礎設施軟體。也就是說,AI 不是只掃自家產品,還會掃第一方程式碼和開源專案。Anthropic 另外還砸了最高 1 億美元的使用額度,外加 400 萬美元直接捐給開源資安團體。這筆錢不小,至少表示它不是隨便玩玩。

  • 12 家合作夥伴先上車
  • 40+ 組織拿到使用權
  • 最高 1 億美元額度
  • 400 萬美元給開源資安團體

我覺得這個組合很像在做一個資安版的聯合演練。只是這次的主角不是人類分析師,而是模型。問題也很直接:如果 AI 真的能穩定找出漏洞,那開發團隊的 code review、SAST、fuzzing,還要怎麼接?

為什麼這個時間點很敏感

Anthropic 的核心論點很直接。找漏洞的成本下降了。這句話聽起來很抽象,但放到實務上就很可怕。因為漏洞一直都在,只是以前要靠人一個個翻。現在如果模型能快速讀 code、推邏輯、試出 exploit 路徑,防守方就得跑得更快。

公司提到全球每年網路犯罪成本大約 5000 億美元。這個數字當然很難精準,但方向很清楚。只要一個 browser、kernel、或 media library 出問題,影響範圍就可能是百萬台機器。AI 一旦能把找洞這件事自動化,攻防兩邊的速度差就會拉開。

這裡最麻煩的地方,不是模型會不會寫程式,而是它會不會理解邊界條件。很多老漏洞都不是語法錯誤,而是狀態機、權限流、記憶體處理這種細節。人類看一遍可能覺得沒事,模型如果能連著幾層推下去,就可能直接找到弱點。

“The window between a vulnerability being discovered and being exploited by an adversary has collapsed—what once took months now happens in minutes with AI.” — Elia Zaitsev, Chief Technology Officer, CrowdStrike

這句話很毒,但也很實在。以前是人類追人類。現在是系統追系統。資安團隊如果還用老節奏,真的會被甩開。

數字怎麼看才有感

Anthropic 不是只丟口號。它還給了一組 benchmark 數字。CyberGym 上,Mythos Preview 拿到 83.1%。同場的 Claude Opus 4.6 是 66.6%。這差距不小。對漏洞復現這類任務來說,幾個百分點都可能差很多,更別說差了 16.5 個百分點。

Project Glasswing 讓 AI 專抓軟體漏洞

更誇張的是,Anthropic 說模型已經在各大作業系統和瀏覽器中找出數千個 zero-day。它沒有一次公開全部細節,但已經透露部分案例。像 OpenBSD 的 27 年老洞,可以遠端讓機器當掉。FFmpeg 的 16 年漏洞,連跑了 500 萬次測試都沒抓到。Linux kernel 那個案例,則是從一般使用者權限一路升到完整控制。

這些案例的共通點很簡單。它們都不是新 code 才會出事。相反地,越成熟的系統,越容易讓人放鬆警戒。大家會以為「這段早就測過了」。但 AI 的價值,剛好就是去翻這些被大家以為沒問題的角落。

  • CyberGym:83.1% 對 66.6%
  • 數千個 zero-day 被宣稱找到
  • OpenBSD:27 年漏洞
  • FFmpeg:16 年漏洞,測試跑 500 萬次仍漏掉
  • Linux kernel:多步驟提權到完整控制

Anthropic 表示,這些漏洞都已通報維護者,部分已修補。它也先只公開加密雜湊,等修補完成再補更多技術細節。這個處理方式算合理。畢竟如果先把細節全放出去,等於幫攻擊者開地圖。

這跟其他 AI 工具有什麼差別

Glasswing 的重點,不是幫工程師多寫幾行 code。它是在做自動化漏洞研究。這和 OpenAICodex,或 GitHub Copilot 的定位不太一樣。後兩者主要是提升生產力。Glasswing 則是直接往找洞、驗洞、甚至輔助生成 exploit 的方向走。

這也讓資安廠商的態度很有看頭。CrowdStrikeMicrosoftPalo Alto Networks 都進場了,代表大公司不是只看簡報,而是願意把模型放進真實流程測試。這比單看 benchmark 更有份量。

Linux Foundation 也在名單裡,這點很有意思。因為現代基礎設施很多都靠開源撐著。你每天用的伺服器、容器、網路堆疊,背後常常是少數維護者在扛。AI 如果真的能幫他們先抓 bug,效果會很直接。

  • Glasswing 走的是自動找洞路線
  • Copilot 偏向寫 code 輔助
  • Codex 偏向程式生成
  • 資安廠商已經開始實測
  • 開源專案是最大受益面之一

Linux Foundation 執行長 Jim Zemlin 的話很直白:“By giving the maintainers of these critical open source codebases access to a new generation of AI models that can proactively identify and fix vulnerabilities at scale, Project Glasswing offers a credible path to changing that equation.” 這句英文不用翻太文青。重點就是,開源維護者終於有機會拿到一個會主動找洞的助手。

產業脈絡沒有那麼浪漫

資安圈其實一直都在追求自動化。從靜態分析、fuzzing、到 CI 裡的掃描工具,大家都想把人工判斷變少。問題是,傳統工具很會抓固定模式,卻常常看不懂複雜上下文。這也是為什麼很多老漏洞能活那麼久。

AI 進來之後,情況變了。LLM 不一定懂所有程式語言細節,但它擅長跨段落推理。它可以看函式呼叫、狀態轉移、權限邏輯,再把可能的攻擊路徑串起來。這種能力,剛好補上傳統工具的空缺。

但別高興太早。模型也可能誤報,也可能漏報。它找出來的東西,還是得靠人驗證。對台灣很多軟體團隊來說,真正的問題不是要不要用 AI,而是要怎麼把它接進既有流程。是放在 pre-commit、CI、還是 release 前的安全審查?這些都不是免費的。

還有一個現實。攻擊者也會用同樣的模型。當找洞成本下降,防守方就不能只靠人力堆。你可以把這件事想成一場算力競賽。誰能更快掃、更多測、把修補流程縮短,誰就比較不容易被打穿。

接下來該盯什麼

我會先看三件事。第一,外部研究者能不能重現 Anthropic 的結果。第二,這些漏洞實際修補後,會不會真的降低風險。第三,Glasswing 會不會從少數大公司,擴散到一般開發團隊。

如果這條路走得通,下一波變化可能不是更炫的 AI 聊天,而是每個 CI pipeline 都開始掛一個會找洞的模型。講白了,未來最值錢的不是只會寫 code 的 AI,而是能在 release 前先把你最爛的 bug 挖出來的 AI。你如果是做軟體或維運,現在就該想:你的程式碼,準備好被模型掃過一輪了嗎?