[CHAIN] 6 分鐘閱讀OraCore 編輯部

CertiK 把 AI 審計器開放給開發者

CertiK 將 AI Auditor 開放給全球開發者,並宣稱在 35 起 Web3 事故回測中命中率達 88.6%。這次更新把安全審計拉進開發流程,也讓去中心化金融團隊更在意誤報與實戰準確度。

分享 LinkedIn
CertiK 把 AI 審計器開放給開發者

CertiK 把 AI Auditor 開放給全球開發者了。它不是玩票。官方丟出一個很硬的數字:對 35 起 Web3 安全事件回測,精準命中率是 88.6%。說真的,這種數字在區塊鏈安全圈很刺眼。

原因很簡單。Web3 一個漏洞,常常不是壞掉而已。是錢直接被搬走。對 DeFi、錢包、交易基礎設施團隊來說,少一點誤報,多一點真問題,差很多。

CertiK 這次的說法也很直接。它不是要 AI 取代審計師。它想做的是,把審計前移到寫程式的日常流程裡。講白了,就是讓開發者在 push code 前,先被系統提醒哪裡怪怪的。

CertiK 這次到底開了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

這次公開的是 CertiK 的 AI Auditor。原本這套東西先在內部用。現在變成公開產品,全球開發者都能碰到。

CertiK 把 AI 審計器開放給開發者

它還加了開源整合,給 AI coding agents 用。這點很重要。安全工具如果只在獨立頁面跑,很多團隊最後都懶得看。直接進 IDE 或工作流,才比較有機會真的被用。

CertiK 的目標很務實。先抓漏洞,再減少雜訊。不要讓工程師被一堆看起來很恐怖、其實沒用的警告淹沒。安全工具如果一直吵,最後大家就會把它靜音。

  • 回測命中率:88.6%
  • 測試樣本:35 起 Web3 安全事件
  • 產品狀態:內部工具變公開服務
  • 使用場景:開發流程前段的 triage

為什麼它的架構值得看

這套 AI Auditor 最有意思的地方,不是「AI 會看 code」這種老梗。重點是它不是單一模型硬猜。它用的是 Multiscanner Framework,把多個專門掃描器平行跑,再做去重和語意檢查。

這種設計很像在處理資安告警海。不是誰掃得多誰就贏。真正麻煩的是,怎麼把垃圾訊號濾掉。開發者最怕的不是沒警告,是警告太多,最後看不出哪個真的會炸。

CertiK co-founder Ronghui Gu 的說法也很直白:AI 的問題不只是能不能找出漏洞,而是能不能更早找出值得處理的安全問題。這句話我覺得很實在。

“The question is no longer simply whether AI can find vulnerabilities, but whether it can genuinely help development teams surface the security issues worth addressing, earlier,” said Ronghui Gu.

它還有一個 Dynamic Knowledge Base。這個資料庫會更新真實攻擊和新型手法。這點在 Web3 特別重要。因為攻擊者改招式的速度,常常比產品發版還快。

它跟其他 AI 安全工具差在哪

現在 AI 安全工具很多。問題是,多數產品只解一小段。像 Chainalysis 比較偏鏈上情報和合規。它強在追蹤資金流,不是看 source code。

CertiK 把 AI 審計器開放給開發者

再看 OpenZeppelin。它在 smart contract security 的地位很穩,偏向人工審計與開發框架。這種路線很老派,但在安全圈,老派常常比較可靠。

CertiK 想切進的是審計前段。它不是只給你一個 scanner,而是想接管第一輪判讀。這野心不小。可是在安全領域,準確率只要掉一點,信任就會掉很快。

如果拿數據來看,這次的 88.6% 回測命中率,至少比很多「看起來很聰明」的 demo 有說服力。因為它不是只跑一個玩具案例,而是對 35 起真實事件做測試。

這對 DeFi 團隊和機構代表什麼

DeFi 團隊最怕什麼?不是寫不出功能。是功能寫太快,安全檢查跟不上。CertiK 這套工具如果真的好用,最直接的效果就是減少 alert fatigue。

對機構型 crypto 基礎設施來說,需求又不太一樣。他們更在意流程一致性、紀錄完整性、還有誰在什麼時間看過什麼問題。AI Auditor 如果能把第一輪篩選做得穩,後面的人工作業就會比較乾淨。

但我也要潑一點冷水。安全工具不是看 demo 就能信。它要在髒 code、半成品、邊寫邊改的專案裡,還能維持穩定表現。這才是真正的壓力測試。

你可以先看這幾個比較點:

  • 誤報數量有沒有明顯下降
  • 審計前的 triage 時間有沒有縮短
  • 真漏洞的召回率有沒有維持
  • 團隊是否真的把它放進 CI 或 IDE

如果這四項都不錯,才算真的有用。只要其中一項掉太多,工程師很快就會把它當成另一個吵人的掃描器。

這次發佈的產業脈絡

Web3 安全一直有個老問題。工具很多,流程很碎。開發者要看 static analysis,要看 fuzzing,要看人工審計,還要自己判斷哪些告警是真的。

這也是為什麼 AI 安全工具最近一直冒出來。大家都在找一件事:能不能先把第一層雜訊處理掉。不是因為 AI 神。是因為人真的沒空一直看重複告警。

從產業角度看,CertiK 這步很像把安全服務商品化。以前高階審計比較像專案制。現在它想變成日常工具。這個方向很合理,也很殘酷。因為一旦變成日常工具,使用者就會拿它跟其他工具直接比。

而且市場上還有一個現實。OpenAIAnthropic 這類公司推動的 coding agent,已經把「AI 幫你寫 code」變成常態。下一步自然就是「AI 幫你查 code 有沒有問題」。

我怎麼看這一步

我覺得 CertiK 這次最有價值的地方,不是它喊了多大的數字,而是它把 AI 審計拉進開發流程。這比單純做一個漂亮 dashboard 實際很多。

但它真正的考驗才剛開始。88.6% 是回測數字。真實世界裡,專案會更亂,攻擊面會更多,團隊習慣也更難改。工具能不能活下來,要看它是不是能長期省時間,而不是只在 demo 時很神。

如果你是 Web3 開發者,我會建議很簡單。先拿真實專案試。把它跟人工審計結果對照。看它到底幫你省了多少時間,少了多少垃圾警告。這種東西,最後還是要回到資料說話。

接下來我會盯兩件事。第一,其他資安公司會不會跟進。第二,開發團隊會不會真的把 AI Auditor 放進日常流程。這兩件事,會決定它只是新聞,還是變成真的工具。