標籤
2 篇文章
AVISE 是一個開源 AI 安全評估框架,主打模組化漏洞測試。論文用 25 個 jailbreak 測試案例與自動判定流程,驗證 9 個模型都能被攻破。
這篇研究用權重剪枝發現,有害輸出可能集中在一小組共享權重裡,且和正常能力分開。這能解釋為什麼 jailbreak 很脆弱,也為什麼窄域微調會引發更廣泛的失配。