標籤

jailbreak

2 篇文章

AVISE 模組化測 AI 安全漏洞

技術研究/4月23日

AVISE 模組化測 AI 安全漏洞

AVISE 是一個開源 AI 安全評估框架，主打模組化漏洞測試。論文用 25 個 jailbreak 測試案例與自動判定流程，驗證 9 個模型都能被攻破。

LLM 的有害行為藏在哪裡

技術研究/4月13日

LLM 的有害行為藏在哪裡

這篇研究用權重剪枝發現，有害輸出可能集中在一小組共享權重裡，且和正常能力分開。這能解釋為什麼 jailbreak 很脆弱，也為什麼窄域微調會引發更廣泛的失配。