OraCore
.dev
新聞
趨勢
比較
排行
學習
Claude Code
更多
EN
更多
EN
新聞
趨勢
比較
排行
學習
Claude Code
返回首頁
標籤
alignment
1 篇文章
技術研究
/
4月13日
LLM 的有害行為藏在哪裡
這篇研究用權重剪枝發現,有害輸出可能集中在一小組共享權重裡,且和正常能力分開。這能解釋為什麼 jailbreak 很脆弱,也為什麼窄域微調會引發更廣泛的失配。