[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tag-llm-safety":3},{"tag":4,"articles":10},{"id":5,"name":6,"slug":7,"article_count":8,"description_zh":9,"description_en":9},"467765ba-ffbd-45d1-992a-519169fa5f07","LLM safety","llm-safety",2,null,[11],{"id":12,"slug":13,"title":14,"summary":15,"category":16,"image_url":17,"cover_image":17,"language":18,"created_at":19},"7b7926a8-c1ad-4f35-bc80-a32147ca7f89","llms-harmful-content-unified-mechanism-zh","LLM 的有害行為藏在哪裡","這篇研究用權重剪枝發現，有害輸出可能集中在一小組共享權重裡，且和正常能力分開。這能解釋為什麼 jailbreak 很脆弱，也為什麼窄域微調會引發更廣泛的失配。","research","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776060240663-k9nm.png","zh","2026-04-13T06:03:37.879104+00:00"]