[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tag-evaluation":3},{"tag":4,"articles":9},{"id":5,"name":6,"slug":6,"article_count":7,"description_zh":8,"description_en":8},"7f107b67-cad9-4c43-a56b-0df6becf02b5","evaluation",1,null,[10,19],{"id":11,"slug":12,"title":13,"summary":14,"category":15,"image_url":16,"cover_image":16,"language":17,"created_at":18},"94547a94-aa6b-4c4f-9d64-31eb0b906947","policy-invariance-llm-safety-judge-test-en","Policy Invariance as a Better LLM Judge Test","This paper argues that accuracy alone is not enough to trust LLM safety judges, and proposes policy invariance as a reliability test.","research","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778568046410-5agq.png","en","2026-05-12T06:40:28.372648+00:00",{"id":20,"slug":21,"title":22,"summary":23,"category":15,"image_url":24,"cover_image":24,"language":17,"created_at":25},"1dc19579-3ba2-4d14-8951-67ad3303a27e","bas-llm-confidence-abstain-decisions-en","BAS scores LLM confidence for abstain decisions","BAS evaluates whether LLM confidence helps decide when to answer or abstain, exposing overconfident errors that standard metrics can miss.","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775455612393-bsk0.png","2026-04-06T06:06:32.061076+00:00"]