[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tag-reliability":3},{"tag":4,"articles":9},{"id":5,"name":6,"slug":6,"article_count":7,"description_zh":8,"description_en":8},"0de15bee-9ab2-4160-a23e-6d70817e787b","reliability",2,null,[10,19,27],{"id":11,"slug":12,"title":13,"summary":14,"category":15,"image_url":16,"cover_image":16,"language":17,"created_at":18},"20a09a8e-9e7f-4a1a-bee1-94659af6cb5f","github-outages-stalled-microsoft-ai-coding-lead-zh","GitHub 故障拖慢微軟 AI 編碼優勢","我拆 GitHub 故障與 Azure 轉移卡住微軟 AI 編碼優勢的原因，最後給你一份可直接套用的穩定性 playbook。","industry","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779859114521-6bdl.png","zh","2026-05-27T05:18:05.698686+00:00",{"id":20,"slug":21,"title":22,"summary":23,"category":24,"image_url":25,"cover_image":25,"language":17,"created_at":26},"d75b5708-d4ec-4c46-9592-fa0a68d4bc26","judge-reliability-harness-stress-tests-llm-judges-zh","LLM 評審也會不穩","這篇論文做了一個壓力測試工具，檢查 LLM 當評審時，會不會因為格式、改寫、篇幅或標籤翻轉而判斷不一致。","research","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778740856189-g1zr.png","2026-05-14T06:40:32.198872+00:00",{"id":28,"slug":29,"title":30,"summary":31,"category":24,"image_url":32,"cover_image":32,"language":17,"created_at":33},"082ebaa3-ad6f-421a-860a-8566846fb9c1","llm-judge-reliability-conformal-transitivity-zh","LLM 評審別只看平均分","這篇論文提醒：LLM 當評審時，平均表現看起來穩，不代表每個輸入都可靠。作者用 transitivity 檢查與 conformal prediction sets，抓出輸入層級的不一致與不確定性。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776406189176-acr2.png","2026-04-17T06:09:32.920971+00:00"]