[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-judge-reliability-harness-stress-tests-llm-judges-zh":3,"tags-judge-reliability-harness-stress-tests-llm-judges-zh":36,"related-lang-judge-reliability-harness-stress-tests-llm-judges-zh":45,"related-posts-judge-reliability-harness-stress-tests-llm-judges-zh":49,"series-research-d75b5708-d4ec-4c46-9592-fa0a68d4bc26":86},{"id":4,"title":5,"content":6,"summary":7,"source":8,"source_url":9,"author":10,"image_url":11,"keywords":12,"language":18,"translated_content":10,"views":19,"is_premium":20,"created_at":21,"updated_at":21,"cover_image":11,"published_at":22,"rewrite_status":23,"rewrite_error":10,"rewritten_from_id":24,"slug":25,"category":26,"related_article_id":27,"status":28,"google_indexed_at":29,"x_posted_at":10,"tweet_text":10,"title_rewritten_at":10,"title_original":10,"key_takeaways":30,"topic_cluster_id":34,"embedding":35,"is_canonical_seed":20},"d75b5708-d4ec-4c46-9592-fa0a68d4bc26","LLM 評審也會不穩","\u003Cp data-speakable=\"summary\">這篇在講一個壓力測試工具，檢查 \u003Ca href=\"\u002Fnews\u002Ftaming-black-box-llm-inference-scheduling-zh\">LLM\u003C\u002Fa> 當評審時會不會因為格式、改寫、篇幅變化而判斷不一致。\u003C\u002Fp>\u003Cp>\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.05399\">Judge Reliability Harness: Stress Testing the Reliability of LLM Judges\u003C\u002Fa> 盯上的不是模型生成能力，而是另一個更容易被忽略的問題：當你把 LLM 拿來當評審，它到底穩不穩。這篇摘要的重點很直接，作者想知道，只要把同一段回答換個寫法、換個排版、改長一點或短一點，LLM judge 的判斷會不會跟著飄。\u003C\u002Fp>\u003Cp>這件事對開發者很實際。現在越來越多人把 model-as-judge 用在評估、排序、審核，甚至自動化流程裡。表面上看，這種做法省人力、也容易擴充；但如果評審本身對字面變化很敏感，整條評估管線就可能被悄悄帶偏。你以為自己在量測答案品質，實際上可能是在量測提示詞長相。\u003C\u002Fp>\u003Ch2>這篇在解什麼痛點\u003C\u002Fh2>\u003Cp>\u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> judge 之所以受歡迎，是因為它能把人工評分的成本壓下來。很多場景不可能每次都找人逐筆看答案，所以就改用模型來判斷另一個模型有沒有把任務做好。問題是，這套流程成立的前提，是評審要夠穩定，至少不能因為輸入外觀的小變化就改變結論。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778740856189-g1zr.png\" alt=\"LLM 評審也會不穩\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這篇論文就是在補這個缺口。摘要沒有把 LLM judge 說成沒用，而是很務實地指出：即使只是表層變動，也可能讓判斷一致性出問題。對工程團隊來說，這不是抽象的研究疑慮，而是直接影響 evaluation pipeline 的風險。很多系統都默認格式、改寫、篇幅長短不該影響分數，但這篇看起來就是在挑戰這個默契。\u003C\u002Fp>\u003Cp>作者提出的工具叫做 Judge Reliability Harness。從摘要看，它不是要做一個新的 judge，也不是要取代現有評審，而是要拿來做壓力測試。換句話說，它比較像診斷層，不是替代層。這種定位很重要，因為它對準的是可靠性檢查，而不是再造一個更會打分的模型。\u003C\u002Fp>\u003Ch2>方法怎麼運作\u003C\u002Fh2>\u003Cp>摘要本身沒有把完整實驗流程交代得很細，所以這篇沒有公開完整 b\u003Ca href=\"\u002Fnews\u002Faisafetybenchexplorer-ai-safety-benchmarks-zh\">ench\u003C\u002Fa>mark 細節。就已知資訊來看，核心做法很單純：把 LLM 產生的回答做不同形式的變形，再丟給 judge，看它的判斷是否保持一致。\u003C\u002Fp>\u003Cp>這些變形包含幾種摘要明確點出的情況：\u003C\u002Fp>\u003Cul>\u003Cli>簡單的文字格式變化\u003C\u002Fli>\u003Cli>改寫或 paraphrasing\u003C\u002Fli>\u003Cli>篇幅變長或變短，也就是 verbosity 變化\u003C\u002Fli>\u003Cli>把 LLM 產生回答中的 ground-truth label 翻轉\u003C\u002Fli>\u003C\u002Ful>\u003Cp>白話一點說，這個 harness 想問的是：如果答案的實質內容沒有變，評審會不會還是給出同樣的判斷。如果答案只是看起來不一樣，結果就跟著變，那就代表 judge 可能不是在理解任務本身，而是在吃輸入外觀的影響。\u003C\u002Fp>\u003Cp>這也是這類工具最有價值的地方。很多評估系統都會把格式整理、提示詞模板、輸出長度當成工程細節，但對 judge 來說，這些細節可能不是細節，而是會改變輸出分數的變因。Judge Reliability Harness 的目標，就是把這種脆弱性抓出來。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>從摘要能確定的結果不多，但方向很清楚。作者做了 preliminary experiments，發現 LLM judges 會出現 consistency issues。摘要特別提到的衡量點，是 judge 在判斷另一個 LLM 是否完成任務時的 accuracy。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778740871030-8g8s.png\" alt=\"LLM 評審也會不穩\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>不過，這篇摘要沒有公開完整 benchmark 細節，所以我們不能從這份來源直接推論具體數字、模型名稱、資料集，或是哪一個 judge 比較強。也沒有看到表格、排名、或跨模型比較。換句話說，這份摘要傳達的是一個早期警訊，而不是一份完整的 leaderboard。\u003C\u002Fp>\u003Cp>但即使如此，訊息還是很有份量。因為它指出的不是難題本身，而是日常工作裡最容易被忽略的失真來源：格式、改寫、篇幅、標籤翻轉。這些因素本來常被視為不影響語意的表面差異，但在 judge 身上，它們可能已經足夠讓結果偏移。\u003C\u002Fp>\u003Cp>對評估流程來說，這代表一件事：如果你的 judge 會被這些表層變化帶著跑，那麼最後的分數可能同時混進了答案品質、呈現方式，以及 prompt 包裝的影響。這不是單純的噪音問題，而是你以為在量測 A，結果卻混進了 B 和 C。\u003C\u002Fp>\u003Ch2>對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你有在做 LLM 評估、模型排序、回歸測試，或自動化審核，這篇的訊號很明確：LLM-as-judge 不能只看方便，還要看穩定性。當評審變成基礎設施的一部分，它的可靠性就會直接影響產品決策。\u003C\u002Fp>\u003Cp>最現實的風險有幾個。第一，排名可能不穩。第二，回歸測試可能被格式改動干擾。第三，自動 gating 可能因為輸入包裝不同而放行或擋下不一樣的結果。這些都不是理論上的小毛病，而是會直接進到工程流程裡的問題。\u003C\u002Fp>\u003Cp>這篇論文的實務意義，不是叫大家立刻不用 LLM judge，而是提醒你要把它當成需要驗證的元件。就像你不會直接相信一個沒做壓力測試的服務，評審模型也不該只因為它看起來很會講，就默認它很穩。\u003C\u002Fp>\u003Cp>如果團隊真的要上 LLM judge，至少要把它放進 perturbation test 的思維裡。也就是說，不只看一次分數，而是要看在不同寫法、不同長度、不同排版下，結果會不會一致。Judge Reliability Harness 看起來就是朝這個方向設計的。\u003C\u002Fp>\u003Ch2>限制與還沒回答的問題\u003C\u002Fh2>\u003Cp>這份來源也有明顯限制。首先，摘要太短，所以很多關鍵資訊都沒公開。包括實驗規模、測試任務、使用了哪些 judge model、以及 harness 是否涵蓋更多失敗模式，摘要都沒有交代。\u003C\u002Fp>\u003Cp>其次，我們也不知道這個工具是偏研究用途、工程用途，還是兩者都想兼顧。摘要只說 code is available，但在這份 raw 資料裡沒有提供可用連結，也沒有實作細節可供延伸判讀。\u003C\u002Fp>\u003Cp>再來，摘要沒有回答一個更大的問題：\u003Ca href=\"\u002Fnews\u002Fwhy-claude-for-legal-will-reset-legal-tech-stack-zh\">什麼\u003C\u002Fa>樣的 judge 才算夠穩。它指出了不一致，但沒有說哪種修正方式有效，也沒有說可靠性要怎麼量化到可以安心上線。這些都還是空白。\u003C\u002Fp>\u003Cp>但就算資訊有限，這篇還是有價值。因為它把一個常被省略的事實講白了：LLM judge 不只是在評分，它也會被輸入表面影響。對\u003Ca href=\"\u002Ftag\u002F台灣開發者\">台灣開發者\u003C\u002Fa>來說，這種提醒很重要，尤其當你開始把模型評估自動化之後，最該先確認的往往不是模型多強，而是它到底穩不穩。\u003C\u002Fp>\u003Cp>總結來看，Judge Reliability Harness 是一個偏診斷、偏壓測的工具。它不是在宣告模型評審失敗，而是在提醒大家：如果你把 LLM 拿來當 judge，就要先證明它不會因為格式和寫法的小變動而失常。這件事看起來很基礎，但對真正要落地的系統來說，往往就是最重要的那一步。\u003C\u002Fp>","這篇論文做了一個壓力測試工具，檢查 LLM 當評審時，會不會因為格式、改寫、篇幅或標籤翻轉而判斷不一致。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.05399",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778740856189-g1zr.png",[13,14,15,16,17],"LLM judge","model-as-judge","reliability","stress test","prompt sensitivity","zh",0,false,"2026-05-14T06:40:32.198872+00:00","2026-05-14T06:40:32.036+00:00","done","49dde183-5bd2-42ff-8598-23a1b3de96fa","judge-reliability-harness-stress-tests-llm-judges-zh","research","50662a29-bae9-4d88-b8d8-3d6a83680646","published","2026-05-14T09:00:16.918+00:00",[31,32,33],"LLM judge 會受到格式、改寫、篇幅與標籤翻轉影響一致性。","Judge Reliability Harness 的定位是診斷工具，不是新 judge 模型。","摘要沒有公開完整 benchmark 數字與實驗細節，適合當成早期警訊來看。","0c35a120-52fc-41fc-afa3-d404eb934158","[-0.0023753503,0.020563487,0.0007369733,-0.06520916,-0.001949343,-0.021308756,-0.012250583,0.014598491,0.015079065,0.006807207,0.0024158426,-0.0126240915,0.009658852,0.02392053,0.11722018,0.05722078,-0.029487295,0.01829524,0.01459896,-0.021136252,0.004790708,0.001878541,-0.011129273,0.0031531933,-0.003618665,0.00849411,0.0377284,0.02457615,0.03637066,-0.010997386,0.0015271662,0.021143533,-0.007633196,0.0397224,-0.010439348,0.013826025,0.008129608,-0.010500047,0.01460203,0.031806428,-0.0042975536,0.0060495613,0.012464522,-0.010194111,-0.0009376995,0.028777238,0.008059964,-0.048644483,-0.015224011,0.003055963,-0.020676982,0.0087708505,-0.0063649686,-0.1626329,-0.010893329,0.0075707273,-0.019015381,0.0251596,0.025388788,0.0068146586,-0.049176723,0.004021308,-0.029880315,-0.035309568,0.002981329,-0.032011367,0.019167965,-0.0007228958,-0.03847504,-0.025934124,-0.007488278,-0.016395513,0.0019452819,-0.035133354,0.0044053504,-0.018380122,-0.0052811163,0.01688797,0.0027283393,0.0068859174,0.016478172,-0.02747983,0.0043901904,0.0011681472,-0.016956318,0.00024596995,0.02880979,0.008196318,0.006228468,-0.0008064895,0.00027743456,0.00043605207,0.016914781,0.007301551,-0.0049484326,-0.006064761,-0.005934684,0.012872526,0.0029529817,-0.023000237,-0.02288528,-0.02182626,-0.0004693763,0.025949934,0.018168475,-0.0057384707,-0.002182498,0.01486925,0.0026174407,0.023362907,-0.00057204097,-0.005331409,-0.023180423,-0.013628575,-0.00419662,-0.13772872,-0.006115319,0.01334796,-0.0050175353,0.020907314,-0.013767348,0.024506582,0.0013628808,0.04520068,-0.011221864,-0.024614,0.017186085,-0.006302745,-0.007391954,0.0023278503,-0.028015777,-0.012612389,0.011742442,0.0006505457,-0.005639056,0.02124653,0.003608576,0.0027919563,0.0108324485,-0.01791018,-0.0064717806,0.040140335,0.01798149,-0.0038730432,-0.031067248,-0.016321143,-0.026074832,-0.005474458,0.019664064,0.006901979,0.010044547,-0.009033055,-0.0124213435,-0.008695038,0.012220491,-0.04246024,0.010285491,0.027316337,0.01886899,0.020526672,0.012600617,-0.00090953027,-0.017245155,-0.009006439,-0.011477628,0.029455611,-0.00083082187,-0.020859387,-0.0096488595,0.019495219,0.019788863,-0.048634414,0.008447421,0.00036183244,0.003161069,-0.0053009144,-0.0273981,-0.0044544423,0.026736885,-0.013292554,0.0060274554,-0.012934151,-0.012208444,0.00520436,-0.0059453608,-0.00757263,0.0043165768,0.01970283,0.025659567,0.03749194,-0.021811109,0.011209168,0.035728484,-0.014006302,0.003287827,-0.02277062,0.013416718,-0.0026260226,-0.0030939945,0.026343184,-0.024885615,-0.007902814,0.0045021763,-0.004328551,0.0030445247,-0.004163015,0.039499417,-0.014006164,0.021814778,-0.0108047025,0.004573983,0.027298521,0.019626902,0.015572092,-0.010222038,0.012206204,0.0046055894,-0.031828556,0.009823717,-0.011368513,0.013157531,-0.006313016,-0.012985127,0.03033453,-0.03850512,-0.005453939,0.016942872,-0.01389761,-0.02314739,0.021442732,-0.002530579,0.043251637,0.014775887,-0.0074938447,0.020587401,0.018753229,-0.008108747,0.029269284,0.019504135,0.007930206,-0.013361151,0.014862406,-0.00050182326,0.017012347,0.021419348,-0.020755023,0.0059222304,-0.015322626,0.0075431312,0.032862373,0.014995139,0.006466965,-0.019383278,-0.016459478,0.01242375,0.0057217996,-0.011797357,0.0008987436,0.0032763465,0.00023371117,0.0047301105,0.020769842,-0.011570913,-0.012167288,0.006748473,-0.011395883,-0.007360751,-0.0030408779,-0.0149706155,0.0072022756,-0.034705218,0.0034796377,-0.012361046,-0.041087095,0.037298094,0.007373426,-0.06984142,0.017861363,-0.0073217656,0.0140898265,0.024321677,0.02168367,0.0060792477,0.0024898085,-0.008910592,0.018647276,-0.027828963,0.016554235,0.0041602557,0.00020886173,0.0017647808,0.01649873,-0.0076736305,-0.013527204,-0.019689983,-0.006950571,-0.0027964364,0.011080182,-0.028703239,0.0012523968,0.0032332733,-0.009437361,0.00449248,0.049129736,-0.0037791564,-0.009974427,0.0032437332,0.010295112,-0.030784482,-0.0063505424,0.003371714,-0.018606098,-0.005890393,-0.00977996,-0.004016116,-0.041656848,0.014367262,0.0031207565,0.01958215,-0.0030243036,-0.0015311057,-0.013569703,-0.020939799,-0.0052463175,-0.024613395,-0.0065971427,-0.013590111,-0.013497057,0.0026960701,-0.014687329,-0.0027790775,0.029289354,0.008594682,-0.022669919,0.011031608,-0.029267877,-0.004438365,-0.027313571,-0.03667971,-0.009183459,-0.005914084,0.008623651,-0.019640734,0.020931195,-0.010361073,0.036148958,-0.007698321,0.013182658,-0.0012326939,-0.035615657,0.021882249,-0.014949189,0.00662136,-0.022998456,-0.036264673,0.010835751,-0.006789118,-0.0035258606,0.01923295,0.009558732,-0.001343794,0.015250244,-0.013165499,-0.00029115076,0.019463742,-0.05668161,0.016057832,0.0017818013,-0.016021037,0.029698139,0.025236823,-0.0009021891,-0.0065293494,-0.004706597,-0.008822819,0.014729379,-0.02471521,-0.014648858,-0.00088116305,-0.0096382415,-0.0005783947,0.008878136,-0.007874154,-0.027784357,-0.00800492,-0.006939792,0.029849272,0.025673587,-0.000978035,0.0075861886,-0.00016575171,0.009175041,-0.0047609857,-0.0012845397,0.0036050107,-0.022867944,-0.010261268,0.01879049,-0.0013550695,0.0050633,0.0089323735,0.022243807,-0.0013213503,0.0052460325,0.006206476,0.019536674,-0.017910503,0.018110743,0.02648323,-0.020562956,-0.011911731,0.008123277,0.003650602,0.011798474,0.03130464,0.0075331363,-0.016588671,0.004317738,0.0151729705,0.010071147,0.008828091,0.020664055,0.00033121285,0.011910268,-0.027591001,-0.009310851,-0.016202675,-0.03492687,0.012626104,-0.0393305,0.0024918711,-0.007860923,-0.03350136,-0.01944148,-0.017553974,-0.017253377,-0.023107821,-0.008067578,-0.0060103606,-0.025402904,-0.003402762,0.016529083,0.009670047,0.014880057,0.033489484,-0.015787615,-0.001713364,-0.022730576,-0.009412714,0.014453209,0.024487628,0.0005920528,0.053700686,0.00367259,0.006479822,-0.016015405,-0.016131664,-0.014834866,-0.015125523,-0.023209438,0.00926526,-0.040497318,0.027789572,0.03558511,-0.020846685,-0.015054262,-0.012307755,-0.020424133,0.0022492826,0.04212811,0.00216654,0.0071109985,0.016941534,0.009435526,-0.022294737,0.00859934,-0.00995623,0.017717466,-0.007024342,0.0051999525,-0.012351796,-0.03520742,0.0038878226,-0.031371776,-0.025312308,-0.0030717973,-0.004127847,-0.0028425267,-0.022267058,0.0049909647,0.019122332,0.044156395,0.0048823757,0.008795923,-0.02829288,-0.022173831,-0.008978691,-0.02678504,-0.0038793578,-0.014889561,0.036691513,-0.0018819383,0.033490296,-0.014585051,-0.019757882,-0.0073384284,-0.0006902993,0.011664762,-0.0034484505,-0.028282227,-0.0021030048,0.01187245,0.012730588,0.021921916,0.01030619,0.010312973,0.009249472,0.02764215,-0.0013562923,0.0014323794,-0.0026255688,-0.023922222,-0.010118617,0.010193672,-0.011511417,-0.016246332,0.017371545,0.0014083167,0.026784224,0.03969534,-0.0070326724,0.0071049137,0.010280997,-0.012973423,-0.0060038846,-0.022607615,0.028907292,0.013214509,0.022418782,0.028565153,-0.02992766,0.006887604,-0.018655064,-0.02443264,0.03618205,-0.099098474,0.007326201,0.025348473,-0.009833408,0.0019288741,-0.0046300795,0.01479944,-0.016081117,0.025917223,0.0055198655,0.0117477365,-0.0085924445,0.011308915,0.03413467,-0.004171997,-0.006592513,-0.024063228,-0.006389265,0.021069266,-0.0048135403,0.027751617,-0.00305446,0.02538601,0.02132212,-0.028146219,-0.0121337855,0.03460992,0.034136657,0.0034475385,0.024528563,-0.013981197,-0.008404613,-0.003982164,-0.0007591637,0.0012569727,0.002004459,0.019863348,-0.014829345,0.0134282475,0.0184271,-0.006523346,0.0015355457,-0.025415394,-0.0314726,0.0145640345,-0.0042885197,-0.009345575,0.007816442,-0.0028726298,-0.0034263048,-0.026256058,-0.004893389,-0.017006127,-0.008744422,-0.015175529,-0.019105231,-0.02023508,-0.004783814,-0.027127646,0.026077969,-0.012387424,0.005196715,-0.013699163,0.026601855,-0.008752714,-0.00087537436,-0.011530141,0.017508904,-0.0018941708,0.013604482,-0.022101315,-0.008712097,0.033929817,-0.004774435,-0.030332034,-0.0030133284,-0.0061420565,0.01665427,-0.017593468,0.025462868,-0.023467457,-0.024472265,-0.07225141,-0.015313191,-0.018290604,-0.0007583455,0.019454997,-0.018445386,0.01087711,-0.007377121,-0.024309589,-0.011951484,0.01131863,0.008807849,-0.013318159,-0.02775877,-0.011223249,-0.026416961,2.8591587e-05,-0.0017927526,0.015620105,-0.024764031,-0.010446753,-0.0048699887,0.025532208,-0.009110015,-0.031270202,-0.004804402,0.00805096,0.0019486444,-0.006379036,-0.0065889773,0.0045723384,-0.12427279,0.0005007475,0.0025350924,-0.014391726,0.0075909286,0.014256819,-0.014881157,-0.0033267243,0.007930934,0.034082618,-0.010868981,-0.03281517,0.038732987,-0.0099906875,-0.025908394,0.11692623,-0.018162461,0.013258992,-0.036831424,-0.00965316,0.008479123,-0.026781412,-0.005555476,0.02113558,0.010490927,0.026945187,0.014318476,-0.017716372,-0.008286211,0.04930128,0.022234574,-0.0027745948,0.003643505,-0.0106306,0.024147216,-0.010701975,-0.01758027,-0.017314358,-0.021956207,-0.0018074043,0.016766476,0.017315853,0.0042225635,0.019307155,-0.017165998,-0.0076953387,-0.010168534,-0.022383908,0.013127661,0.025554609,-0.028413633,-0.05228045,0.009978923,-0.0060782144,-0.0010449172,0.011419996,-0.019207021,0.006853214,0.0073353206,0.01944174,0.010408808,0.0008226223,0.009717344,0.016098382,0.0073550856,-0.00071502867,0.027836218,-0.0098414235,0.015159668,-0.001390258,-0.008505058,-0.011714229,-0.006026529,0.00086638186,-0.0043760506,-0.0036798655,-0.0067442134,0.009318648,0.022050312,-0.0061486186,4.0147672e-05,0.017865056,-0.011048266,-0.0006408738,-0.015431999,-0.011671069,0.01198389,0.020088859,-0.02609461,-0.014026274,-0.008614246,0.014174184,-0.005797234,-0.006901145,-0.0057463464,0.02183881,-0.010225445,0.01882794,-0.0009578631,0.0039147306,-0.024820562,-0.025046265,-0.009774667,-0.03255577,0.013134057,0.023567695,-0.000998535,0.010439181,0.018963156,0.0066643204]",[37,38,39,41,43],{"name":14,"slug":14},{"name":15,"slug":15},{"name":17,"slug":40},"prompt-sensitivity",{"name":16,"slug":42},"stress-test",{"name":13,"slug":44},"llm-judge",{"id":27,"slug":46,"title":47,"language":48},"judge-reliability-harness-stress-tests-llm-judges-en","Judge Reliability Harness Stress-Tests LLM Judges","en",[50,56,62,68,74,80],{"id":51,"slug":52,"title":53,"cover_image":54,"image_url":54,"created_at":55,"category":26},"667b72b6-e821-4d68-80a1-e03340bc85f1","turboquant-seo-shift-small-sites-zh","TurboQuant 與小站 SEO 變化","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778840440690-kcw9.png","2026-05-15T10:20:27.319472+00:00",{"id":57,"slug":58,"title":59,"cover_image":60,"image_url":60,"created_at":61,"category":26},"381fb6c6-6da7-4444-831f-8c5eed8d685c","turboquant-vllm-comparison-fp8-kv-cache-zh","TurboQuant 與 FP8 實測結果","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778839867551-4v9g.png","2026-05-15T10:10:36.034569+00:00",{"id":63,"slug":64,"title":65,"cover_image":66,"image_url":66,"created_at":67,"category":26},"c15f45ee-a548-4dbf-8152-91de159c1a11","llmbda-calculus-agent-safety-rules-zh","LLMbda 演算替 AI 代理人立安全規則","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778825503412-mlbf.png","2026-05-15T06:10:34.832664+00:00",{"id":69,"slug":70,"title":71,"cover_image":72,"image_url":72,"created_at":73,"category":26},"0c02225c-d6ff-44f8-bc92-884c8921c4a3","low-complexity-beamspace-denoiser-mmwave-mimo-zh","更簡單的毫米波波束域去噪器","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778814650361-xtc2.png","2026-05-15T03:10:30.06639+00:00",{"id":75,"slug":76,"title":77,"cover_image":78,"image_url":78,"created_at":79,"category":26},"9d27f967-62cc-433f-8cdb-9300937ade13","ai-benchmark-wins-cyber-scare-defenders-zh","為什麼 AI 基準賽在資安領域的勝利，應該讓防守方警醒","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778807450006-nofx.png","2026-05-15T01:10:29.379041+00:00",{"id":81,"slug":82,"title":83,"cover_image":84,"image_url":84,"created_at":85,"category":26},"bc402dc6-5da6-46fc-9d66-d09cb215f72b","why-linux-security-needs-patch-wave-mindset-zh","為什麼 Linux 安全需要「補丁浪潮」思維","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778741449813-s2wn.png","2026-05-14T06:50:24.052583+00:00",[87,92,97,102,107,112,117,122,127,132],{"id":88,"slug":89,"title":90,"created_at":91},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":93,"slug":94,"title":95,"created_at":96},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":98,"slug":99,"title":100,"created_at":101},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":103,"slug":104,"title":105,"created_at":106},"9f50561b-aebd-46ba-94a8-363198aa7091","openclaw-agents-manipulated-self-sabotage-zh","OpenClaw Agent 會自己搞砸自己","2026-03-28T03:03:18.786425+00:00",{"id":108,"slug":109,"title":110,"created_at":111},"11f22e92-7066-4978-a544-31f5f2156ec6","vega-learning-to-drive-with-natural-language-instructions-zh","Vega：使用自然語言指示進行自駕車控制","2026-03-28T14:54:04.847912+00:00",{"id":113,"slug":114,"title":115,"created_at":116},"a4c7cfec-8d0e-4fec-93cf-1b9699a530b8","drive-my-way-en-zh","Drive My Way：個性化自駕車風格的實現","2026-03-28T14:54:26.207495+00:00",{"id":118,"slug":119,"title":120,"created_at":121},"dec02f89-fd39-41ba-8e4d-11ede93a536d","training-knowledge-bases-with-writeback-rag-zh","用 WriteBack-RAG 強化知識庫提升檢索效能","2026-03-28T14:54:45.775606+00:00",{"id":123,"slug":124,"title":125,"created_at":126},"3886be5c-a137-40cc-b9e2-0bf18430c002","packforcing-efficient-long-video-generation-method-zh","PackForcing：短影片訓練也能生成長影片","2026-03-28T14:55:02.688141+00:00",{"id":128,"slug":129,"title":130,"created_at":131},"72b90667-d930-4cc9-8ced-aaa0f8968d44","pixelsmile-toward-fine-grained-facial-expression-editing-zh","PixelSmile：提升精細臉部表情編輯的新方法","2026-03-28T14:55:20.678181+00:00",{"id":133,"slug":134,"title":135,"created_at":136},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00"]