[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-confident-ai-llm-evaluation-metrics-guide-zh":3,"article-related-confident-ai-llm-evaluation-metrics-guide-zh":39,"series-research-e24e6e7a-6181-476b-8583-339d854cec68":92},{"id":4,"title":5,"content":6,"summary":7,"source":8,"source_url":9,"author":10,"image_url":11,"keywords":12,"language":21,"translated_content":10,"views":22,"is_premium":23,"created_at":24,"updated_at":24,"cover_image":11,"published_at":25,"rewrite_status":26,"rewrite_error":10,"rewritten_from_id":27,"slug":28,"category":29,"related_article_id":30,"status":31,"google_indexed_at":32,"x_posted_at":10,"tweet_text":10,"title_rewritten_at":10,"title_original":10,"key_takeaways":33,"topic_cluster_id":37,"embedding":38,"is_canonical_seed":23},"e24e6e7a-6181-476b-8583-339d854cec68","Confident AI 的 LLM 評估指標指南","\u003Cp data-speakable=\"summary\">這篇在講怎麼用對的指標，去評估 \u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 的正確性、相關性、幻覺和任務完成度。\u003C\u002Fp>\u003Cp>說真的，LLM 評估很容易做歪。模型可以講得很順，內容卻是錯的。這篇 \u003Ca href=\"https:\u002F\u002Fwww.confident-ai.com\u002Fblog\u002Fllm-evaluation-metrics-everything-you-need-for-llm-evaluation\" target=\"_blank\" rel=\"noopener\">Confident AI\u003C\u002Fa> 的文章，就是在講這件事。\u003C\u002Fp>\u003Cp>它的核心很直接。你要先知道系統在做\u003Ca href=\"\u002Fnews\u002Fwhy-amazon-q-developer-is-wrong-future-coding-zh\">什麼\u003C\u002Fa>。是聊天、檢索、還是多步驟 \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa>。不同任務，要看的 metric 完全不同。\u003C\u002Fp>\u003Cp>如果你只看一個總分，通常會踩雷。因為分數好看，不代表產品真的好用。這篇就是在拆這個迷思。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>指標或方法\u003C\u002Fth>\u003Cth>檢查什麼\u003C\u002Fth>\u003Cth>適合情境\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>Answer relevancy\u003C\u002Ftd>\u003Ctd>有沒有回到題目\u003C\u002Ftd>\u003Ctd>聊天機器人、助理\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Correctness\u003C\u002Ftd>\u003Ctd>答案有沒有對\u003C\u002Ftd>\u003Ctd>有標準答案的任務\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Hallucination\u003C\u002Ftd>\u003Ctd>有沒有亂編事實\u003C\u002Ftd>\u003Ctd>信任與安全場景\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Task completion\u003C\u002Ftd>\u003Ctd>agent 有沒有把事做完\u003C\u002Ftd>\u003Ctd>AI agent、工作流\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fevals\u002F\" target=\"_blank\" rel=\"noopener\">G-Eval\u003C\u002Fa>\u003C\u002Ftd>\u003Ctd>用 LLM 搭配 rubric 評分\u003C\u002Ftd>\u003Ctd>語意判斷、開放式輸出\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fprometheus-eval\u002Fprometheus\" target=\"_blank\" rel=\"noopener\">Prometheus\u003C\u002Fa>\u003C\u002Ftd>\u003Ctd>開源 LLM judge\u003C\u002Ftd>\u003Ctd>想要可控的模型評審\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>老派指標為什麼不夠用\u003C\u002Fh2>\u003Cp>文章先點名幾個老面孔，像 \u003Ca href=\"https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FBLEU\" target=\"_blank\" rel=\"noopener\">BLEU\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FROUGE_(metric)\" target=\"_blank\" rel=\"noopener\">ROUGE\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FMETEOR\" target=\"_blank\" rel=\"noopener\">METEOR\u003C\u002Fa>，還有 edit distance。這些方法不是沒用，只是它們本來就為翻譯、摘要、字串比對設計。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779178456675-x5m6.png\" alt=\"Confident AI 的 LLM 評估指標指南\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>問題來了。LLM 的答案常常有很多種講法。意思對就行，不一定要跟 reference 長得一模一樣。你用字詞重疊去打分，很容易把好答案打低分。\u003C\u002Fp>\u003Cp>更麻煩的是，這類分數常常只看表面。它可能獎勵了相似字句，卻沒抓到事實錯誤。對聊天機器人、\u003Ca href=\"\u002Ftag\u002Frag\">RAG\u003C\u002Fa>、coding assistant 來說，這種分數真的不夠看。\u003C\u002Fp>\u003Cul>\u003Cli>BLEU 看 n-gram precision\u003C\u002Fli>\u003Cli>ROUGE 偏向 recall，摘要任務常會用\u003C\u002Fli>\u003Cli>METEOR 會考慮同義詞與詞序\u003C\u002Fli>\u003Cli>Levenshtein distance 看字元編輯次數\u003C\u002Fli>\u003C\u002Ful>\u003Cp>講白了，這些指標適合封閉任務。像拼字修正、欄位抽取、格式固定輸出，都還能用。可是一旦進到自然語言互動，它們就開始失真。\u003C\u002Fp>\u003Cp>Confident AI 的意思很明白。只要任務牽涉語意、推理、或判斷，單靠統計分數就太薄了。你需要能對齊人類判斷的方式。\u003C\u002Fp>\u003Ch2>LLM-as-a-judge 才是重點\u003C\u002Fh2>\u003Cp>這篇最有料的地方，就是 LLM-as-a-judge。做法很簡單。你不再比字串，而是給模型一份 rubric，叫它根據規則打分。\u003C\u002Fp>\u003Cp>這種方法特別適合開放式輸出。像回答問題、摘要、對話品質、工具使用，都很難用 n-gram 解決。你要看的是意思對不對，不是字有沒有對齊。\u003C\u002Fp>\u003Cp>文章提到 \u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fevals\u002F\" target=\"_blank\" rel=\"noopener\">G-Eval\u003C\u002Fa>。它讓 LLM 用步驟化推理去評估輸出。也提到 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fprometheus-eval\u002Fprometheus\" target=\"_blank\" rel=\"noopener\">Prometheus\u003C\u002Fa>，這是開源 judge model，基於 Llama-2-Chat，還用 10 萬筆 feedback 做 fine-tune。\u003C\u002Fp>\u003Cblockquote>\"The secret to making a good LLM evaluation metric great is to make it align with human expectations as much as possible.\" — Jeffrey Ip, Co-founder @ Confident AI\u003C\u002Fblockquote>\u003Cp>這句話很直白。評分標準要像人。不是像數學題。你如果 rubric 寫得很模糊，judge 也只會回你一個模糊分數。\u003C\u002Fp>\u003Cp>文章作者 Jeffrey Ip 也是 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fconfident-ai\u002Fdeepeval\" target=\"_blank\" rel=\"noopener\">DeepEval\u003C\u002Fa> 的創辦人。這點很重要。因為他不是只在講理論，還在推一套真的能落地的工具。\u003C\u002Fp>\u003Ch2>不同系統，要看不同指標\u003C\u002Fh2>\u003Cp>這篇另一個實用點，是它把系統類型分開看。chatbot、RAG、agent，本來就不是同一種東西。你不該用同一把尺量到底。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779178459817-b3z0.png\" alt=\"Confident AI 的 LLM 評估指標指南\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>對 agent 來說，重點是 task completion、argument correctness、tool correctness、plan quality、plan adherence。這些指標在看的是決策過程，不只是結果。\u003C\u002Fp>\u003Cp>對 RAG 來說，重點又\u003Ca href=\"\u002Fnews\u002Fgrok-build-turns-xai-into-coding-agent-zh\">變成\u003C\u002Fa> faithfulness、answer relevancy、contextual precision、contextual recall、contextual relevancy。因為問題常常出在檢索，而不是生成。\u003C\u002Fp>\u003Cul>\u003Cli>Agent 要看工具選擇和步驟順序\u003C\u002Fli>\u003Cli>RAG 要看檢索品質和答案是否依據 context\u003C\u002Fli>\u003Cli>Foundation model 要看 hallucination、toxicity、bias\u003C\u002Fli>\u003Cli>摘要、抽取、對齊任務常需要自訂 rubric\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這裡的重點很實際。你不需要一個超長 dashboard。你只需要少數高訊號指標。每個 metric 只回答一個問題，才好 debug。\u003C\u002Fp>\u003Cp>我覺得這比那種「全都量一輪」的做法健康多了。因為分數越多，團隊越容易吵架。最後大家都在看圖表，沒人在修產品。\u003C\u002Fp>\u003Ch2>數字怎麼看，才不會看錯\u003C\u002Fh2>\u003Cp>這篇文章雖然不是 benchmark 報告，但它其實在提醒一件事。評估要能回到數字，而且數字要能對應失敗模式。這才是 production eval 的核心。\u003C\u002Fp>\u003Cp>如果一個 agent 的分數掉了 12%，你要知道是工具錯了，還是步驟亂了。這兩種問題，修法完全不同。把它們混在一起，只會讓團隊越修越亂。\u003C\u002Fp>\u003Cp>如果一個 RAG 系統答錯，你也要分清楚。是檢索不到資料，還是檢索到了卻亂講。前者是 retrieval 問題，後者是 grounding 問題。\u003C\u002Fp>\u003Cul>\u003Cli>BLEU、ROUGE 適合比對字面重疊\u003C\u002Fli>\u003Cli>G-Eval、judge model 適合看語意和規則\u003C\u002Fli>\u003Cli>Task completion 適合 agent 工作流\u003C\u002Fli>\u003Cli>Hallucination、bias、toxicity 適合安全檢查\u003C\u002Fli>\u003C\u002Ful>\u003Cp>你可能會想問，那到底要選哪個？答案是看產品。不是看論文。不是看社群在吹什麼。你要看使用者會在哪裡失望。\u003C\u002Fp>\u003Cp>如果使用者會因為答案錯而翻白眼，那 correctness 就要高優先。如果使用者只是想要有用回覆，那 relevancy 可能比 exact match 更重要。\u003C\u002Fp>\u003Ch2>這篇其實在推一種工作流\u003C\u002Fh2>\u003Cp>Confident AI 的文章不只是講指標。它也在推一種 eval 工作流。先定義 metric，再拿真實例子測，接著用 regression testing 追版本變化。\u003C\u002Fp>\u003Cp>這很像軟體測試。只是測的不是 function output，而是 LLM 行為。模型、prompt、工具一改，分數就會\u003Ca href=\"\u002Fnews\u002Frrfp-readiness-driven-pipeline-training-zh\">跟著\u003C\u002Fa>變。你如果沒有固定流程，很快就不知道問題從哪來。\u003C\u002Fp>\u003Cp>文章也把 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fconfident-ai\u002Fdeepeval\" target=\"_blank\" rel=\"noopener\">DeepEval\u003C\u002Fa> 放進來。它是開源工具，主打用幾行 code 寫出現代 LLM metrics。搭配 \u003Ca href=\"https:\u002F\u002Fwww.confident-ai.com\u002F\" target=\"_blank\" rel=\"noopener\">Confident AI\u003C\u002Fa> 的雲端平台，還能做觀測、資料集管理、測試報表。\u003C\u002Fp>\u003Cp>這種設計很符合現在團隊的痛點。大家不是不想測，是不知道怎麼把「品質」變成可重複的流程。只靠人工 review，根本撐不住版本迭代。\u003C\u002Fp>\u003Cp>如果你在做 LLM app，我會建議你先問三件事。使用者最常抱怨什麼。哪個失敗最貴。哪個指標能穩定重現這個失敗。這三題比堆一堆分數有用多了。\u003C\u002Fp>\u003Ch2>產業脈絡也很清楚\u003C\u002Fh2>\u003Cp>現在很多團隊都在做 LLM app。從客服、搜尋、內部知識庫，到 agent 自動化，都開始上線。問題是，大家很愛先做 demo，後補評估。\u003C\u002Fp>\u003Cp>這種順序很危險。因為 demo 看起來順，不代表 production 穩。真實資料更髒，使用者問題更雜，模型也更容易亂編。沒有 eval，很多 bug 會一路滑進正式環境。\u003C\u002Fp>\u003Cp>更現實的是，LLM 系統的成本也不低。每次呼叫都要算 \u003Ca href=\"\u002Ftag\u002Ftoken\">Token\u003C\u002Fa>。每個 judge 也要算 \u003Ca href=\"\u002Ftag\u002Fapi\">API\u003C\u002Fa> 費。你不能無腦把所有東西都丟給大模型評分，否則成本會先爆。\u003C\u002Fp>\u003Cp>所以現在主流做法，通常是混搭。簡單任務用規則或 exact match。語意任務用 LLM judge。安全項目再加人工抽查。這樣才比較像真的工程。\u003C\u002Fp>\u003Cp>這篇文章的價值，就在這裡。它沒有把評估講成神話。它只是很務實地說，對的 metric 才有用。這句話聽起來普通，但很多團隊真的做不到。\u003C\u002Fp>\u003Ch2>先選對 metric，再談模型好壞\u003C\u002Fh2>\u003Cp>如果你現在正在做 LLM 產品，我的建議很簡單。先列出 3 個最常見失敗。再替每個失敗找 1 個指標。不要一開始就追求全套評分系統。\u003C\u002Fp>\u003Cp>你也可以先從最容易對齊的地方開始。像 answer relevancy、correctness、hallucination，這三個就很夠用了。等你真的有 agent 或 RAG，再補 task completion 和 retrieval 類指標。\u003C\u002Fp>\u003Cp>講白了，eval 不是裝飾品。它是產品的一部分。你不先定義怎樣算好，後面就只剩下吵架。這篇 \u003Ca href=\"https:\u002F\u002Fwww.confident-ai.com\u002Fblog\u002Fllm-evaluation-metrics-everything-you-need-for-llm-evaluation\" target=\"_blank\" rel=\"noopener\">Confident AI\u003C\u002Fa> 的指南，最有價值的地方就是把這件事講得很實際。\u003C\u002Fp>\u003Cp>如果你要我下結論，我會說：先把 metric 收斂到 3 到 5 個，再把每個指標對到一種真實失敗。這樣你才有辦法真的管住 LLM 品質，不然數字再多也只是好看而已。\u003C\u002Fp>","Confident AI 解析 LLM 評估指標，從正確性、相關性、幻覺到 agent 任務完成，教你挑對 metric。","www.confident-ai.com","https:\u002F\u002Fwww.confident-ai.com\u002Fblog\u002Fllm-evaluation-metrics-everything-you-need-for-llm-evaluation",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779178456675-x5m6.png",[13,14,15,16,17,18,19,20],"LLM 評估","evaluation metrics","Confident AI","DeepEval","G-Eval","Prometheus","RAG","AI agent","zh",2,false,"2026-05-19T08:13:46.193772+00:00","2026-05-19T08:13:46.156+00:00","done","9e952ef0-3923-46a6-a7f0-94c8af0cd3ba","confident-ai-llm-evaluation-metrics-guide-zh","research","180a8696-ada6-43c3-ac47-5b6cea8e0b31","published","2026-05-19T09:00:32.343+00:00",[34,35,36],"BLEU、ROUGE 這類字詞重疊指標，對開放式 LLM 輸出常常不夠用。","LLM-as-a-judge 更適合看語意、規則和人類感受，但 rubric 要寫清楚。","不同系統要用不同 metric，chatbot、RAG、agent 不能用同一套分數。","0c35a120-52fc-41fc-afa3-d404eb934158","[-0.027687544,-0.013090221,0.0046610967,-0.06545494,-0.019416451,-0.01623362,-0.02610199,-0.0046769762,0.014085435,-0.0032140275,0.017377764,0.008457171,-0.00923898,-0.023854874,0.122850545,0.029249534,-0.0017951296,0.032888096,0.02332344,-0.03474764,0.01070466,-0.0017590168,-0.005499693,0.007954733,-0.013334709,0.008173452,0.010126716,0.019611154,0.029312445,0.018710477,-0.0046168403,0.02726731,0.024428355,0.027186913,-0.009201949,0.011831607,0.01784303,-0.0069074007,0.04072905,0.009022041,0.006687826,-0.021464042,-0.012349796,-0.020034991,-0.0094855195,0.016692048,0.012807319,-0.001129629,-0.0041227387,0.015874883,0.00013707041,0.046244152,0.0017672053,-0.15707771,-0.0045755897,-0.013904841,0.0038349596,0.030673882,0.0047194217,0.0032430792,-0.0117863,0.014543307,-0.046041515,-0.011741936,-0.011094411,-0.026759077,0.019177828,-0.02246651,-0.014985381,-0.03356679,-0.0063649393,-0.0054092226,0.011704871,-0.042926062,-0.007488404,-0.020003002,-0.0049469373,-0.0033227338,0.009891061,0.0107643865,0.0045300364,-0.040349986,0.0012568042,0.0033124108,0.008767926,-0.0067430283,-0.008006872,-0.009550554,0.023875749,0.01078341,0.003915437,0.0028223738,-0.0022857145,0.0021387562,0.018056989,-0.000610342,-0.048894707,0.013234104,0.0017808191,-0.0069714217,-0.02080088,-0.01108112,0.0036454631,0.008654894,-0.0042553185,0.014772076,0.0073687243,-0.0016075295,-0.029198864,0.009453119,0.00957741,-0.027181774,0.0003003558,-0.016062303,-0.02223335,-0.14923444,-0.0024399518,0.008657034,0.020067582,-0.013449112,-0.02595546,-0.015012428,-0.006267047,0.038363874,-0.013629948,-0.009309138,0.01853503,-0.012382592,0.0042518475,0.001314221,-0.02379717,-0.0011406098,0.021779964,-0.018445019,0.026303064,0.019050833,-0.020026235,0.0024455665,-0.03999678,-0.025674017,0.019533508,0.012402224,0.014481909,-0.019282773,-0.008237479,-0.017487535,-0.026869053,-0.002636228,0.020277299,-0.0012802191,0.022002382,0.00030338406,-0.007188924,-0.0038738232,0.0452445,0.023472656,0.03938411,0.041096967,0.0041346215,0.020043572,0.005726926,0.009227419,-0.033772305,0.0056486637,0.036214694,-0.018512078,-0.022296073,-0.01748694,0.008979785,0.02472831,0.0071258517,-0.029157683,0.0048621,-0.0057413266,0.0022081127,-0.0044204127,0.0016627954,0.011934885,0.024054479,-0.01944411,0.026709288,0.01284187,-0.02959848,0.009197762,-0.023411999,0.009040315,0.019944085,0.03783396,0.0078100204,0.02174409,-0.034584407,-0.017245457,0.02763362,-0.002654208,-0.003903477,-0.011071026,-0.006733503,0.011427946,0.0051724706,0.018041741,0.0021447132,0.0077998727,0.012912852,-0.03168534,-0.00036234982,-0.02752243,-8.9392175e-05,-0.006000016,0.034688633,-0.014455259,0.0027510293,0.018772194,-0.015291789,0.0022297422,-0.008463545,-0.01806118,-0.0108496975,0.012498278,0.034842603,-0.035898298,0.014552919,0.00510029,0.036167428,0.020787768,-0.013327253,-0.015869014,-0.0056786877,-0.01440192,0.008102487,0.011246362,-0.00902453,-0.00111064,0.027580278,0.010869665,0.036018886,0.024643926,-0.0008654474,0.016476804,0.0042100865,0.013373067,-0.02289031,-0.0015176866,-0.0098044155,0.01942206,0.03940883,-0.008878852,0.016065335,7.898268e-05,-0.0010788495,-0.008517099,-0.013903752,0.02674215,0.009325052,0.0036162827,0.0019559304,-0.02218352,-0.019197375,-0.0023440733,-0.01626359,-0.01296635,0.027054148,0.028446985,0.006242549,-0.0029375497,-0.008548096,-0.0102760885,-0.004072441,-0.017119922,-0.042625573,0.01711464,-0.0023783206,0.02598224,0.0061462163,0.007138603,0.02242052,0.009724001,-0.039673734,0.020173471,0.030542182,-0.013089163,0.013253801,0.0026253362,0.010128165,0.012227216,-0.012467913,0.031021446,-0.0011286864,-0.01859907,0.0030535639,-0.023840945,-0.011654354,0.015308542,-0.010745448,-0.00051091483,-0.036548704,-0.026211625,-0.0011896505,0.025770841,-0.011865177,0.0030921008,-0.00017023456,0.017671375,-0.003302601,0.045618605,-0.010630378,-0.008766041,-0.010934971,-0.002362327,0.0060396674,-0.004367509,-0.008022193,-0.009599757,0.0035442556,-0.0026799943,-0.017413009,-0.027774667,0.003804471,-0.019006811,-0.009978379,-0.0036941136,0.018890329,0.0009771734,-0.035132837,0.0010689403,-0.013885217,-0.014487687,0.0035584362,0.02086437,0.010481928,-0.0149441585,-0.00515563,-0.005106289,0.0054459395,0.0023793194,-0.006543152,-0.011929662,-0.011858698,-0.007961935,-0.0052119824,0.012711778,-0.012246966,-0.000624115,0.0009738153,0.036733128,-0.027582185,0.029083487,0.0006268531,0.0129995905,-0.033406086,-0.019580536,0.033471465,-0.008577817,-0.019042103,-0.02645083,-0.038307883,0.009678112,-0.031705607,-0.00040078658,0.013978871,0.03463477,0.0033251361,-0.012644701,0.0032892304,0.0044742916,0.02341523,-0.02564427,0.018009685,0.007733539,-0.008661305,0.015441606,0.00680244,0.0040297196,0.015855627,-0.0041215587,-0.008779275,0.0029445812,-0.009113112,0.0065931748,-0.0051087816,0.012959314,-0.0045541567,0.024492837,-0.042281065,-0.0171085,-0.0058256607,0.009564804,0.033372775,0.006685075,0.011468549,0.005211891,0.0037700725,0.0125249745,0.007986468,0.016329713,0.018616972,-0.011867139,-0.002013899,0.0091394,0.0037748134,-0.0105085075,0.010569687,0.0018132107,0.011633231,0.011910903,-0.0055464027,-0.011023652,0.012327314,0.023283314,0.0011139958,-0.010627982,0.0338929,0.011831626,-0.007867328,0.0013872837,0.013641202,0.009069606,-0.012992952,-0.0038343212,0.020806568,-0.0054542357,-0.005060123,0.033772305,-0.009454306,-1.5426913e-05,0.00807122,0.00058512203,-0.03368765,-0.013221851,0.0076320274,-0.0010392263,0.019004738,-0.015377403,-0.012882861,-0.014696152,-0.021464562,-0.0058446233,-0.0024661839,-0.01627704,-0.0033301085,-0.011884138,-0.0061215027,0.0016215936,0.01414374,-0.009366618,0.014937446,-0.014658829,-0.00034738655,-0.0074336734,-0.031004405,0.018980943,0.03575623,0.039409492,0.028258158,-0.0052866954,-0.011803783,-0.004007841,-0.006019386,0.008780242,0.010533137,-0.01455406,0.018615322,-0.02232996,0.026241543,0.025933586,0.01107828,-0.00798532,-0.00088686554,-0.01139443,0.01454733,0.010422193,-0.034933504,0.014839335,0.028164055,0.016998865,0.0142452065,-0.02082989,-0.015145493,0.017475218,-0.006020274,0.011566685,-0.020642465,-0.02179942,0.009786166,-0.023916429,-0.016507713,-0.0075539555,0.005851262,0.004482908,-0.011703655,0.016782504,0.018714461,0.00404327,-0.0029859606,0.026459567,-0.031439614,-0.012825932,-0.0156971,-0.015866581,-0.0038529565,0.022074787,0.010668086,-0.016145332,0.023355272,0.002307794,-0.0045017963,-0.008114051,-0.010906006,0.018490626,-0.01530251,-0.005888066,-0.026042622,0.004188007,0.028694946,0.018504415,-0.011181866,-0.0042036604,0.018039161,0.009412482,0.0069302665,-0.013285245,-0.029818378,-0.015568533,-0.034375865,0.02767511,-0.016354397,-0.021386879,0.024737982,0.013981915,0.014024086,0.045079995,0.014324311,0.025312247,0.009914647,-0.012696906,0.020090139,0.015642006,0.039411135,0.020482408,0.021491678,0.0029786737,-0.03348271,0.0035280494,-0.010500411,-0.012421369,0.026795408,-0.085130736,-0.0032196864,0.020862745,-0.0037045502,0.005848474,0.0025239058,-0.023691487,-0.0070044473,0.017889911,0.014520614,-0.003913991,-0.005165527,0.013819974,0.003127235,3.2632755e-07,-0.006493356,-0.014013619,-0.0028248779,0.012694941,-0.029493323,0.021663552,-0.016853891,0.014691052,0.019045515,-0.017145561,-0.008727131,0.011251854,0.0029214362,0.0047553615,0.0048674317,-0.018486125,-0.025209857,-0.016677674,0.017875344,0.0068952325,0.012836886,0.035091616,-0.026300343,0.008402826,0.005881459,0.00233995,-2.5130788e-05,-0.049046397,-0.044235095,-0.005390748,-0.0033365092,-0.014478686,0.0032675338,-0.00014130982,0.016665775,-0.03172168,-0.020176675,-0.003639135,-0.023014612,-0.012749971,-0.01613191,-0.03604217,0.017116131,-0.0076543456,-0.005626571,-0.016989257,0.0014491875,-0.012631531,0.031907164,0.006357116,-0.0007133449,0.00479735,0.042832043,0.002299689,0.016137674,0.0041362382,-0.009142862,0.0053370357,0.013884112,-0.026519379,0.0122662885,-0.014229,0.022706848,-0.029660964,-0.0087834,-0.02978038,-0.037146572,-0.09242403,0.0019040598,0.001351876,0.02354313,0.010273146,-0.01588974,0.04596897,-0.03333946,-0.0073325573,-0.018097369,0.020654893,-0.011106639,0.00012400874,-0.006592009,-0.015651695,-0.0032646742,0.0018982626,-0.034492943,0.018327512,-0.026053851,-0.010085859,0.0037710587,-0.011336018,-0.016803375,-0.022319866,0.010232149,0.005850736,0.017905278,0.010814316,-0.001823467,-0.01389601,-0.13634272,-0.044895094,-0.02178839,0.012193172,-0.02815113,-0.009053773,0.016738126,0.011113906,0.007696733,0.0019064023,-0.0016277432,-0.051212873,-0.009503362,-0.016715363,-0.018986361,0.09531055,-0.020854136,0.0018565003,-0.027447326,-0.00814117,-0.005181389,-0.011162645,-0.030011162,-0.005362392,0.015382531,-0.0052923197,0.016857458,-0.014855697,0.007294631,0.023632191,0.018174808,0.025041556,-0.0040067243,0.005122211,0.0074116797,-0.0014920181,-0.012598723,-0.01590742,-0.015647825,-0.007825446,0.016248249,0.010154871,0.01811762,-0.01311968,-0.006572381,-0.012433854,-0.025160823,-0.02274916,0.003017151,-0.009679089,-0.013741518,-0.050342195,-0.008419371,0.012410533,0.014288102,0.02177255,-0.00343464,-0.0071797175,0.015685054,-0.0027081277,0.024743048,-0.01388423,0.0036717441,0.019960087,-0.015874362,-0.00222026,-0.0027201427,0.0103897415,0.022182722,0.018318444,0.00045382782,-0.0010464615,-0.021772593,0.0028035769,0.012654693,-0.011588318,0.0042734337,9.829993e-05,0.03129401,-0.0045366213,0.0027115352,0.019431083,0.0106476415,-0.0036102645,0.027308356,0.008853926,0.006663018,0.0016656514,-0.0128882,-0.018486336,-0.011736448,0.017932458,-0.015842676,-0.0025332537,0.004547964,0.0011564107,-0.0034773764,0.013121469,0.014755734,-0.0009345372,-0.008069193,-0.018462809,0.036748085,-0.012852341,-0.004126012,0.0045410786,-0.0018361339,0.03423528,0.013500974,-0.011207621]",{"tags":40,"relatedLang":51,"relatedPosts":55},[41,43,45,47,49],{"name":13,"slug":42},"llm-評估",{"name":15,"slug":44},"confident-ai",{"name":14,"slug":46},"evaluation-metrics",{"name":16,"slug":48},"deepeval",{"name":17,"slug":50},"g-eval",{"id":30,"slug":52,"title":53,"language":54},"confident-ai-llm-evaluation-metrics-guide-en","Confident AI’s guide to LLM evaluation metrics","en",[56,62,68,74,80,86],{"id":57,"slug":58,"title":59,"cover_image":60,"image_url":60,"created_at":61,"category":29},"d1c6850c-f832-471b-8beb-c0ebc809667d","peft-bench-fine-tuning-methods-benchmark-zh","PEFT-Bench 讓微調比較更公平","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779179048497-jm5y.png","2026-05-19T08:23:36.803043+00:00",{"id":63,"slug":64,"title":65,"cover_image":66,"image_url":66,"created_at":67,"category":29},"adfa9b15-68b6-44cc-b34d-ebcb02c31210","code-becomes-the-agent-harness-zh","程式碼成了代理引擎","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779173040130-zcyg.png","2026-05-19T06:43:29.625994+00:00",{"id":69,"slug":70,"title":71,"cover_image":72,"image_url":72,"created_at":73,"category":29},"eda7a80a-b234-4ada-90d1-a37b144251dc","rrfp-readiness-driven-pipeline-training-zh","RRFP 讓管線訓練跟著就緒跑","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779172442474-n21q.png","2026-05-19T06:33:31.287772+00:00",{"id":75,"slug":76,"title":77,"cover_image":78,"image_url":78,"created_at":79,"category":29},"475844e6-3e2c-49a6-aea0-86a94945d2c2","dashattention-differentiable-adaptive-sparse-attention-zh","DashAttention 讓稀疏長上下文可微","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779171840613-dq1r.png","2026-05-19T06:23:32.886786+00:00",{"id":81,"slug":82,"title":83,"cover_image":84,"image_url":84,"created_at":85,"category":29},"23a3d4c7-5cb7-40ae-a05b-1542364e786f","ibm-prompt-guide-turns-ai-guesses-into-outputs-zh","IBM 提示指南把猜答案變輸出","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779132863293-etob.png","2026-05-18T19:33:55.711767+00:00",{"id":87,"slug":88,"title":89,"cover_image":90,"image_url":90,"created_at":91,"category":29},"7c89c3bd-48cb-4b4e-942d-bbf0409fc392","cattle-trade-llm-bluffing-bargaining-benchmark-zh","Cattle Trade 要測 LLM 談判 bluffing","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779085437419-b0zw.png","2026-05-18T06:23:27.885037+00:00",[93,98,103,108,113,118,123,128,133,138],{"id":94,"slug":95,"title":96,"created_at":97},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"9f50561b-aebd-46ba-94a8-363198aa7091","openclaw-agents-manipulated-self-sabotage-zh","OpenClaw Agent 會自己搞砸自己","2026-03-28T03:03:18.786425+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"11f22e92-7066-4978-a544-31f5f2156ec6","vega-learning-to-drive-with-natural-language-instructions-zh","Vega：使用自然語言指示進行自駕車控制","2026-03-28T14:54:04.847912+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"a4c7cfec-8d0e-4fec-93cf-1b9699a530b8","drive-my-way-en-zh","Drive My Way：個性化自駕車風格的實現","2026-03-28T14:54:26.207495+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"dec02f89-fd39-41ba-8e4d-11ede93a536d","training-knowledge-bases-with-writeback-rag-zh","用 WriteBack-RAG 強化知識庫提升檢索效能","2026-03-28T14:54:45.775606+00:00",{"id":129,"slug":130,"title":131,"created_at":132},"3886be5c-a137-40cc-b9e2-0bf18430c002","packforcing-efficient-long-video-generation-method-zh","PackForcing：短影片訓練也能生成長影片","2026-03-28T14:55:02.688141+00:00",{"id":134,"slug":135,"title":136,"created_at":137},"72b90667-d930-4cc9-8ced-aaa0f8968d44","pixelsmile-toward-fine-grained-facial-expression-editing-zh","PixelSmile：提升精細臉部表情編輯的新方法","2026-03-28T14:55:20.678181+00:00",{"id":139,"slug":140,"title":141,"created_at":142},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00"]