標籤

模型評測

模型評測關注的是 AI 模型在知識、推理、長上下文與真實任務上的表現，也包括 benchmark 是否可信。從分數爭議、提示詞對成績的影響，到不同模型在同一測試上的差異，這類內容幫助開發者判斷模型能否真正上線。

5 篇文章

為什麼基準排行榜看錯了模型邏輯

排行榜的月度波動放大了進步感，卻掩蓋了模型邏輯仍然脆弱的事實。

LLM 排行榜有參考價值，但不適合拿來決定生產環境要用哪個模型。

GPT-5.4 在 BenchLM 知識與理解拿到 97.6 分，總榜暫列第 2，還有 1.05M token 長上下文。這篇拆解它適合哪些工作、和其他模型怎麼比。

Google Research 研究發現，提示詞複製一次可讓 70 組模型與基準測試中的 47 組提升準確率，NameIndex 甚至從 21.33% 衝到 97.33%。

Meta 的 Llama 4 原本要延續開放模型聲勢，結果卻陷入評測分數爭議。最新報導指出，Meta 在發布前可能用不同模型跑不同 benchmark，讓分數看起來更好，信任問題也跟著擴大。