標籤
模型評測
模型評測關注的是 AI 模型在知識、推理、長上下文與真實任務上的表現,也包括 benchmark 是否可信。從分數爭議、提示詞對成績的影響,到不同模型在同一測試上的差異,這類內容幫助開發者判斷模型能否真正上線。
4 篇文章

產業動態/5月14日
為什麼 LLM 排行榜常常選錯模型品質
LLM 排行榜有參考價值,但不適合拿來決定生產環境要用哪個模型。

模型發布/4月13日
GPT-5.4 知識測驗拿 97.6 分
GPT-5.4 在 BenchLM 知識與理解拿到 97.6 分,總榜暫列第 2,還有 1.05M token 長上下文。這篇拆解它適合哪些工作、和其他模型怎麼比。

技術研究/4月2日
重複提示詞,準確率真的會上升
Google Research 研究發現,提示詞複製一次可讓 70 組模型與基準測試中的 47 組提升準確率,NameIndex 甚至從 21.33% 衝到 97.33%。

產業動態/3月26日
Meta Llama 4 分數風波又擴大
Meta 的 Llama 4 原本要延續開放模型聲勢,結果卻陷入評測分數爭議。最新報導指出,Meta 在發布前可能用不同模型跑不同 benchmark,讓分數看起來更好,信任問題也跟著擴大。