OraCore
.dev
新聞
趨勢
比較
排行
學習
Claude Code
更多
EN
更多
EN
新聞
趨勢
比較
排行
學習
Claude Code
返回首頁
標籤
程式碼模型評估
1 篇文章
技術研究
/
5月13日
為什麼程式碼基準測試終於開始說實話
BenchLM 的程式碼排行榜顯示,真正有用的訊號只剩 LiveCodeBench 與 SWE-bench Pro;HumanEval 已經不適合拿來選模型。