標籤
2 篇文章
BenchLM 的程式碼排行榜顯示,真正有用的訊號只剩 LiveCodeBench 與 SWE-bench Pro;HumanEval 已經不適合拿來選模型。
Marginlab 每天跑 50 個 SWE-Bench-Pro 任務,追蹤 Claude Code Opus 4.6 的分數漂移,還會看 token、成本與工具呼叫。