標籤

LiveCodeBench

2 篇文章

為什麼程式碼基準測試終於開始說實話

技術研究/5月13日

為什麼程式碼基準測試終於開始說實話

BenchLM 的程式碼排行榜顯示，真正有用的訊號只剩 LiveCodeBench 與 SWE-bench Pro；HumanEval 已經不適合拿來選模型。

為什麼 GPT-5.5 應該成為 2026 年的預設寫碼 LLM

技術研究/5月12日

為什麼 GPT-5.5 應該成為 2026 年的預設寫碼 LLM

GPT-5.5 應該成為 2026 年的預設寫碼 LLM，因為它在公開基準的綜合表現領先，最適合作為團隊的能力上限。