標籤
Terminal Bench 2.0 是用來衡量 AI 在終端機環境中完成指令、排錯與工具操作的基準,常見於代理式寫碼與自動化工作流評估。它能反映模型是否真的能在 shell、檔案系統與多步驟任務中穩定執行。
2 篇文章
GLM-5 是 Z.AI 的新旗艦模型。744B 總參數、200K context、SWE-bench Verified 77.8、Terminal Bench 2.0 56.2,直接挑戰頂級 coding 模型。
Cursor 推出 Composer 2,CursorBench 61.3、Terminal-Bench 2.0 61.7,主打代理式寫碼與高量產團隊的成本效率。