標籤

Terminal Bench 2.0

Terminal Bench 2.0 是用來衡量 AI 在終端機環境中完成指令、排錯與工具操作的基準，常見於代理式寫碼與自動化工作流評估。它能反映模型是否真的能在 shell、檔案系統與多步驟任務中穩定執行。

2 篇文章

GLM-5 登場：Z.AI 的寫程式旗艦

GLM-5 是 Z.AI 的新旗艦模型。744B 總參數、200K context、SWE-bench Verified 77.8、Terminal Bench 2.0 56.2，直接挑戰頂級 coding 模型。

Cursor 推出 Composer 2，CursorBench 61.3、Terminal-Bench 2.0 61.7，主打代理式寫碼與高量產團隊的成本效率。