返回首頁

標籤

Terminal Bench 2.0

Terminal Bench 2.0 是用來衡量 AI 在終端機環境中完成指令、排錯與工具操作的基準,常見於代理式寫碼與自動化工作流評估。它能反映模型是否真的能在 shell、檔案系統與多步驟任務中穩定執行。

2 篇文章