[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tag-terminal-bench-20":3},{"tag":4,"articles":11},{"id":5,"name":6,"slug":7,"article_count":8,"description_zh":9,"description_en":10},"94531867-5fcd-4032-ab55-b86b39b21364","Terminal Bench 2.0","terminal-bench-20",4,"Terminal Bench 2.0 是用來衡量 AI 在終端機環境中完成指令、排錯與工具操作的基準，常見於代理式寫碼與自動化工作流評估。它能反映模型是否真的能在 shell、檔案系統與多步驟任務中穩定執行。","Terminal Bench 2.0 measures how well AI systems handle real terminal work: running commands, fixing errors, navigating files, and chaining multi-step shell tasks. It is a useful signal for agentic coding, automation, and models that must operate reliably in CLI-driven workflows.",[12,21],{"id":13,"slug":14,"title":15,"summary":16,"category":17,"image_url":18,"cover_image":18,"language":19,"created_at":20},"91fe9555-c2db-4489-babe-df23943ec39b","glm-5-zai-flagship-coding-agents-en","GLM-5: Z.AI's new flagship for coding and agents","GLM-5 posts 77.8 on SWE-bench Verified and 56.2 on Terminal Bench 2.0, putting Z.AI in direct competition with top coding models.","model-release","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775135076803-ig5q.png","en","2026-04-02T13:03:42.827978+00:00",{"id":22,"slug":23,"title":24,"summary":25,"category":17,"image_url":26,"cover_image":27,"language":19,"created_at":28},"d23cd5f6-f875-49f5-b53b-1c5416d13d99","cursor-composer-2-agentic-coding-model-en","Cursor Composer 2 Bets on Agentic Coding","Cursor’s Composer 2 posts 61.3 on CursorBench and 61.7 on Terminal-Bench 2.0, with pricing aimed at high-volume coding teams.",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1774498610250-zp8n.png","2026-03-28T03:13:06.513673+00:00"]