標籤
benchmark
Benchmark 不只是比誰分數高,而是用固定任務檢查模型、代理與編譯器在真實條件下的穩定性。從長鏈推理、資料視覺化工作流到程式碼安全與效能,基準測試也在考驗方法是否可信。
7 篇文章

技術研究/5月15日
為什麼 AI 基準賽在資安領域的勝利,應該讓防守方警醒
AI 資安基準的進展已顯示自主攻擊能力正在追上防守方的規劃速度,這不是實驗室新聞,而是防線時間被壓縮的警訊。

技術研究/5月12日
為什麼 GPT-5.5 應該成為 2026 年的預設寫碼 LLM
GPT-5.5 應該成為 2026 年的預設寫碼 LLM,因為它在公開基準的綜合表現領先,最適合作為團隊的能力上限。

技術研究/5月6日
DeepTest 2026 首辦車主手冊 LLM 評測
DeepTest 2026 首度把 LLM 車主手冊問答拉進競賽式評測,讓四個工具在同一任務下比對檢索能力。

技術研究/4月29日
DV-World 測試圖表代理真實工作流
DV-World 用試算表、視覺演化與意圖對齊三類任務,檢驗資料視覺化代理在更接近企業工作流的表現。

技術研究/4月16日
LongCoT:測長鏈推理,不只看答案
LongCoT 用 2,500 題測試模型能否在長鏈、互相依賴的推理步驟中保持一致。GPT 5.2 與 Gemini 3 Pro 仍低於 10%。

工具應用/4月4日
Claude 的 C 編譯器把基準測試搞砸了
Claude 寫的 C compiler 能編 Linux kernel,卻在 SPEC CPU2017 把效能打到只剩 GCC 的 23.6% 到 27.1%,還有一組直接當掉。

產業動態/3月26日
Meta Llama 4 分數風波又擴大
Meta 的 Llama 4 原本要延續開放模型聲勢,結果卻陷入評測分數爭議。最新報導指出,Meta 在發布前可能用不同模型跑不同 benchmark,讓分數看起來更好,信任問題也跟著擴大。