返回首頁

標籤

benchmark

Benchmark 不只是比誰分數高,而是用固定任務檢查模型、代理與編譯器在真實條件下的穩定性。從長鏈推理、資料視覺化工作流到程式碼安全與效能,基準測試也在考驗方法是否可信。

7 篇文章

為什麼 AI 基準賽在資安領域的勝利,應該讓防守方警醒
技術研究/5月15日

為什麼 AI 基準賽在資安領域的勝利,應該讓防守方警醒

AI 資安基準的進展已顯示自主攻擊能力正在追上防守方的規劃速度,這不是實驗室新聞,而是防線時間被壓縮的警訊。

為什麼 GPT-5.5 應該成為 2026 年的預設寫碼 LLM
技術研究/5月12日

為什麼 GPT-5.5 應該成為 2026 年的預設寫碼 LLM

GPT-5.5 應該成為 2026 年的預設寫碼 LLM,因為它在公開基準的綜合表現領先,最適合作為團隊的能力上限。

DeepTest 2026 首辦車主手冊 LLM 評測
技術研究/5月6日

DeepTest 2026 首辦車主手冊 LLM 評測

DeepTest 2026 首度把 LLM 車主手冊問答拉進競賽式評測,讓四個工具在同一任務下比對檢索能力。

DV-World 測試圖表代理真實工作流
技術研究/4月29日

DV-World 測試圖表代理真實工作流

DV-World 用試算表、視覺演化與意圖對齊三類任務,檢驗資料視覺化代理在更接近企業工作流的表現。

LongCoT:測長鏈推理,不只看答案
技術研究/4月16日

LongCoT:測長鏈推理,不只看答案

LongCoT 用 2,500 題測試模型能否在長鏈、互相依賴的推理步驟中保持一致。GPT 5.2 與 Gemini 3 Pro 仍低於 10%。

Claude 的 C 編譯器把基準測試搞砸了
工具應用/4月4日

Claude 的 C 編譯器把基準測試搞砸了

Claude 寫的 C compiler 能編 Linux kernel,卻在 SPEC CPU2017 把效能打到只剩 GCC 的 23.6% 到 27.1%,還有一組直接當掉。

Meta Llama 4 分數風波又擴大
產業動態/3月26日

Meta Llama 4 分數風波又擴大

Meta 的 Llama 4 原本要延續開放模型聲勢,結果卻陷入評測分數爭議。最新報導指出,Meta 在發布前可能用不同模型跑不同 benchmark,讓分數看起來更好,信任問題也跟著擴大。