標籤
2 篇文章
DeepSWE 用 113 個任務測 91 個 repo,讓 GPT-5.5 拿到 70%,也抓出 Claude Opus 的漏洞。
Anthropic 的 Claude Mythos Preview 目前只在外部名單露面,主打多模態、位階高於 Opus,外界最在意的是價格、上下文長度與是否真能落地。