GPT-5.5 在工程測試拿 62.5 分

[MODEL] 2026年5月23日3 分鐘閱讀OraCore 編輯部

OpenAI 於 2026/4/23 推出 GPT-5.5，Every 指它在 Senior Engineer Benchmark 最佳成績達 62.5，明顯領先 Opus 4.7，但仍低於人類資深工程師。

Every 指出，OpenAI 的 GPT-5.5 在工程測試拿到 62.5 分，是這次更新的最高分。

OpenAI 在 2026 年 4 月 23 日推出 GPT-5.5。Every 這篇測試把它放進 Senior Engineer Benchmark，比對結果顯示，它的最佳成績是 62.5 分。

發生了什麼

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

Every 把 OpenAI 的 GPT-5.5 描述成一個新的 pre-train 模型，而不是單純把舊模型外層包得更好。文章的結論很直接：它在工程任務上更快，也更穩，對長時間工作流更友善。

測試成績上，GPT-5.5 的 62.5 分明顯高於 Anthropic 的 Opus 4.7。差距不是小幅領先，而是從低 30 分跳到 60 分以上，這代表它在這套測試裡的表現層級已經不同。

Every 也提到幾個產品面細節。GPT-5.5 先在 ChatGPT 和 Codex 上線，API 要晚一點才開，原因是還要做更多安全與資安檢查。

文章還指出，GPT-5.5 預設使用中等推理，不是完全關閉推理。這種設定通常代表模型會多想一步，但不會像重推理模式那樣拖慢回應速度。

在任務類型上，Every 認為它更適合持續寫程式、寫文件、做儀表板、整理課程內容，以及把逐字稿變成可交付文件。它也不是全勝，像產品設計、Ruby、PowerPoint 和空間構圖，仍有部分項目落後 Opus 4.7。

對開發者來說，這代表模型競爭已經不只是「誰更會聊天」，而是「誰更能接住真實工作」。如果 GPT-5.5 在長任務中更穩，團隊就能少做幾輪重試，這會直接影響交付速度。

對產業面來說，OpenAI 這次是在明確搶回工程與知識工作場景。過去不少團隊把 Anthropic 當成寫碼與規劃任務的首選，GPT-5.5 的分數與產品路線，顯然是要把這些使用者拉回來。

價格也值得看。雖然輸入和輸出單價不算低，但如果模型能少出錯、少返工，總成本可能反而更好看。這也是企業採購時最在意的點：不是 token 單價，而是把任務做完的總成本。

最後的問題很簡單：GPT-5.5 能不能從 benchmark 贏，變成團隊每天真的會開著用的工具？如果答案是可以，這次更新就不只是分數上升，而是工作流位置的改寫。

// 相關文章