GPT-5.5 在工程測試拿 62.5 分
OpenAI 於 2026/4/23 推出 GPT-5.5,Every 指它在 Senior Engineer Benchmark 最佳成績達 62.5,明顯領先 Opus 4.7,但仍低於人類資深工程師。

Every 指出,OpenAI 的 GPT-5.5 在工程測試拿到 62.5 分,是這次更新的最高分。
OpenAI 在 2026 年 4 月 23 日推出 GPT-5.5。Every 這篇測試把它放進 Senior Engineer Benchmark,比對結果顯示,它的最佳成績是 62.5 分。
| 項目 | 數值 |
|---|---|
| 發布日期 | 2026 年 4 月 23 日 |
| 最佳測試分數 | 62.5 |
| Opus 4.7 對照 | 約 30 多分 |
| 人類資深工程師 | 約 80 多到 90 多分 |
| 上下文長度 | 100 萬 tokens |
| 輸入價格 | 每 100 萬 tokens 5 美元 |
| 輸出價格 | 每 100 萬 tokens 30 美元 |
| GPT-5.5 Pro 輸出價格 | 每 100 萬 tokens 180 美元 |
發生了什麼
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
Every 把 OpenAI 的 GPT-5.5 描述成一個新的 pre-train 模型,而不是單純把舊模型外層包得更好。文章的結論很直接:它在工程任務上更快,也更穩,對長時間工作流更友善。

測試成績上,GPT-5.5 的 62.5 分明顯高於 Anthropic 的 Opus 4.7。差距不是小幅領先,而是從低 30 分跳到 60 分以上,這代表它在這套測試裡的表現層級已經不同。
Every 也提到幾個產品面細節。GPT-5.5 先在 ChatGPT 和 Codex 上線,API 要晚一點才開,原因是還要做更多安全與資安檢查。
- 最佳分數:62.5
- 對照模型:Opus 4.7 約 30 多分
- 測試對象:資深工程任務
- 先開放場景:ChatGPT、Codex
- 延後項目:API
- 模型特性:100 萬 tokens 上下文、支援 prompt caching
文章還指出,GPT-5.5 預設使用中等推理,不是完全關閉推理。這種設定通常代表模型會多想一步,但不會像重推理模式那樣拖慢回應速度。
在任務類型上,Every 認為它更適合持續寫程式、寫文件、做儀表板、整理課程內容,以及把逐字稿變成可交付文件。它也不是全勝,像產品設計、Ruby、PowerPoint 和空間構圖,仍有部分項目落後 Opus 4.7。
為什麼重要
對開發者來說,這代表模型競爭已經不只是「誰更會聊天」,而是「誰更能接住真實工作」。如果 GPT-5.5 在長任務中更穩,團隊就能少做幾輪重試,這會直接影響交付速度。

對產業面來說,OpenAI 這次是在明確搶回工程與知識工作場景。過去不少團隊把 Anthropic 當成寫碼與規劃任務的首選,GPT-5.5 的分數與產品路線,顯然是要把這些使用者拉回來。
價格也值得看。雖然輸入和輸出單價不算低,但如果模型能少出錯、少返工,總成本可能反而更好看。這也是企業採購時最在意的點:不是 token 單價,而是把任務做完的總成本。
最後的問題很簡單:GPT-5.5 能不能從 benchmark 贏,變成團隊每天真的會開著用的工具?如果答案是可以,這次更新就不只是分數上升,而是工作流位置的改寫。