[MODEL] 3 分鐘閱讀OraCore 編輯部

GPT-5.5 在工程測試拿 62.5 分

OpenAI 於 2026/4/23 推出 GPT-5.5,Every 指它在 Senior Engineer Benchmark 最佳成績達 62.5,明顯領先 Opus 4.7,但仍低於人類資深工程師。

分享 LinkedIn
GPT-5.5 在工程測試拿 62.5 分

Every 指出,OpenAI 的 GPT-5.5 在工程測試拿到 62.5 分,是這次更新的最高分。

OpenAI 在 2026 年 4 月 23 日推出 GPT-5.5。Every 這篇測試把它放進 Senior Engineer Benchmark,比對結果顯示,它的最佳成績是 62.5 分。

項目數值
發布日期2026 年 4 月 23 日
最佳測試分數62.5
Opus 4.7 對照約 30 多分
人類資深工程師約 80 多到 90 多分
上下文長度100 萬 tokens
輸入價格每 100 萬 tokens 5 美元
輸出價格每 100 萬 tokens 30 美元
GPT-5.5 Pro 輸出價格每 100 萬 tokens 180 美元

發生了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

Every 把 OpenAI 的 GPT-5.5 描述成一個新的 pre-train 模型,而不是單純把舊模型外層包得更好。文章的結論很直接:它在工程任務上更快,也更穩,對長時間工作流更友善。

GPT-5.5 在工程測試拿 62.5 分

測試成績上,GPT-5.5 的 62.5 分明顯高於 AnthropicOpus 4.7。差距不是小幅領先,而是從低 30 分跳到 60 分以上,這代表它在這套測試裡的表現層級已經不同。

Every 也提到幾個產品面細節。GPT-5.5 先在 ChatGPTCodex 上線,API 要晚一點才開,原因是還要做更多安全與資安檢查。

  • 最佳分數:62.5
  • 對照模型:Opus 4.7 約 30 多分
  • 測試對象:資深工程任務
  • 先開放場景:ChatGPT、Codex
  • 延後項目:API
  • 模型特性:100 萬 tokens 上下文、支援 prompt caching

文章還指出,GPT-5.5 預設使用中等推理,不是完全關閉推理。這種設定通常代表模型會多想一步,但不會像重推理模式那樣拖慢回應速度。

在任務類型上,Every 認為它更適合持續寫程式、寫文件、做儀表板、整理課程內容,以及把逐字稿變成可交付文件。它也不是全勝,像產品設計、Ruby、PowerPoint 和空間構圖,仍有部分項目落後 Opus 4.7。

為什麼重要

開發者來說,這代表模型競爭已經不只是「誰更會聊天」,而是「誰更能接住真實工作」。如果 GPT-5.5 在長任務中更穩,團隊就能少做幾輪重試,這會直接影響交付速度。

GPT-5.5 在工程測試拿 62.5 分

對產業面來說,OpenAI 這次是在明確搶回工程與知識工作場景。過去不少團隊把 Anthropic 當成寫碼與規劃任務的首選,GPT-5.5 的分數與產品路線,顯然是要把這些使用者拉回來。

價格也值得看。雖然輸入和輸出單價不算低,但如果模型能少出錯、少返工,總成本可能反而更好看。這也是企業採購時最在意的點:不是 token 單價,而是把任務做完的總成本。

最後的問題很簡單:GPT-5.5 能不能從 benchmark 贏,變成團隊每天真的會開著用的工具?如果答案是可以,這次更新就不只是分數上升,而是工作流位置的改寫。