GPT-5.0 到 5.5 怎麼選
OpenAI 的 GPT-5 家族從 40 萬 Token 擴到 100 萬 Token,GPT-5.5 目前在多項 benchmark 領先,開發者該看價格、速度、推理還是 agent 工具能力。

OpenAI 的 GPT-5 家族從 40 萬 Token 擴到 100 萬 Token,GPT-5.5 目前在多項 benchmark 領先。
OpenAI 在不到 9 個月內,丟出 6 個 GPT-5 變體。這種節奏很兇,真的不是慢慢修模型那種玩法。
如果你只看一個數字,那就是 GPT-5.5 的 93.6% GPQA Diamond。再加上 82.7% Terminal-Bench 2.0,這東西已經不是單純聊天機器人了。
| 模型 | 發布時間 | Context | API 價格 / 100 萬 Token | 代表成績 |
|---|---|---|---|---|
| GPT-5.0 | 2025-08-07 | 40 萬輸入 / 12.8 萬輸出 | $1.25 / $10 | AIME 2025:94.6% |
| GPT-5.1 | 2025-11-13 | 40 萬,27.2 萬輸入 | $1.25 / $10 | 簡單任務快 2 到 3 倍 |
| GPT-5.2 | 2025-12-11 | 40 萬,27.2 萬輸入 | $1.75 / $14 | AIME 2025:100% |
| GPT-5.3 Instant | 2026-03-03 | 40 萬 | 約 $0.30 / 約 $1.20 | 幻覺比 5.2 少 26.8% |
| GPT-5.4 | 2026-03-05 | 100 萬,僅 API | $2.50 / $15 | OSWorld-Verified:75.0% |
| GPT-5.5 | 2026-04-23 | 100 萬,僅 API | $5 / $30 | GPQA Diamond:93.6% |
GPT-5 家族為什麼長這麼快
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
講白了,就是 OpenAI 把模型拆細了。以前你可能只要選一個 ChatGPT 模型,現在要看速度、成本、推理、長上下文、還有 agent 工作能力。

GPT-5.0 在 2025 年 8 月 7 日推出。它是統一系統,內含快速基礎模型和較深的推理層 GPT-5 Thinking。路由器會自動切模式,少了手動切換的麻煩。
GPT-5.1 接著把重點放在效率。簡單任務可以快 2 到 3 倍。這種優化很務實,因為日常工作最常卡住的,通常不是最難題,而是大量瑣碎請求。
- GPT-5.0:統一路由,40 萬輸入 context,12.8 萬輸出 context
- GPT-5.1:自適應推理,價格不變,但簡單任務更快
- GPT-5.2:AIME 2025 直接拿到 100%
- GPT-5.4 與 GPT-5.5:100 萬 Token API context,還能做 computer use
每個模型差在哪裡
GPT-5.2 主要在推理能力上拉高門檻。它在 AIME 2025 拿到 100%,在 ARC-AGI-1 Pro mode 也超過 90%。對工程師來說,這代表它更適合硬題目,不適合拿來省錢亂跑。
GPT-5.4 的重點是 computer use。它可以點介面、跑命令、驗證輸出,再回頭修正。這種工作流很像半自動代理人,不是傳統聊天模型能直接做到的。
OpenAI 在 GPT-5 發表時說過一句話:
“The model is a significant leap in intelligence, and our most capable model yet,” OpenAI said in its GPT-5 launch announcement.這句話很直白。它等於把 GPT-5 家族定位成一組取捨,而不是單一答案。
- GPT-5.2:偏推理,適合數學、程式、嚴格驗證
- GPT-5.3:偏便宜,適合大量文字與搜尋回答
- GPT-5.4:偏 agent,適合長流程、桌面操作、工具鏈
- GPT-5.5:偏全能,但價格也最硬
GPT-5.4 為何改變 agent 工作流
OSWorld-Verified 是看模型能不能操作電腦的指標。GPT-5.4 拿到 75.0%,人類基準是 72.4%。這不是小差距,因為它代表模型開始能處理真實軟體介面。

對開發者來說,這很實際。你不一定要它寫出最漂亮的答案,但你會在乎它能不能登入後台、按按鈕、抓結果、再繼續下一步。
這也解釋了為什麼 GPT-5.4 對 agent 很有吸引力。它不是只會回文字,而是能把一個任務拆成多個操作步驟,然後自己跑完一輪。
- OSWorld-Verified:GPT-5.4 75.0%,人類 72.4%
- SWE-Bench Pro:GPT-5.4 是 57.7%
- FrontierMath:GPT-5.4 是 47.6%
- Tool search 讓 token 用量少 47%
但別太快高潮。GPT-5.4 的 100 萬 Token context 是 API-only,而且超過 27.2 萬 input tokens 之後,價格會繼續往上疊。長上下文很爽,帳單也很有感。
為什麼 GPT-5.5 會被最多團隊注意
GPT-5.5 目前就是家族裡的成績王。它在 GPQA Diamond 拿到 93.6%,Terminal-Bench 2.0 是 82.7%,OSWorld-Verified 也有 78.7%。這幾個數字都很硬,特別是對知識工作和 coding 場景。
它的 Pro 版本還有 90.1% BrowseComp 和 39.6% FrontierMath Tier 4。這表示它不只是會答題,也能在搜尋、數學、工具操作上維持高水準。
問題只有一個:貴。GPT-5.5 的 API 價格是每 100 萬 input tokens $5、output tokens $30。跟 GPT-5.4 的 $2.50 和 $15 比,直接翻倍。
- GPT-5.5:最強,但不適合全量預設
- GPT-5.4:便宜一半,適合大量 agent 任務
- GPT-5.3 Instant:大約 $0.30 / $1.20,最省錢
- GPT-5.2:推理夠強,但成本比 5.3 高
如果你做的是客服、摘要、搜尋回覆,GPT-5.3 很可能更合理。你不需要每次都上最貴模型,真的沒必要。
開發者現在該怎麼選
我的建議很簡單。高流量任務先放 GPT-5.3。推理很難的地方用 GPT-5.2。需要桌面操作或多步 agent,就上 GPT-5.4。只有在你真的想拼最高成績時,才把 GPT-5.5 拉進來。
如果你做的是產品,路由策略比單一模型名更重要。因為不同請求的失敗成本差很多。寫文案錯一點,問題不大。財務分析錯一點,就會出事。
另外一個現實是版本會變。OpenAI 已經提到 GPT-5.2 Thinking 會在 2026 年 6 月 3 日退場。這代表你不能只靠一次測試就上線,還要準備 fallback 和版本切換。
- 便宜流量:GPT-5.3
- 硬推理:GPT-5.2
- agent 與桌面操作:GPT-5.4
- 最高整體表現:GPT-5.5
GPT-5 家族背後的產業脈絡
OpenAI 這波做法,其實很像雲端服務的產品切分。不是一個模型打天下,而是用不同價格和能力,去對應不同工作負載。
這對台灣開發者很重要。很多團隊會先看 benchmark,再看 API 價格,最後才發現自己的資料流量根本不適合用最貴模型。講白了,模型選錯,成本就會爆。
我覺得接下來的重點,不會只是更高分數。真正有價值的是更穩的工具使用、更長的任務記憶,還有更少的失誤回滾。這些才是產品能不能落地的核心。
如果你已經在做 AI 產品,現在最值得做的事不是追新聞,而是把模型路由寫好。先定義便宜路徑,再定義高風險路徑,最後才考慮要不要用 GPT-5.5 當預設。
結論:別只看分數,先看工作型態
這一代 GPT-5 家族很清楚地告訴你一件事:沒有單一最佳模型。只有最適合你任務的模型。
如果你要我直接給答案,我會說:日常用 GPT-5.3,難題用 GPT-5.2,agent 用 GPT-5.4,頂規場景再上 GPT-5.5。先這樣配,通常最划算。