GPT-5.0 到 5.5 怎麼選

OraCore Editors

返回首頁

[MODEL] 2026年5月29日7 分鐘閱讀OraCore 編輯部

GPT-5.0 到 5.5 怎麼選

OpenAI 的 GPT-5 家族從 40 萬 Token 擴到 100 萬 Token，GPT-5.5 目前在多項 benchmark 領先，開發者該看價格、速度、推理還是 agent 工具能力。

OpenAI ChatGPT 模型比較 GPT-5 LLM

分享 LinkedIn

OpenAI 的 GPT-5 家族從 40 萬 Token 擴到 100 萬 Token，GPT-5.5 目前在多項 benchmark 領先。

OpenAI 在不到 9 個月內，丟出 6 個 GPT-5 變體。這種節奏很兇，真的不是慢慢修模型那種玩法。

如果你只看一個數字，那就是 GPT-5.5 的 93.6% GPQA Diamond。再加上 82.7% Terminal-Bench 2.0，這東西已經不是單純聊天機器人了。

模型	發布時間	Context	API 價格 / 100 萬 Token	代表成績
GPT-5.0	2025-08-07	40 萬輸入 / 12.8 萬輸出	$1.25 / $10	AIME 2025：94.6%
GPT-5.1	2025-11-13	40 萬，27.2 萬輸入	$1.25 / $10	簡單任務快 2 到 3 倍
GPT-5.2	2025-12-11	40 萬，27.2 萬輸入	$1.75 / $14	AIME 2025：100%
GPT-5.3 Instant	2026-03-03	40 萬	約 $0.30 / 約 $1.20	幻覺比 5.2 少 26.8%
GPT-5.4	2026-03-05	100 萬，僅 API	$2.50 / $15	OSWorld-Verified：75.0%
GPT-5.5	2026-04-23	100 萬，僅 API	$5 / $30	GPQA Diamond：93.6%

GPT-5 家族為什麼長這麼快

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

講白了，就是 OpenAI 把模型拆細了。以前你可能只要選一個 ChatGPT 模型，現在要看速度、成本、推理、長上下文、還有 agent 工作能力。

GPT-5.0 在 2025 年 8 月 7 日推出。它是統一系統，內含快速基礎模型和較深的推理層 GPT-5 Thinking。路由器會自動切模式，少了手動切換的麻煩。

GPT-5.1 接著把重點放在效率。簡單任務可以快 2 到 3 倍。這種優化很務實，因為日常工作最常卡住的，通常不是最難題，而是大量瑣碎請求。

GPT-5.0：統一路由，40 萬輸入 context，12.8 萬輸出 context
GPT-5.1：自適應推理，價格不變，但簡單任務更快
GPT-5.2：AIME 2025 直接拿到 100%
GPT-5.4 與 GPT-5.5：100 萬 Token API context，還能做 computer use

每個模型差在哪裡

GPT-5.2 主要在推理能力上拉高門檻。它在 AIME 2025 拿到 100%，在 ARC-AGI-1 Pro mode 也超過 90%。對工程師來說，這代表它更適合硬題目，不適合拿來省錢亂跑。

GPT-5.4 的重點是 computer use。它可以點介面、跑命令、驗證輸出，再回頭修正。這種工作流很像半自動代理人，不是傳統聊天模型能直接做到的。

OpenAI 在 GPT-5 發表時說過一句話：

“The model is a significant leap in intelligence, and our most capable model yet,” OpenAI said in its GPT-5 launch announcement.

這句話很直白。它等於把 GPT-5 家族定位成一組取捨，而不是單一答案。

GPT-5.2：偏推理，適合數學、程式、嚴格驗證
GPT-5.3：偏便宜，適合大量文字與搜尋回答
GPT-5.4：偏 agent，適合長流程、桌面操作、工具鏈
GPT-5.5：偏全能，但價格也最硬

GPT-5.4 為何改變 agent 工作流

OSWorld-Verified 是看模型能不能操作電腦的指標。GPT-5.4 拿到 75.0%，人類基準是 72.4%。這不是小差距，因為它代表模型開始能處理真實軟體介面。

對開發者來說，這很實際。你不一定要它寫出最漂亮的答案，但你會在乎它能不能登入後台、按按鈕、抓結果、再繼續下一步。

這也解釋了為什麼 GPT-5.4 對 agent 很有吸引力。它不是只會回文字，而是能把一個任務拆成多個操作步驟，然後自己跑完一輪。

OSWorld-Verified：GPT-5.4 75.0%，人類 72.4%
SWE-Bench Pro：GPT-5.4 是 57.7%
FrontierMath：GPT-5.4 是 47.6%
Tool search 讓 token 用量少 47%

但別太快高潮。GPT-5.4 的 100 萬 Token context 是 API-only，而且超過 27.2 萬 input tokens 之後，價格會繼續往上疊。長上下文很爽，帳單也很有感。

為什麼 GPT-5.5 會被最多團隊注意

GPT-5.5 目前就是家族裡的成績王。它在 GPQA Diamond 拿到 93.6%，Terminal-Bench 2.0 是 82.7%，OSWorld-Verified 也有 78.7%。這幾個數字都很硬，特別是對知識工作和 coding 場景。

它的 Pro 版本還有 90.1% BrowseComp 和 39.6% FrontierMath Tier 4。這表示它不只是會答題，也能在搜尋、數學、工具操作上維持高水準。

問題只有一個：貴。GPT-5.5 的 API 價格是每 100 萬 input tokens $5、output tokens $30。跟 GPT-5.4 的 $2.50 和 $15 比，直接翻倍。

GPT-5.5：最強，但不適合全量預設
GPT-5.4：便宜一半，適合大量 agent 任務
GPT-5.3 Instant：大約 $0.30 / $1.20，最省錢
GPT-5.2：推理夠強，但成本比 5.3 高

如果你做的是客服、摘要、搜尋回覆，GPT-5.3 很可能更合理。你不需要每次都上最貴模型，真的沒必要。

開發者現在該怎麼選

我的建議很簡單。高流量任務先放 GPT-5.3。推理很難的地方用 GPT-5.2。需要桌面操作或多步 agent，就上 GPT-5.4。只有在你真的想拼最高成績時，才把 GPT-5.5 拉進來。

如果你做的是產品，路由策略比單一模型名更重要。因為不同請求的失敗成本差很多。寫文案錯一點，問題不大。財務分析錯一點，就會出事。

另外一個現實是版本會變。OpenAI 已經提到 GPT-5.2 Thinking 會在 2026 年 6 月 3 日退場。這代表你不能只靠一次測試就上線，還要準備 fallback 和版本切換。

便宜流量：GPT-5.3
硬推理：GPT-5.2
agent 與桌面操作：GPT-5.4
最高整體表現：GPT-5.5

GPT-5 家族背後的產業脈絡

OpenAI 這波做法，其實很像雲端服務的產品切分。不是一個模型打天下，而是用不同價格和能力，去對應不同工作負載。

這對台灣開發者很重要。很多團隊會先看 benchmark，再看 API 價格，最後才發現自己的資料流量根本不適合用最貴模型。講白了，模型選錯，成本就會爆。

我覺得接下來的重點，不會只是更高分數。真正有價值的是更穩的工具使用、更長的任務記憶，還有更少的失誤回滾。這些才是產品能不能落地的核心。

如果你已經在做 AI 產品，現在最值得做的事不是追新聞，而是把模型路由寫好。先定義便宜路徑，再定義高風險路徑，最後才考慮要不要用 GPT-5.5 當預設。

結論：別只看分數，先看工作型態

這一代 GPT-5 家族很清楚地告訴你一件事：沒有單一最佳模型。只有最適合你任務的模型。

如果你要我直接給答案，我會說：日常用 GPT-5.3，難題用 GPT-5.2，agent 用 GPT-5.4，頂規場景再上 GPT-5.5。先這樣配，通常最划算。

// 相關文章

GPT-5.0 到 5.5 怎麼選

GPT-5 家族為什麼長這麼快

訂閱 AI 趨勢週報

每個模型差在哪裡

GPT-5.4 為何改變 agent 工作流

為什麼 GPT-5.5 會被最多團隊注意

開發者現在該怎麼選

GPT-5 家族背後的產業脈絡

結論：別只看分數，先看工作型態

Gemini 1.5 與 2.0 Flash 更新上線

MiniMax M3 證明開放權重在寫程式上仍能贏

Gemini 3.5 Flash 價格與長上下文解析

怎麼做 Gemma 4 12B 本地部署

2026 最佳 Kimi 模型：K2.5 對 K2 Thinking

Kimi K2.6 開源加上 Agent Swarm