GPT-5.4 知識測驗拿 97.6 分
GPT-5.4 在 BenchLM 知識與理解拿到 97.6 分,總榜暫列第 2,還有 1.05M token 長上下文。這篇拆解它適合哪些工作、和其他模型怎麼比。

GPT-5.4 這次真的很會打分數。它在 BenchLM.ai 的知識與理解拿到 97.6,總榜暫列 106 個模型中的第 2。更誇張的是,它還有 1.05M token 的上下文視窗。
講白了,這種組合很適合長文件、研究整理、和大量脈絡推理。可是它的多模態分數沒那麼亮眼,所以別把它當成萬用神機。
BenchLM 這組數字到底在說什麼
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
BenchLM 的好處,是它不太吃行銷話術。它會把模型放進同一套榜單裡,讓你直接看分數。這對開發者很重要,因為你不用猜,直接比就好。

GPT-5.4 在公開頁面上,總分是 94。驗證榜單排名是第 3,樣本覆蓋了 22 個基準。這代表它很強,但也不是每個面向都測得完整。
最有意思的是分類成績。知識與理解 97.6,agentic 93.5,推理 93.0,coding 90.7。這組數字很漂亮,但也很誠實地告訴你,它最強的是文字、知識、和多步驟推理。
- GPT-5.4:Knowledge 97.6,106 模型第 1
- Agentic:93.5,106 模型第 2
- Reasoning:93.0,106 模型第 3
- Coding:90.7,106 模型第 4
- Multimodal:87.9,106 模型第 15
- Instruction following:93.8,106 模型第 5
還有一個數字很扎眼。它的 multilingual 是 100.0。這種分數很少見,尤其是在頂級模型裡。對跨語言問答、翻譯、和雙語資料整理,這很有參考價值。
價格也不能忽略。它的 input 是每百萬 token 2.50 美元,output 是 15 美元。速度是每秒 74 token。說真的,模型榜單很漂亮,但如果成本和延遲扛不住,產品還是會卡住。
1.05M 上下文,為什麼工程師會在意
OpenAI 的 OpenAI 一直在推長上下文。GPT-5.4 的 1.05M token 規格,已經不是「可以放多一點」而已。它是直接改變工作流。
你可以把超長 codebase、幾份研究報告、或一整串對話塞進同一個 session。少了切 chunk 的麻煩,也少了上下文斷掉的問題。對做內部知識系統的人,這真的很有感。
BenchLM 也寫得很直白:GPT-5.4 用了 explicit chain-of-thought reasoning。這種設計通常有助於數學和多步推理,但代價是延遲和 token 成本可能上升。模型不是單純變「更聰明」,而是更會花腦力。
“If you are looking at a model like GPT-5.4, the interesting question is not whether it can answer a prompt, but what kind of work it can keep coherent over a million tokens.”
這句話很到位。長上下文真正的價值,不是數字好看。是它能不能把重點一直抓住。
如果你在做合約審閱、研究摘要、或大型程式碼分析,context length 有時比單一 benchmark 排名更重要。這也是很多團隊最後會回頭做實測的原因。
跟同家族模型比,差在哪裡
GPT-5.4 不是單獨一台機器。它屬於一個家族,裡面還有 GPT-5.4 Pro、GPT-5.4 mini,還有 GPT-5.4 nano。這種分層很像雲端伺服器的規格表,差別就在成本和吞吐量。

BenchLM 目前列出 GPT-5.4 Pro 的 provisional score 是 92,GPT-5.4 mini 是 73。這很直接地告訴你,家族內部是有明顯階梯的。不是每個任務都需要最貴那顆。
它也能跟舊款模型做比較,像 GPT-5.3 Codex 和 GPT-5.2。雖然公開頁面沒有把每個細項全打開,但方向很清楚:GPT-5.4 是偏通用、偏強力的主力款。
- GPT-5.4 Pro:provisional 92
- GPT-5.4 mini:provisional 73
- GPT-5.4 nano:同家族的輕量版
- GPT-5.3 Codex:舊一代對照組
- GPT-5.2:另一個比較基準
如果你是工程團隊,這種家族差異很實用。研究、規劃、和難推理的任務,可以丟給大模型。重複性高、延遲敏感的工作,就切到小模型。
我覺得這才是正確用法。不是看到大模型就全上。是看工作型態,再選對尺寸。
開發者該怎麼看這個排名
先別急著把排行榜當聖旨。GPT-5.4 的成績很強,但它的強項很集中。它適合知識工作、程式協助、研究助手、和內部問答。
如果你的產品主要吃圖片、版面、或文件定位,那就要小心。它的 multimodal 只有 87.9,排名第 15。這不是爛,只是沒有文字面那麼猛。
成本和延遲也要一起看。每百萬 input token 2.50 美元,output 15 美元,速度 74 token/s。這種規格對小量測試很舒服,但大規模上線時,帳單會很誠實。
你可能會想問,那到底該不該換?我的建議很簡單。先拿真實任務做 A/B test。不要只看榜單,也不要只看 demo。
如果你的工作是長文件摘要、法務檢索、研究整理、或程式碼審查,GPT-5.4 很值得試。若你的應用靠圖文混合理解,先留一手,別急著全量切換。
總之,這份榜單不是叫你崇拜模型。它是叫你回去看自己的工作流,然後問一句:這顆模型到底省了什麼,犧牲了什麼?
這波模型競爭的背景
近兩年,LLM 的比拼已經不只是「誰回答更像人」。大家開始比長上下文、工具使用、推理穩定度、和成本。這些指標更貼近真實產品。
對台灣開發者來說,這尤其重要。很多團隊不是做聊天機器人而已,而是做知識庫、客服、文件分析、和企業內部工具。這些場景最怕上下文斷裂,也最怕模型亂掰。
所以像 GPT-5.4 這種模型,真正的價值不是單一分數。是它把長上下文、知識表現、和推理能力放在同一個包裡。這會直接影響你怎麼切 API、怎麼做快取、怎麼設計 prompt。
但別忘了,排行榜永遠只是快照。今天排第二,不代表明天不變。模型更新很快,資料集也會變,評測方法更會變。
因此,工程上最穩的做法還是實測。拿你自己的資料、自己的任務、自己的 SLA 去跑。這比看任何宣傳頁都準。
結尾:先測,再決定
如果你現在在選模型,我會建議先拿 GPT-5.4 跑三種任務。第一是長文件摘要。第二是知識問答。第三是程式碼推理。
如果這三項都穩,這顆模型就很有機會進主力清單。反過來,如果你的產品很吃圖片或版面,那就先別衝動。先看別的模型,再做比較。
說白了,GPT-5.4 很適合文字重、脈絡長的工作。你只要先做一輪小型 bake-off,就知道它是不是你要的那顆。