GPT-5.4 知識測驗拿 97.6 分

OraCore Editors

返回首頁

[MODEL] 2026年4月13日6 分鐘閱讀OraCore 編輯部

GPT-5.4 知識測驗拿 97.6 分

GPT-5.4 在 BenchLM 知識與理解拿到 97.6 分，總榜暫列第 2，還有 1.05M token 長上下文。這篇拆解它適合哪些工作、和其他模型怎麼比。

OpenAI 人工智慧模型評測長上下文 BenchLM LLM benchmark

分享 LinkedIn

GPT-5.4 這次真的很會打分數。它在 BenchLM.ai 的知識與理解拿到 97.6，總榜暫列 106 個模型中的第 2。更誇張的是，它還有 1.05M token 的上下文視窗。

講白了，這種組合很適合長文件、研究整理、和大量脈絡推理。可是它的多模態分數沒那麼亮眼，所以別把它當成萬用神機。

BenchLM 這組數字到底在說什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

BenchLM 的好處，是它不太吃行銷話術。它會把模型放進同一套榜單裡，讓你直接看分數。這對開發者很重要，因為你不用猜，直接比就好。

GPT-5.4 在公開頁面上，總分是 94。驗證榜單排名是第 3，樣本覆蓋了 22 個基準。這代表它很強，但也不是每個面向都測得完整。

最有意思的是分類成績。知識與理解 97.6，agentic 93.5，推理 93.0，coding 90.7。這組數字很漂亮，但也很誠實地告訴你，它最強的是文字、知識、和多步驟推理。

GPT-5.4：Knowledge 97.6，106 模型第 1
Agentic：93.5，106 模型第 2
Reasoning：93.0，106 模型第 3
Coding：90.7，106 模型第 4
Multimodal：87.9，106 模型第 15
Instruction following：93.8，106 模型第 5

還有一個數字很扎眼。它的 multilingual 是 100.0。這種分數很少見，尤其是在頂級模型裡。對跨語言問答、翻譯、和雙語資料整理，這很有參考價值。

價格也不能忽略。它的 input 是每百萬 token 2.50 美元，output 是 15 美元。速度是每秒 74 token。說真的，模型榜單很漂亮，但如果成本和延遲扛不住，產品還是會卡住。

1.05M 上下文，為什麼工程師會在意

OpenAI 的 OpenAI 一直在推長上下文。GPT-5.4 的 1.05M token 規格，已經不是「可以放多一點」而已。它是直接改變工作流。

你可以把超長 codebase、幾份研究報告、或一整串對話塞進同一個 session。少了切 chunk 的麻煩，也少了上下文斷掉的問題。對做內部知識系統的人，這真的很有感。

BenchLM 也寫得很直白：GPT-5.4 用了 explicit chain-of-thought reasoning。這種設計通常有助於數學和多步推理，但代價是延遲和 token 成本可能上升。模型不是單純變「更聰明」，而是更會花腦力。

“If you are looking at a model like GPT-5.4, the interesting question is not whether it can answer a prompt, but what kind of work it can keep coherent over a million tokens.”

這句話很到位。長上下文真正的價值，不是數字好看。是它能不能把重點一直抓住。

如果你在做合約審閱、研究摘要、或大型程式碼分析，context length 有時比單一 benchmark 排名更重要。這也是很多團隊最後會回頭做實測的原因。

跟同家族模型比，差在哪裡

GPT-5.4 不是單獨一台機器。它屬於一個家族，裡面還有 GPT-5.4 Pro、GPT-5.4 mini，還有 GPT-5.4 nano。這種分層很像雲端伺服器的規格表，差別就在成本和吞吐量。

BenchLM 目前列出 GPT-5.4 Pro 的 provisional score 是 92，GPT-5.4 mini 是 73。這很直接地告訴你，家族內部是有明顯階梯的。不是每個任務都需要最貴那顆。

它也能跟舊款模型做比較，像 GPT-5.3 Codex 和 GPT-5.2。雖然公開頁面沒有把每個細項全打開，但方向很清楚：GPT-5.4 是偏通用、偏強力的主力款。

GPT-5.4 Pro：provisional 92
GPT-5.4 mini：provisional 73
GPT-5.4 nano：同家族的輕量版
GPT-5.3 Codex：舊一代對照組
GPT-5.2：另一個比較基準

如果你是工程團隊，這種家族差異很實用。研究、規劃、和難推理的任務，可以丟給大模型。重複性高、延遲敏感的工作，就切到小模型。

我覺得這才是正確用法。不是看到大模型就全上。是看工作型態，再選對尺寸。

開發者該怎麼看這個排名

先別急著把排行榜當聖旨。GPT-5.4 的成績很強，但它的強項很集中。它適合知識工作、程式協助、研究助手、和內部問答。

如果你的產品主要吃圖片、版面、或文件定位，那就要小心。它的 multimodal 只有 87.9，排名第 15。這不是爛，只是沒有文字面那麼猛。

成本和延遲也要一起看。每百萬 input token 2.50 美元，output 15 美元，速度 74 token/s。這種規格對小量測試很舒服，但大規模上線時，帳單會很誠實。

你可能會想問，那到底該不該換？我的建議很簡單。先拿真實任務做 A/B test。不要只看榜單，也不要只看 demo。

如果你的工作是長文件摘要、法務檢索、研究整理、或程式碼審查，GPT-5.4 很值得試。若你的應用靠圖文混合理解，先留一手，別急著全量切換。

總之，這份榜單不是叫你崇拜模型。它是叫你回去看自己的工作流，然後問一句：這顆模型到底省了什麼，犧牲了什麼？

這波模型競爭的背景

近兩年，LLM 的比拼已經不只是「誰回答更像人」。大家開始比長上下文、工具使用、推理穩定度、和成本。這些指標更貼近真實產品。

對台灣開發者來說，這尤其重要。很多團隊不是做聊天機器人而已，而是做知識庫、客服、文件分析、和企業內部工具。這些場景最怕上下文斷裂，也最怕模型亂掰。

所以像 GPT-5.4 這種模型，真正的價值不是單一分數。是它把長上下文、知識表現、和推理能力放在同一個包裡。這會直接影響你怎麼切 API、怎麼做快取、怎麼設計 prompt。

但別忘了，排行榜永遠只是快照。今天排第二，不代表明天不變。模型更新很快，資料集也會變，評測方法更會變。

因此，工程上最穩的做法還是實測。拿你自己的資料、自己的任務、自己的 SLA 去跑。這比看任何宣傳頁都準。

結尾：先測，再決定

如果你現在在選模型，我會建議先拿 GPT-5.4 跑三種任務。第一是長文件摘要。第二是知識問答。第三是程式碼推理。

如果這三項都穩，這顆模型就很有機會進主力清單。反過來，如果你的產品很吃圖片或版面，那就先別衝動。先看別的模型，再做比較。

說白了，GPT-5.4 很適合文字重、脈絡長的工作。你只要先做一輪小型 bake-off，就知道它是不是你要的那顆。

// 相關文章

GPT-5.4 知識測驗拿 97.6 分

BenchLM 這組數字到底在說什麼

訂閱 AI 趨勢週報

1.05M 上下文，為什麼工程師會在意

跟同家族模型比，差在哪裡

開發者該怎麼看這個排名

這波模型競爭的背景

結尾：先測，再決定

為什麼 Google 隱藏的 Gemini Live 模型，比演示更重要

MiniMax-M1：開源 1M Token 推理模型

Gemini Omni 影片模型怎麼了

為什麼 Xiaomi 的 MiMo-V2.5-Pro 改變的是 Coding …

OpenAI 即時音訊模型瞄準語音互動

Anthropic推10款金融AI Agent