[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-gpt-5-4-benchmarks-2026-scores-rankings-zh":3,"article-related-gpt-5-4-benchmarks-2026-scores-rankings-zh":27,"series-model-release-b875d3ed-f892-43a8-a51e-920729e85b1e":79},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":11,"views":24,"created_at":25,"published_at":26,"topic_cluster_id":11},"b875d3ed-f892-43a8-a51e-920729e85b1e","gpt-5-4-benchmarks-2026-scores-rankings-zh","GPT-5.4 知識測驗拿 97.6 分","\u003Cp>\u003Ca href=\"https:\u002F\u002Fbenchlm.ai\u002Fmodels\u002Fgpt-5-4\" target=\"_blank\" rel=\"noopener\">GPT-5.4\u003C\u002Fa> 這次真的很會打分數。它在 \u003Ca href=\"https:\u002F\u002Fbenchlm.ai\" target=\"_blank\" rel=\"noopener\">BenchLM.ai\u003C\u002Fa> 的知識與理解拿到 97.6，總榜暫列 106 個模型中的第 2。更誇張的是，它還有 1.05M token 的上下文視窗。\u003C\u002Fp>\u003Cp>講白了，這種組合很適合長文件、研究整理、和大量脈絡推理。可是它的多模態分數沒那麼亮眼，所以別把它當成萬用神機。\u003C\u002Fp>\u003Ch2>BenchLM 這組數字到底在說什麼\u003C\u002Fh2>\u003Cp>B\u003Ca href=\"\u002Fnews\u002Fopenai-macos-app-certification-security-issue-zh\">en\u003C\u002Fa>chLM 的好處，是它不太吃行銷話術。它會把模型放進同一套榜單裡，讓你直接看分數。這對開發者很重要，因為你不用猜，直接比就好。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776082194973-cyii.png\" alt=\"GPT-5.4 知識測驗拿 97.6 分\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>GPT-5.4 在公開頁面上，總分是 94。\u003Ca href=\"\u002Fnews\u002Fcase-grounded-evidence-verification-zh\">驗證\u003C\u002Fa>榜單排名是第 3，樣本覆蓋了 22 個基準。這代表它很強，但也不是每個面向都測得完整。\u003C\u002Fp>\u003Cp>最有意思的是分類成績。知識與理解 97.6，agentic 93.5，推理 93.0，coding 90.7。這組數字很漂亮，但也很誠實地告訴你，它最強的是文字、知識、和多步驟推理。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Ca href=\"https:\u002F\u002Fbenchlm.ai\u002Fmodels\u002Fgpt-5-4\" target=\"_blank\" rel=\"noopener\">GPT-5.4\u003C\u002Fa>：Knowledge 97.6，106 模型第 1\u003C\u002Fli>\u003Cli>Agentic：93.5，106 模型第 2\u003C\u002Fli>\u003Cli>Reasoning：93.0，106 模型第 3\u003C\u002Fli>\u003Cli>Coding：90.7，106 模型第 4\u003C\u002Fli>\u003Cli>Multimodal：87.9，106 模型第 15\u003C\u002Fli>\u003Cli>Instruction following：93.8，106 模型第 5\u003C\u002Fli>\u003C\u002Ful>\u003Cp>還有一個數字很扎眼。它的 multilingual 是 100.0。這種分數很少見，尤其是在頂級模型裡。對跨語言問答、翻譯、和雙語資料整理，這很有參考價值。\u003C\u002Fp>\u003Cp>價格也不能忽略。它的 input 是每百萬 token 2.50 美元，output 是 15 美元。速度是每秒 74 token。說真的，模型榜單很漂亮，但如果成本和延遲扛不住，產品還是會卡住。\u003C\u002Fp>\u003Ch2>1.05M 上下文，為什麼工程師會在意\u003C\u002Fh2>\u003Cp>OpenAI 的 \u003Ca href=\"https:\u002F\u002Fopenai.com\" target=\"_blank\" rel=\"noopener\">OpenAI\u003C\u002Fa> 一直在推長上下文。GPT-5.4 的 1.05M token 規格，已經不是「可以放多一點」而已。它是直接改變工作流。\u003C\u002Fp>\u003Cp>你可以把超長 codebase、幾份研究報告、或一整串對話塞進同一個 session。少了切 chunk 的麻煩，也少了上下文斷掉的問題。對做內部知識系統的人，這真的很有感。\u003C\u002Fp>\u003Cp>BenchLM 也寫得很直白：GPT-5.4 用了 explicit chain-of-\u003Ca href=\"\u002Fnews\u002Fclaude-mythos-preview-beats-gpt-54-gemini-benchmarks-zh\">tho\u003C\u002Fa>ught reasoning。這種設計通常有助於數學和多步推理，但代價是延遲和 token 成本可能上升。模型不是單純變「更聰明」，而是更會花腦力。\u003C\u002Fp>\u003Cblockquote>“If you are looking at a model like GPT-5.4, the interesting question is not whether it can answer a prompt, but what kind of work it can keep coherent over a million tokens.”\u003C\u002Fblockquote>\u003Cp>這句話很到位。長上下文真正的價值，不是數字好看。是它能不能把重點一直抓住。\u003C\u002Fp>\u003Cp>如果你在做合約審閱、研究摘要、或大型程式碼分析，context length 有時比單一 benchmark 排名更重要。這也是很多團隊最後會回頭做實測的原因。\u003C\u002Fp>\u003Ch2>跟同家族模型比，差在哪裡\u003C\u002Fh2>\u003Cp>GPT-5.4 不是單獨一台機器。它屬於一個家族，裡面還有 \u003Ca href=\"https:\u002F\u002Fbenchlm.ai\u002Fmodels\u002Fgpt-5-4-pro\" target=\"_blank\" rel=\"noopener\">GPT-5.4 Pro\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fbenchlm.ai\u002Fmodels\u002Fgpt-5-4-mini\" target=\"_blank\" rel=\"noopener\">GPT-5.4 mini\u003C\u002Fa>，還有 \u003Ca href=\"https:\u002F\u002Fbenchlm.ai\u002Fmodels\u002Fgpt-5-4-nano\" target=\"_blank\" rel=\"noopener\">GPT-5.4 nano\u003C\u002Fa>。這種分層很像雲端伺服器的規格表，差別就在成本和吞吐量。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776082201309-8inm.png\" alt=\"GPT-5.4 知識測驗拿 97.6 分\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>BenchLM 目前列出 GPT-5.4 Pro 的 provisional score 是 92，GPT-5.4 mini 是 73。這很直接地告訴你，家族內部是有明顯階梯的。不是每個任務都需要最貴那顆。\u003C\u002Fp>\u003Cp>它也能跟舊款模型做比較，像 \u003Ca href=\"https:\u002F\u002Fbenchlm.ai\u002Fmodels\u002Fgpt-5-3-codex\" target=\"_blank\" rel=\"noopener\">GPT-5.3 Codex\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Fbenchlm.ai\u002Fmodels\u002Fgpt-5-2\" target=\"_blank\" rel=\"noopener\">GPT-5.2\u003C\u002Fa>。雖然公開頁面沒有把每個細項全打開，但方向很清楚：GPT-5.4 是偏通用、偏強力的主力款。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Ca href=\"https:\u002F\u002Fbenchlm.ai\u002Fmodels\u002Fgpt-5-4-pro\" target=\"_blank\" rel=\"noopener\">GPT-5.4 Pro\u003C\u002Fa>：provisional 92\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fbenchlm.ai\u002Fmodels\u002Fgpt-5-4-mini\" target=\"_blank\" rel=\"noopener\">GPT-5.4 mini\u003C\u002Fa>：provisional 73\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fbenchlm.ai\u002Fmodels\u002Fgpt-5-4-nano\" target=\"_blank\" rel=\"noopener\">GPT-5.4 nano\u003C\u002Fa>：同家族的輕量版\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fbenchlm.ai\u002Fmodels\u002Fgpt-5-3-codex\" target=\"_blank\" rel=\"noopener\">GPT-5.3 Codex\u003C\u002Fa>：舊一代對照組\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fbenchlm.ai\u002Fmodels\u002Fgpt-5-2\" target=\"_blank\" rel=\"noopener\">GPT-5.2\u003C\u002Fa>：另一個比較基準\u003C\u002Fli>\u003C\u002Ful>\u003Cp>如果你是工程團隊，這種家族差異很實用。研究、規劃、和難推理的任務，可以丟給大模型。重複性高、延遲敏感的工作，就切到小模型。\u003C\u002Fp>\u003Cp>我覺得這才是正確用法。不是看到大模型就全上。是看工作型態，再選對尺寸。\u003C\u002Fp>\u003Ch2>開發者該怎麼看這個排名\u003C\u002Fh2>\u003Cp>先別急著把排行榜當聖旨。GPT-5.4 的成績很強，但它的強項很集中。它適合知識工作、程式協助、研究助手、和內部問答。\u003C\u002Fp>\u003Cp>如果你的產品主要吃圖片、版面、或文件定位，那就要小心。它的 multimodal 只有 87.9，排名第 15。這不是爛，只是沒有文字面那麼猛。\u003C\u002Fp>\u003Cp>成本和延遲也要一起看。每百萬 input token 2.50 美元，output 15 美元，速度 74 token\u002Fs。這種規格對小量測試很舒服，但大規模上線時，帳單會很誠實。\u003C\u002Fp>\u003Cp>你可能會想問，那到底該不該換？我的建議很簡單。先拿真實任務做 A\u002FB test。不要只看榜單，也不要只看 demo。\u003C\u002Fp>\u003Cp>如果你的工作是長文件摘要、法務檢索、研究整理、或程式碼審查，GPT-5.4 很值得試。若你的應用靠圖文混合理解，先留一手，別急著全量切換。\u003C\u002Fp>\u003Cp>總之，這份榜單不是叫你崇拜模型。它是叫你回去看自己的工作流，然後問一句：這顆模型到底省了什麼，犧牲了什麼？\u003C\u002Fp>\u003Ch2>這波模型競爭的背景\u003C\u002Fh2>\u003Cp>近兩年，LLM 的比拼已經不只是「誰回答更像人」。大家開始比長上下文、工具使用、推理穩定度、和成本。這些指標更貼近真實產品。\u003C\u002Fp>\u003Cp>對台灣開發者來說，這尤其重要。很多團隊不是做聊天機器人而已，而是做知識庫、客服、文件分析、和企業內部工具。這些場景最怕上下文斷裂，也最怕模型亂掰。\u003C\u002Fp>\u003Cp>所以像 GPT-5.4 這種模型，真正的價值不是單一分數。是它把長上下文、知識表現、和推理能力放在同一個包裡。這會直接影響你怎麼切 API、怎麼做快取、怎麼設計 prompt。\u003C\u002Fp>\u003Cp>但別忘了，排行榜永遠只是快照。今天排第二，不代表明天不變。模型更新很快，資料集也會變，評測方法更會變。\u003C\u002Fp>\u003Cp>因此，工程上最穩的做法還是實測。拿你自己的資料、自己的任務、自己的 SLA 去跑。這比看任何宣傳頁都準。\u003C\u002Fp>\u003Ch2>結尾：先測，再決定\u003C\u002Fh2>\u003Cp>如果你現在在選模型，我會建議先拿 GPT-5.4 跑三種任務。第一是長文件摘要。第二是知識問答。第三是程式碼推理。\u003C\u002Fp>\u003Cp>如果這三項都穩，這顆模型就很有機會進主力清單。反過來，如果你的產品很吃圖片或版面，那就先別衝動。先看別的模型，再做比較。\u003C\u002Fp>\u003Cp>說白了，GPT-5.4 很適合文字重、脈絡長的工作。你只要先做一輪小型 bake-off，就知道它是不是你要的那顆。\u003C\u002Fp>","GPT-5.4 在 BenchLM 知識與理解拿到 97.6 分，總榜暫列第 2，還有 1.05M token 長上下文。這篇拆解它適合哪些工作、和其他模型怎麼比。","benchlm.ai","https:\u002F\u002Fbenchlm.ai\u002Fmodels\u002Fgpt-5-4",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776082194973-cyii.png","model-release","zh","cb45188a-2e6e-4ac7-95f0-39cbd2f7d7a2",[17,18,19,20,21,22,23],"GPT-5.4","BenchLM","LLM benchmark","長上下文","OpenAI","模型評測","人工智慧",11,"2026-04-13T12:09:40.301446+00:00","2026-04-13T12:09:40.18+00:00",{"tags":28,"relatedLang":38,"relatedPosts":42},[29,31,32,33,34,36],{"name":21,"slug":30},"openai",{"name":23,"slug":23},{"name":22,"slug":22},{"name":20,"slug":20},{"name":18,"slug":35},"benchlm",{"name":19,"slug":37},"llm-benchmark",{"id":15,"slug":39,"title":40,"language":41},"gpt-5-4-benchmarks-2026-scores-rankings-en","GPT-5.4 Scores 97.6 in Knowledge Benchmarks","en",[43,49,55,61,67,73],{"id":44,"slug":45,"title":46,"cover_image":47,"image_url":47,"created_at":48,"category":13},"466021f3-b8a4-4ecb-ad64-8070beaf9cbc","gemini-1-5-pro-002-flash-002-2-0-flash-update-zh","Gemini 1.5 與 2.0 Flash 更新上線","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780999389960-97qh.png","2026-06-09T10:02:27.849751+00:00",{"id":50,"slug":51,"title":52,"cover_image":53,"image_url":53,"created_at":54,"category":13},"66ce4542-3c93-4a0c-ab52-5e6f90a36212","minimax-m3-kai-fang-quan-zhong-xie-cheng-shi-reng-neng-ying-zh","MiniMax M3 證明開放權重在寫程式上仍能贏","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780968786191-lele.png","2026-06-09T01:32:30.829528+00:00",{"id":56,"slug":57,"title":58,"cover_image":59,"image_url":59,"created_at":60,"category":13},"948a7dc4-b172-42f9-9bef-abcbbffaca18","gemini-35-flash-pricing-benchmarks-zh","Gemini 3.5 Flash 價格與長上下文解析","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780840978961-6b9n.png","2026-06-07T14:02:29.835438+00:00",{"id":62,"slug":63,"title":64,"cover_image":65,"image_url":65,"created_at":66,"category":13},"5507f140-5223-4f68-ade6-30d9e5457638","gemma-4-12b-specs-benchmarks-run-locally-zh","怎麼做 Gemma 4 12B 本地部署","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780777971165-4bit.png","2026-06-06T20:32:24.857611+00:00",{"id":68,"slug":69,"title":70,"cover_image":71,"image_url":71,"created_at":72,"category":13},"ef42a437-8b06-4ff5-a135-ece7662c01f4","best-kimi-models-2026-k2-5-vs-k2-thinking-zh","2026 最佳 Kimi 模型：K2.5 對 K2 Thinking","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780770790333-x3lk.png","2026-06-06T18:32:39.410186+00:00",{"id":74,"slug":75,"title":76,"cover_image":77,"image_url":77,"created_at":78,"category":13},"fd2ad557-5c09-4758-964d-cda1c3c87a4c","kimi-k2-6-open-source-coding-agent-swarm-zh","Kimi K2.6 開源加上 Agent Swarm","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780761795960-0zg9.png","2026-06-06T16:02:21.702099+00:00",[80,85,90,95,100,105,110,115,120,125],{"id":81,"slug":82,"title":83,"created_at":84},"58b64033-7eb6-49b9-9aab-01cf8ae1b2f2","nvidia-rubin-six-chips-one-ai-supercomputer-zh","NVIDIA Rubin 把六顆晶片塞進 AI 機櫃","2026-03-26T07:18:45.861277+00:00",{"id":86,"slug":87,"title":88,"created_at":89},"0dcc2c61-c2a6-480d-adb8-dd225fc68914","march-2026-ai-model-news-what-mattered-zh","2026 年 3 月 AI 模型新聞重點","2026-03-26T07:32:08.386348+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"214ab08b-5ce5-4b5c-8b72-47619d8675dd","why-small-models-are-winning-on-device-ai-zh","小模型為何吃下裝置端 AI","2026-03-26T07:36:30.488966+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"785624b2-0355-4b82-adc3-de5e45eecd88","midjourney-v8-faster-images-higher-costs-zh","Midjourney V8 變快了，也變貴了","2026-03-26T07:52:03.562971+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"cda76b92-d209-4134-86c1-a60f5bc7b128","xiaomi-mimo-trio-agents-robots-voice-zh","小米 MiMo 三模型瞄準代理、機器人與語音","2026-03-28T03:05:08.779489+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"9e1044b4-946d-47fe-9e2a-c2ee032e1164","xiaomi-mimo-v2-pro-1t-moe-agents-zh","小米 MiMo-V2-Pro 登場：1T MoE 模型","2026-03-28T03:06:19.002353+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"c4b6186f-bd84-4598-997e-c6e31d543c0d","cursor-composer-2-agentic-coding-model-zh","Cursor Composer 2 走向代理式寫碼","2026-03-28T03:13:06.422716+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"e112e76f-ec3b-408f-810e-e93ae21a888a","apple-siri-gemini-distilled-models-zh","Apple Siri 牽手 Gemini 的真相","2026-03-29T04:52:57.886544+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"c679b51f-194a-463b-87fc-7695256ff752","mimo-v2-pro-vs-omni-vs-flash-2026-zh","MiMo V2 Pro、Omni、Flash 怎麼選","2026-04-02T01:18:43.576128+00:00",{"id":126,"slug":127,"title":128,"created_at":129},"3b988fd7-6749-4f01-ba25-c0ad7486dc31","z-ai-glm-5v-turbo-design2code-claude-zh","GLM-5V-Turbo 在 Design2Code 贏了…","2026-04-02T04:03:36.31741+00:00"]