[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-gpt-5-5-senior-engineer-benchmark-every-en-zh":3,"article-related-gpt-5-5-senior-engineer-benchmark-every-en-zh":31,"series-model-release-e461ae3e-ed3f-4109-910c-8ebac13936bd":82},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":23,"views":27,"created_at":28,"published_at":29,"topic_cluster_id":30},"e461ae3e-ed3f-4109-910c-8ebac13936bd","gpt-5-5-senior-engineer-benchmark-every-en-zh","GPT-5.5 在工程測試拿 62.5 分","\u003Cp data-speakable=\"summary\">Every 指出，\u003Ca href=\"\u002Ftag\u002Fopenai\">OpenAI\u003C\u002Fa> 的 GPT-5.5 在工程測試拿到 62.5 分，是這次\u003Ca href=\"\u002Fnews\u002F5-grok-updates-turn-chat-into-tools-zh\">更新\u003C\u002Fa>的最高分。\u003C\u002Fp>\u003Cp>OpenAI 在 2026 年 4 月 23 日推出 GPT-5.5。Every 這篇測試把它放進 Senior Engineer \u003Ca href=\"\u002Ftag\u002Fbenchmark\">Benchmark\u003C\u002Fa>，比對結果顯示，它的最佳成績是 62.5 分。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>項目\u003C\u002Fth>\u003Cth>數值\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>發布日期\u003C\u002Ftd>\u003Ctd>2026 年 4 月 23 日\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>最佳測試分數\u003C\u002Ftd>\u003Ctd>62.5\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Opus 4.7 對照\u003C\u002Ftd>\u003Ctd>約 30 多分\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>人類資深工程師\u003C\u002Ftd>\u003Ctd>約 80 多到 90 多分\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>上下文長度\u003C\u002Ftd>\u003Ctd>100 萬 tokens\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>輸入價格\u003C\u002Ftd>\u003Ctd>每 100 萬 tokens 5 美元\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>輸出價格\u003C\u002Ftd>\u003Ctd>每 100 萬 tokens 30 美元\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>GPT-5.5 Pro 輸出價格\u003C\u002Ftd>\u003Ctd>每 100 萬 tokens 180 美元\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>發生了什麼\u003C\u002Fh2>\u003Cp>Every 把 \u003Ca href=\"https:\u002F\u002Fopenai.com\u002F\" target=\"_blank\" rel=\"noopener\">OpenAI\u003C\u002Fa> 的 GPT-5.5 描述成一個新的 pre-train 模型，而不是單純把舊模型外層包得更好。文章的結論很直接：它在工程任務上更快，也更穩，對長時間工作流更友善。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779538556274-2bmf.png\" alt=\"GPT-5.5 在工程測試拿 62.5 分\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>測試成績上，GPT-5.5 的 62.5 分明顯高於 \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002F\" target=\"blank\" rel=\"noopener\">Anthropic\u003C\u002Fa> 的 \u003Ca href=\"\u002Ftag\u002Fopus-47\">Opus 4.7\u003C\u002Fa>。差距不是小幅領先，而是從低 30 分跳到 60 分以上，這代表它在這套測試裡的表現層級已經不同。\u003C\u002Fp>\u003Cp>Every 也提到幾個產品面細節。GPT-5.5 先在 \u003Ca href=\"https:\u002F\u002Fchatgpt.com\u002F\" target=\"_blank\" rel=\"noopener\">ChatGPT\u003C\u002Fa> 和 \u003Ca href=\"\u002Ftag\u002Fcodex\">Codex\u003C\u002Fa> \u003Ca href=\"\u002Fnews\u002Fwhy-xai-grok-3-api-launch-matters-zh\">上線\u003C\u002Fa>，API 要晚一點才開，原因是還要做更多安全與資安檢查。\u003C\u002Fp>\u003Cul>\u003Cli>最佳分數：62.5\u003C\u002Fli>\u003Cli>對照模型：Opus 4.7 約 30 多分\u003C\u002Fli>\u003Cli>測試對象：資深工程任務\u003C\u002Fli>\u003Cli>先開放場景：ChatGPT、Codex\u003C\u002Fli>\u003Cli>延後項目：API\u003C\u002Fli>\u003Cli>模型特性：100 萬 tokens 上下文、支援 prompt caching\u003C\u002Fli>\u003C\u002Ful>\u003Cp>文章還指出，GPT-5.5 預設使用中等推理，不是完全關閉推理。這種設定通常代表模型會多想一步，但不會像重推理模式那樣拖慢回應速度。\u003C\u002Fp>\u003Cp>在任務類型上，Every 認為它更適合持續寫程式、寫文件、做儀表板、整理課程內容，以及把逐字稿變成可交付文件。它也不是全勝，像產品設計、Ruby、PowerPoint 和空間構圖，仍有部分項目落後 Opus 4.7。\u003C\u002Fp>\u003Ch2>為什麼重要\u003C\u002Fh2>\u003Cp>對\u003Ca href=\"\u002Fnews\u002Fgoogle-ai-studio-android-app-building-web-zh\">開發\u003C\u002Fa>者來說，這代表模型競爭已經不只是「誰更會聊天」，而是「誰更能接住真實工作」。如果 GPT-5.5 在長任務中更穩，團隊就能少做幾輪重試，這會直接影響交付速度。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779538548975-g8ed.png\" alt=\"GPT-5.5 在工程測試拿 62.5 分\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>對產業面來說，OpenAI 這次是在明確搶回工程與知識工作場景。過去不少團隊把 \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002F\" target=\"_blank\" rel=\"noopener\">Anthropic\u003C\u002Fa> 當成寫碼與規劃任務的首選，GPT-5.5 的分數與產品路線，顯然是要把這些使用者拉回來。\u003C\u002Fp>\u003Cp>價格也值得看。雖然輸入和輸出單價不算低，但如果模型能少出錯、少返工，總成本可能反而更好看。這也是企業採購時最在意的點：不是 \u003Ca href=\"\u002Ftag\u002Ftoken\">token\u003C\u002Fa> 單價，而是把任務做完的總成本。\u003C\u002Fp>\u003Cp>最後的問題很簡單：GPT-5.5 能不能從 benchmark 贏，變成團隊每天真的會開著用的工具？如果答案是可以，這次更新就不只是分數上升，而是工作流位置的改寫。\u003C\u002Fp>","OpenAI 於 2026\u002F4\u002F23 推出 GPT-5.5，Every 指它在 Senior Engineer Benchmark 最佳成績達 62.5，明顯領先 Opus 4.7，但仍低於人類資深工程師。","every.to","https:\u002F\u002Fevery.to\u002Fvibe-check\u002Fgpt-5-5",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779538556274-2bmf.png","model-release","zh","d1a3f7e9-4415-4158-afbc-1327e7148fb3",[17,18,19,20,21,22],"GPT-5.5","OpenAI","benchmark","工程測試","Codex","ChatGPT",[24,25,26],"GPT-5.5 在 Every 的 Senior Engineer Benchmark 拿到 62.5 分，領先 Opus 4.7。","模型先在 ChatGPT 與 Codex 上線，API 之後才開放。","對開發者來說，真正看點是長任務穩定度與總體返工成本。",5,"2026-05-23T12:15:25.573753+00:00","2026-05-23T12:15:25.464+00:00","0ccb5d2e-69f1-4354-a3e0-cb370221cd95",{"tags":32,"relatedLang":41,"relatedPosts":45},[33,35,37,38,39],{"name":18,"slug":34},"openai",{"name":17,"slug":36},"gpt-55",{"name":20,"slug":20},{"name":19,"slug":19},{"name":21,"slug":40},"codex",{"id":15,"slug":42,"title":43,"language":44},"gpt-5-5-senior-engineer-benchmark-every-en","GPT-5.5 scores 62.5 on Every’s engineer test","en",[46,52,58,64,70,76],{"id":47,"slug":48,"title":49,"cover_image":50,"image_url":50,"created_at":51,"category":13},"466021f3-b8a4-4ecb-ad64-8070beaf9cbc","gemini-1-5-pro-002-flash-002-2-0-flash-update-zh","Gemini 1.5 與 2.0 Flash 更新上線","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780999389960-97qh.png","2026-06-09T10:02:27.849751+00:00",{"id":53,"slug":54,"title":55,"cover_image":56,"image_url":56,"created_at":57,"category":13},"66ce4542-3c93-4a0c-ab52-5e6f90a36212","minimax-m3-kai-fang-quan-zhong-xie-cheng-shi-reng-neng-ying-zh","MiniMax M3 證明開放權重在寫程式上仍能贏","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780968786191-lele.png","2026-06-09T01:32:30.829528+00:00",{"id":59,"slug":60,"title":61,"cover_image":62,"image_url":62,"created_at":63,"category":13},"948a7dc4-b172-42f9-9bef-abcbbffaca18","gemini-35-flash-pricing-benchmarks-zh","Gemini 3.5 Flash 價格與長上下文解析","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780840978961-6b9n.png","2026-06-07T14:02:29.835438+00:00",{"id":65,"slug":66,"title":67,"cover_image":68,"image_url":68,"created_at":69,"category":13},"5507f140-5223-4f68-ade6-30d9e5457638","gemma-4-12b-specs-benchmarks-run-locally-zh","怎麼做 Gemma 4 12B 本地部署","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780777971165-4bit.png","2026-06-06T20:32:24.857611+00:00",{"id":71,"slug":72,"title":73,"cover_image":74,"image_url":74,"created_at":75,"category":13},"ef42a437-8b06-4ff5-a135-ece7662c01f4","best-kimi-models-2026-k2-5-vs-k2-thinking-zh","2026 最佳 Kimi 模型：K2.5 對 K2 Thinking","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780770790333-x3lk.png","2026-06-06T18:32:39.410186+00:00",{"id":77,"slug":78,"title":79,"cover_image":80,"image_url":80,"created_at":81,"category":13},"fd2ad557-5c09-4758-964d-cda1c3c87a4c","kimi-k2-6-open-source-coding-agent-swarm-zh","Kimi K2.6 開源加上 Agent Swarm","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780761795960-0zg9.png","2026-06-06T16:02:21.702099+00:00",[83,88,93,98,103,108,113,118,123,128],{"id":84,"slug":85,"title":86,"created_at":87},"58b64033-7eb6-49b9-9aab-01cf8ae1b2f2","nvidia-rubin-six-chips-one-ai-supercomputer-zh","NVIDIA Rubin 把六顆晶片塞進 AI 機櫃","2026-03-26T07:18:45.861277+00:00",{"id":89,"slug":90,"title":91,"created_at":92},"0dcc2c61-c2a6-480d-adb8-dd225fc68914","march-2026-ai-model-news-what-mattered-zh","2026 年 3 月 AI 模型新聞重點","2026-03-26T07:32:08.386348+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"214ab08b-5ce5-4b5c-8b72-47619d8675dd","why-small-models-are-winning-on-device-ai-zh","小模型為何吃下裝置端 AI","2026-03-26T07:36:30.488966+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"785624b2-0355-4b82-adc3-de5e45eecd88","midjourney-v8-faster-images-higher-costs-zh","Midjourney V8 變快了，也變貴了","2026-03-26T07:52:03.562971+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"cda76b92-d209-4134-86c1-a60f5bc7b128","xiaomi-mimo-trio-agents-robots-voice-zh","小米 MiMo 三模型瞄準代理、機器人與語音","2026-03-28T03:05:08.779489+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"9e1044b4-946d-47fe-9e2a-c2ee032e1164","xiaomi-mimo-v2-pro-1t-moe-agents-zh","小米 MiMo-V2-Pro 登場：1T MoE 模型","2026-03-28T03:06:19.002353+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"c4b6186f-bd84-4598-997e-c6e31d543c0d","cursor-composer-2-agentic-coding-model-zh","Cursor Composer 2 走向代理式寫碼","2026-03-28T03:13:06.422716+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"e112e76f-ec3b-408f-810e-e93ae21a888a","apple-siri-gemini-distilled-models-zh","Apple Siri 牽手 Gemini 的真相","2026-03-29T04:52:57.886544+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"c679b51f-194a-463b-87fc-7695256ff752","mimo-v2-pro-vs-omni-vs-flash-2026-zh","MiMo V2 Pro、Omni、Flash 怎麼選","2026-04-02T01:18:43.576128+00:00",{"id":129,"slug":130,"title":131,"created_at":132},"3b988fd7-6749-4f01-ba25-c0ad7486dc31","z-ai-glm-5v-turbo-design2code-claude-zh","GLM-5V-Turbo 在 Design2Code 贏了…","2026-04-02T04:03:36.31741+00:00"]