[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-llm-leaderboard-2026-top-models-compared-zh":3,"article-related-llm-leaderboard-2026-top-models-compared-zh":31,"series-tools-d588cb9f-0207-4e99-9b43-aac9886f1133":79},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":23,"views":27,"created_at":28,"published_at":29,"topic_cluster_id":30},"d588cb9f-0207-4e99-9b43-aac9886f1133","llm-leaderboard-2026-top-models-compared-zh","2026 LLM 排行榜更新：誰領先","\u003Cp data-speakable=\"summary\">Vellum 在 \u003Ca href=\"\u002Fnews\u002F4-clues-from-xboxs-2026-release-order-zh\">2026\u003C\u002Fa> 年 5 月 29 日更新 LLM 排行榜，加入最新 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa>、速度與價格資料，方便開發者比對模型。\u003C\u002Fp>\u003Cp>Vellum 於 2026 年 5 月 29 日更新 \u003Ca href=\"https:\u002F\u002Fwww.vellum.ai\u002Fllm-leaderboard\" target=\"_blank\" rel=\"noopener\">LLM Leaderboard\u003C\u002Fa>，只看 2024 年 4 月之後發布的公開模型版本。這頁把推理、數學、程式、語言、多模態、速度、延遲、成本與上下文長度放在一起比。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>項目\u003C\u002Fth>\u003Cth>數值\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>更新日期\u003C\u002Ftd>\u003Ctd>29 May 2026\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>推理冠軍\u003C\u002Ftd>\u003Ctd>Claude 3 Opus，95.4%\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>數學冠軍\u003C\u002Ftd>\u003Ctd>Gemini 3 Pro，100%\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>程式冠軍\u003C\u002Ftd>\u003Ctd>Claude Opus 4.8，88.6%\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>總榜冠軍\u003C\u002Ftd>\u003Ctd>Claude Opus 4.8，57.9%\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>最快模型\u003C\u002Ftd>\u003Ctd>Llama 4 Scout，2600 t\u002Fs\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>最低延遲\u003C\u002Ftd>\u003Ctd>GPT-5.3 Codex，0.003 秒\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>最低標價\u003C\u002Ftd>\u003Ctd>Nova Micro，$0.04 \u002F $0.14 per 1M tokens\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>發生了什麼\u003C\u002Fh2>\u003Cp>這次更新把舊測試拿掉，像 MMLU 這類已經太擁擠的指標不再是主角。Vellum 表示，它會混合供應商公布數字、自家評測和開源社群結果，再按任務分數排序。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780316273635-wgda.png\" alt=\"2026 LLM 排行榜更新：誰領先\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>榜單也把差異拉得更清楚。\u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\" target=\"_blank\" rel=\"noopener\">Anthropic\u003C\u002Fa> 的 \u003Ca href=\"\u002Ftag\u002Fclaude\">Claude\u003C\u002Fa> 3 Opus 在 GPQA Diamond 推理拿到 95.4%，\u003Ca href=\"https:\u002F\u002Fblog.google\u002Ftechnology\u002Fai\u002F\" target=\"_blank\" rel=\"noopener\">Google\u003C\u002Fa> 的 \u003Ca href=\"\u002Ftag\u002Fgemini\">Gemini\u003C\u002Fa> 3 Pro 在 AIME 2025 數學測到 100%，\u003Ca href=\"https:\u002F\u002Fopenai.com\" target=\"_blank\" rel=\"noopener\">OpenAI\u003C\u002Fa> 的 GPT-5.5 則在 ARC-AGI 2 視覺推理拿到 85%。\u003C\u002Fp>\u003Cp>程式與代理任務的排序也很明確。Claude Opus 4.8 在 \u003Ca href=\"\u002Ftag\u002Fswe-bench\">SWE-Bench\u003C\u002Fa> 拿到 88.6%，而在 Humanity’s Last Exam 上以 57.9% 躍居總榜第一。速度面則是 \u003Ca href=\"https:\u002F\u002Fai.meta.com\" target=\"_blank\" rel=\"noopener\">Meta\u003C\u002Fa> 的 Llama 4 Scout 以 2600 tokens\u002Fsec 取勝，延遲最低的是 GPT-5.3 Codex，TTFT 只有 0.003 秒。\u003C\u002Fp>\u003Cul>\u003Cli>最佳視覺推理：GPT-5.5，ARC-AGI 2 為 85%。\u003C\u002Fli>\u003Cli>最佳多語言推理：Gemini 3 Pro，MMMLU 為 91.8%。\u003C\u002Fli>\u003Cli>最快列示模型：Llama 4 Scout，2600 tokens\u002Fsec。\u003C\u002Fli>\u003Cli>最低延遲：GPT-5.3 Codex，TTFT 0.003 秒。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>為什麼重要\u003C\u002Fh2>\u003Cp>對開發者來說，這類榜單最有用的地方不是看誰第一，而是看誰適合你的工作流。做 coding agent 的\u003Ca href=\"\u002Fnews\u002F5-reasons-teams-pick-microsoft-agent-framework-zh\">團隊\u003C\u002Fa>會先看 Claude Opus 4.8，數學密集型工具會偏向 Gemini 3 Pro，成本敏感產品則會把 token 價格和速度一起算。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780316282761-2usj.png\" alt=\"2026 LLM 排行榜更新：誰領先\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這也反映出模型選型已經變成取捨題。某些模型分數高，但輸入和輸出單價也高；另一些模型很便宜、很快，卻在難題上掉分。對採購和產品團隊來說，這比單看一個總分更接近真實部署。\u003C\u002Fp>\u003Cp>Vellum 另外還把個人 AI harness 放進比較，列出 Hermes、\u003Ca href=\"\u002Ftag\u002Fopenclaw\">OpenClaw\u003C\u002Fa>、Claude Cowork 和自家產品在安裝、記憶、資安、託管、整合、排程與價格上的差異。這讓榜單\u003Ca href=\"\u002Fnews\u002Fwhy-goland-is-more-than-just-a-go-ide-zh\">不只是\u003C\u002Fa>在比模型，也是在比「怎麼把模型用進生產環境」。\u003C\u002Fp>\u003Cp>一句話總結：現在沒有單一最佳 LLM，只有最適合推理、程式、數學、延遲或成本的選擇。問題只剩一個，你的團隊會先用哪個指標決定預設模型？\u003C\u002Fp>","Vellum 於 2026 年 5 月 29 日更新 LLM 排行榜，加入新 benchmark、速度與價格比較，方便開發者按任務挑模型。","www.vellum.ai","https:\u002F\u002Fwww.vellum.ai\u002Fllm-leaderboard",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780316273635-wgda.png","tools","zh","637f972b-8089-4a2c-9318-c46307f3cf56",[17,18,19,20,21,22],"LLM","benchmark","Claude","Gemini","OpenAI","模型排行",[24,25,26],"Vellum 於 2026 年 5 月 29 日更新 LLM 排行榜，聚焦新模型與多維度比較。","Claude Opus 4.8、Gemini 3 Pro、Llama 4 Scout 與 GPT-5.3 Codex 分別在不同指標領先。","開發者選模型時，應把準確率、延遲、速度與價格一起看，而不是只看總分。",5,"2026-06-01T12:17:26.139692+00:00","2026-06-01T12:17:26.117+00:00","c3c88dd2-a940-438a-b359-0e5a24562273",{"tags":32,"relatedLang":11,"relatedPosts":42},[33,35,36,38,40],{"name":21,"slug":34},"openai",{"name":18,"slug":18},{"name":17,"slug":37},"llm",{"name":19,"slug":39},"claude",{"name":20,"slug":41},"gemini",[43,49,55,61,67,73],{"id":44,"slug":45,"title":46,"cover_image":47,"image_url":47,"created_at":48,"category":13},"5656a6ab-9e07-41be-9cea-3440fb8846e2","nvidia-lg-ai-collaboration-playbook-zh","Nvidia 和 LG 把 AI 合作變成模板","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781056994999-8eng.png","2026-06-10T02:02:46.590133+00:00",{"id":50,"slug":51,"title":52,"cover_image":53,"image_url":53,"created_at":54,"category":13},"e48be66d-d7de-419e-b5fd-805f0784ef15","ollama-best-free-ai-path-2026-zh","Ollama 是 2026 年真正適合工作的免費 AI 路徑","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781056077878-11pc.png","2026-06-10T01:47:24.632993+00:00",{"id":56,"slug":57,"title":58,"cover_image":59,"image_url":59,"created_at":60,"category":13},"9b53427c-8c2a-4960-a773-f14d4528caae","awesome-production-ml-turns-chaos-into-stack-zh","這份 MLOps 清單把混亂拆成堆疊","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781055220958-dmar.png","2026-06-10T01:33:14.850634+00:00",{"id":62,"slug":63,"title":64,"cover_image":65,"image_url":65,"created_at":66,"category":13},"d5af1522-28aa-4cfb-8779-1ecf168bc0b5","bentoml-turns-model-serving-into-python-apis-zh","BentoML 把模型服務變成 Python API","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781054310299-c1gm.png","2026-06-10T01:17:56.193093+00:00",{"id":68,"slug":69,"title":70,"cover_image":71,"image_url":71,"created_at":72,"category":13},"63d8b456-ad6b-475e-86e9-d4677ca226aa","magenta-realtime-2-score-inside-daw-zh","Magenta RealTime 2 讓你在 DAW 裡即時改曲","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781046204038-8tox.png","2026-06-09T23:02:55.9651+00:00",{"id":74,"slug":75,"title":76,"cover_image":77,"image_url":77,"created_at":78,"category":13},"f60261ff-a42e-4cfb-9f90-97785e633289","open-source-ai-tools-beat-claude-paid-tiers-zh","開源 AI 工具在價值上已經贏過 Claude 付費方案","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781045266035-on7t.png","2026-06-09T22:47:20.195939+00:00",[80,85,90,95,100,105,110,115,120,125],{"id":81,"slug":82,"title":83,"created_at":84},"855cd52f-6fab-46cc-a7c1-42195e8a0de4","surepath-real-time-mcp-policy-controls-zh","SurePath 推出即時 MCP 政策控管","2026-03-26T07:57:40.77233+00:00",{"id":86,"slug":87,"title":88,"created_at":89},"9b19ab54-edef-4dbd-9ce4-a51e4bae4ebb","mcp-in-2026-the-ai-tool-layer-teams-use-zh","2026 年 MCP：團隊真的在用的 AI 工具層","2026-03-26T08:01:46.589694+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"af9c46c3-7a28-410b-9f04-32b3de30a68c","prompting-in-2026-what-actually-works-zh","2026 提示工程，真正有用的是什麼","2026-03-26T08:08:12.453028+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"05553086-6ed0-4758-81fd-6cab24b575e0","garry-tan-open-sources-claude-code-toolkit-zh","Garry Tan 開源 Claude Code 工具包","2026-03-26T08:26:20.068737+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"042a73a2-18a2-433d-9e8f-9802b9559aac","github-ai-projects-to-watch-in-2026-zh","2026 必看 20 個 GitHub AI 專案","2026-03-26T08:28:09.619964+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"a5f94120-ac0d-4483-9a8b-63590071ac6a","claude-code-vs-cursor-2026-zh","Claude Code 與 Cursor 深度對比：202…","2026-03-26T13:27:14.279193+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"0975afa1-e0c7-4130-a20d-d890eaed995e","practical-github-guide-learning-ml-2026-zh","2026 機器學習入門 GitHub 實用指南","2026-03-27T01:16:49.712576+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"bfdb467a-290f-4a80-b3a9-6f081afb6dff","aiml-2026-student-ai-ml-lab-repo-review-zh","AIML-2026：像課綱的學生實驗 Repo","2026-03-27T01:21:51.467798+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"80cabc3e-09fc-4ff5-8f07-b8d68f5ae545","ai-trending-github-repos-and-research-feeds-zh","AI Trending：把 AI 資源收成一張表","2026-03-27T01:31:35.262183+00:00",{"id":126,"slug":127,"title":128,"created_at":129},"3ce6e6e2-bac5-463e-9f8d-45caabcc61f7","awesome-ai-for-science-research-tools-map-zh","AI 科研工具清單，開始像地圖了","2026-03-27T01:46:50.521945+00:00"]