AIME 2026 排行榜：Qwen 先拿下數學測試

OraCore Editors

返回首頁

[RSCH] 2026年4月3日6 分鐘閱讀OraCore 編輯部

AIME 2026 排行榜：Qwen 先拿下數學測試

AIME 2026 排行榜只有 8 個模型，但分數差很大。Qwen3.6 Plus 以 0.953 領先，最低只有 0.375。這份數學基準很適合看 LLM 的推理穩定度。

Gemma 4 Qwen AIME 2026 Seed 2.0 Pro 數學基準推理模型 LLM AI 排行榜

分享 LinkedIn

說真的，這份榜單很小，訊號卻很清楚。AIME 2026 只有 8 個模型上榜。最高分 0.953，最低分 0.375，差距到 0.578。

這不是聊天測試。它用的是 2026 年 American Invitational Mathematics Examination 的 30 題。答案只有 000 到 999。講白了，對就是對，錯就是錯，沒什麼模糊空間。

對台灣開發者來說，這種榜單很有參考價值。因為它測的不是文采，是推理。你如果在做 Qwen、Claude 或 GPT 類產品，這種數字會直接影響你選哪個模型。

AIME 2026 在測什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

AIME 不是考常識。它在測多步驟推理。模型要先拆題，再追蹤條件，最後還不能算錯。少一步，答案就飛了。

這類題目很適合抓出 LLM 的弱點。很多模型看起來很會講。可是一碰到代數、組合、模數運算，就開始亂飄。你會發現，它不是不會講，是不會穩定算。

LLM Stats 把這個榜單標成數學與推理基準。語言是英文，滿分是 1。規則簡單，難度很硬。這種測法很殘酷，但也很乾淨。

共 30 題，來自 AIME I 與 AIME II
答案只接受 000 到 999
純文字評測，不靠圖片
目前只有 8 個模型
8 筆都是自報結果，還沒有驗證結果

最後一點很重要。自報分數能看趨勢，不能當終局。你可以把它當成供應商的成績單草稿。正式採購前，還是要自己跑一輪。

我覺得這種榜單最有用的地方，是把「會講」和「會算」切開。這件事很實際。因為很多產品 demo 很順，真進到 production，錯一題就可能炸掉整條流程。

誰現在領先

目前第一名是 Qwen3.6 Plus，分數 0.953。這個成績很猛。第二名是 ByteDance 的 Seed 2.0 Pro，分數 0.942。兩者只差 0.011。

這種差距很小。可是在高階推理榜上，小數點後兩位常常就代表一個世代的訓練策略差異。不是單純誰大誰贏。還牽涉資料配方、後訓練、解題策略，甚至推理時的採樣方式。

第三名是 Qwen3.5-397B-A17B，分數 0.913。再往下看，Google 的 Gemma 4 系列分布就很分裂。大模型能打，小模型掉得很快。

“The problem with math is not that it is hard, but that it is easy to be wrong in a way that looks right.” — Terence Tao

這句話很貼切。數學題最煩的地方，就是錯得很像對。模型如果只會產生漂亮解釋，卻沒辦法穩定落在正確答案，那就只是會寫作文，不是會解題。

你可能會想問，0.953 到底算不算高？以這種題型來看，算很高。可是一旦你看整個榜單，就知道頂端和中段的差距還不小。這不是全體一起進步，而是少數模型先衝上去。

數字怎麼看才有感

這 8 個模型的平均分數是 0.783。標準差是 0.238。白話一點說，大家不是擠在一起，而是明顯分成幾個層級。

榜單可以直接拆開看。第一梯隊很穩。第二梯隊還能用。第三梯隊就開始明顯失真。這對企業選模很重要，因為你不能只看平均值。

如果你的工作是解數學題、做規劃、跑規則推理，模型差 0.05 可能就是能用和不能用的分界。尤其在 agent 流程裡，前面一個步驟算錯，後面再多補救都很難救回來。

Qwen3.6 Plus：0.953
Seed 2.0 Pro：0.942
Qwen3.5-397B-A17B：0.913
Gemma 4 31B：0.892
Gemma 4 26B-A4B：0.883
Seed 2.0 Lite：0.883
Gemma 4 E4B：0.425
Gemma 4 E2B：0.375

最刺眼的，是 Gemma 小模型的掉速。31B 還在前段班，E4B 和 E2B 卻直接掉到 0.4 左右。這表示縮小參數量，不只是少一點分數，是整體推理能力一起滑坡。

這也呼應很多團隊的實戰經驗。你以為小模型比較省錢、比較快，結果它在難題上亂掉，最後人工重工成本更高。算下來，未必比較划算。

跟其他基準比起來差在哪

AIME 跟 MMLU 這種廣泛知識測試不一樣。它不太在乎百科知識。它更在乎你能不能一路把推理做完。

它也跟 HumanEval 這種程式題不同。寫 code 時，模型可以靠模板和常見套路撐一下。AIME 沒這麼好混。每一步都要精準。

所以 AIME 很適合拿來看「高階推理」到底有沒有進步。很多模型在一般聊天裡看起來很會。可是一碰到競賽數學，短板就直接露出來。這種落差，產品團隊最該先知道。

MMLU 偏廣泛知識
HumanEval 偏程式能力
AIME 偏多步驟數學推理
分數差距更能反映模型穩定度

如果你在選 API，我會建議你別只看公開 demo。你要自己跑題庫。尤其是跟規則、金流、排程、風控有關的軟體。這些場景很怕模型「說得像對的」。

另外，這份榜單目前全是自報結果。這代表它有參考價值，但還不是鐵證。等有更多第三方驗證，排名才會更有說服力。

為什麼這種榜單越來越重要

現在很多公司都在談 AI 助理。可是助理要真的能上線，不能只會聊天。它要能算、能推、還不能亂編。AIME 就是在戳這個痛點。

這幾年模型更新很快。可是真正拉開差距的，常常不是會不會說話，而是會不會做對。對台灣團隊來說，這很現實。因為你要面對的是成本、延遲、準確率三個一起來。

如果你是做教育科技、金融分析、供應鏈規劃，這種數學推理榜單就不只是新聞。它是選型工具。你可以先用它篩掉不穩的模型，再進一步做自己的資料測試。

我也會提醒一件事。榜單高，不代表你的場景就一定高。因為真實產品裡還有提示詞、工具呼叫、檢索、上下文長度，這些都會拉低表現。基準只是起點，不是終點。

接下來該看什麼

我猜下一輪大家會更在意兩件事。第一，這些分數能不能被驗證。第二，小模型能不能縮小落差。只要這兩件事沒解，選模還是會很吃經驗。

如果你現在正在挑模型，我的建議很直接。先拿你自己的 20 到 50 題核心題目跑一輪。再對照 AIME 這種公開榜單。兩邊都看，才不會被 demo 騙到。

最後丟一個問題給你：你現在用的模型，真遇到 30 題數學題，能拿幾分？如果答案你自己都沒把握，那就該開始測了。

// 相關文章

AIME 2026 排行榜：Qwen 先拿下數學測試

AIME 2026 在測什麼

訂閱 AI 趨勢週報

誰現在領先

數字怎麼看才有感

跟其他基準比起來差在哪

為什麼這種榜單越來越重要

接下來該看什麼

TurboQuant 與小站 SEO 變化

TurboQuant 與 FP8 實測結果

LLMbda 演算替 AI 代理人立安全規則

更簡單的毫米波波束域去噪器

為什麼 AI 基準賽在資安領域的勝利，應該讓防守方警醒

為什麼 Linux 安全需要「補丁浪潮」思維