AIME 2026 排行榜:Qwen 先拿下數學測試
AIME 2026 排行榜只有 8 個模型,但分數差很大。Qwen3.6 Plus 以 0.953 領先,最低只有 0.375。這份數學基準很適合看 LLM 的推理穩定度。

說真的,這份榜單很小,訊號卻很清楚。AIME 2026 只有 8 個模型上榜。最高分 0.953,最低分 0.375,差距到 0.578。
這不是聊天測試。它用的是 2026 年 American Invitational Mathematics Examination 的 30 題。答案只有 000 到 999。講白了,對就是對,錯就是錯,沒什麼模糊空間。
對台灣開發者來說,這種榜單很有參考價值。因為它測的不是文采,是推理。你如果在做 Qwen、Claude 或 GPT 類產品,這種數字會直接影響你選哪個模型。
AIME 2026 在測什麼
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
AIME 不是考常識。它在測多步驟推理。模型要先拆題,再追蹤條件,最後還不能算錯。少一步,答案就飛了。

這類題目很適合抓出 LLM 的弱點。很多模型看起來很會講。可是一碰到代數、組合、模數運算,就開始亂飄。你會發現,它不是不會講,是不會穩定算。
LLM Stats 把這個榜單標成數學與推理基準。語言是英文,滿分是 1。規則簡單,難度很硬。這種測法很殘酷,但也很乾淨。
- 共 30 題,來自 AIME I 與 AIME II
- 答案只接受 000 到 999
- 純文字評測,不靠圖片
- 目前只有 8 個模型
- 8 筆都是自報結果,還沒有驗證結果
最後一點很重要。自報分數能看趨勢,不能當終局。你可以把它當成供應商的成績單草稿。正式採購前,還是要自己跑一輪。
我覺得這種榜單最有用的地方,是把「會講」和「會算」切開。這件事很實際。因為很多產品 demo 很順,真進到 production,錯一題就可能炸掉整條流程。
誰現在領先
目前第一名是 Qwen3.6 Plus,分數 0.953。這個成績很猛。第二名是 ByteDance 的 Seed 2.0 Pro,分數 0.942。兩者只差 0.011。
這種差距很小。可是在高階推理榜上,小數點後兩位常常就代表一個世代的訓練策略差異。不是單純誰大誰贏。還牽涉資料配方、後訓練、解題策略,甚至推理時的採樣方式。
第三名是 Qwen3.5-397B-A17B,分數 0.913。再往下看,Google 的 Gemma 4 系列分布就很分裂。大模型能打,小模型掉得很快。
“The problem with math is not that it is hard, but that it is easy to be wrong in a way that looks right.” — Terence Tao
這句話很貼切。數學題最煩的地方,就是錯得很像對。模型如果只會產生漂亮解釋,卻沒辦法穩定落在正確答案,那就只是會寫作文,不是會解題。
你可能會想問,0.953 到底算不算高?以這種題型來看,算很高。可是一旦你看整個榜單,就知道頂端和中段的差距還不小。這不是全體一起進步,而是少數模型先衝上去。
數字怎麼看才有感
這 8 個模型的平均分數是 0.783。標準差是 0.238。白話一點說,大家不是擠在一起,而是明顯分成幾個層級。

榜單可以直接拆開看。第一梯隊很穩。第二梯隊還能用。第三梯隊就開始明顯失真。這對企業選模很重要,因為你不能只看平均值。
如果你的工作是解數學題、做規劃、跑規則推理,模型差 0.05 可能就是能用和不能用的分界。尤其在 agent 流程裡,前面一個步驟算錯,後面再多補救都很難救回來。
- Qwen3.6 Plus:0.953
- Seed 2.0 Pro:0.942
- Qwen3.5-397B-A17B:0.913
- Gemma 4 31B:0.892
- Gemma 4 26B-A4B:0.883
- Seed 2.0 Lite:0.883
- Gemma 4 E4B:0.425
- Gemma 4 E2B:0.375
最刺眼的,是 Gemma 小模型的掉速。31B 還在前段班,E4B 和 E2B 卻直接掉到 0.4 左右。這表示縮小參數量,不只是少一點分數,是整體推理能力一起滑坡。
這也呼應很多團隊的實戰經驗。你以為小模型比較省錢、比較快,結果它在難題上亂掉,最後人工重工成本更高。算下來,未必比較划算。
跟其他基準比起來差在哪
AIME 跟 MMLU 這種廣泛知識測試不一樣。它不太在乎百科知識。它更在乎你能不能一路把推理做完。
它也跟 HumanEval 這種程式題不同。寫 code 時,模型可以靠模板和常見套路撐一下。AIME 沒這麼好混。每一步都要精準。
所以 AIME 很適合拿來看「高階推理」到底有沒有進步。很多模型在一般聊天裡看起來很會。可是一碰到競賽數學,短板就直接露出來。這種落差,產品團隊最該先知道。
- MMLU 偏廣泛知識
- HumanEval 偏程式能力
- AIME 偏多步驟數學推理
- 分數差距更能反映模型穩定度
如果你在選 API,我會建議你別只看公開 demo。你要自己跑題庫。尤其是跟規則、金流、排程、風控有關的軟體。這些場景很怕模型「說得像對的」。
另外,這份榜單目前全是自報結果。這代表它有參考價值,但還不是鐵證。等有更多第三方驗證,排名才會更有說服力。
為什麼這種榜單越來越重要
現在很多公司都在談 AI 助理。可是助理要真的能上線,不能只會聊天。它要能算、能推、還不能亂編。AIME 就是在戳這個痛點。
這幾年模型更新很快。可是真正拉開差距的,常常不是會不會說話,而是會不會做對。對台灣團隊來說,這很現實。因為你要面對的是成本、延遲、準確率三個一起來。
如果你是做教育科技、金融分析、供應鏈規劃,這種數學推理榜單就不只是新聞。它是選型工具。你可以先用它篩掉不穩的模型,再進一步做自己的資料測試。
我也會提醒一件事。榜單高,不代表你的場景就一定高。因為真實產品裡還有提示詞、工具呼叫、檢索、上下文長度,這些都會拉低表現。基準只是起點,不是終點。
接下來該看什麼
我猜下一輪大家會更在意兩件事。第一,這些分數能不能被驗證。第二,小模型能不能縮小落差。只要這兩件事沒解,選模還是會很吃經驗。
如果你現在正在挑模型,我的建議很直接。先拿你自己的 20 到 50 題核心題目跑一輪。再對照 AIME 這種公開榜單。兩邊都看,才不會被 demo 騙到。
最後丟一個問題給你:你現在用的模型,真遇到 30 題數學題,能拿幾分?如果答案你自己都沒把握,那就該開始測了。