Gemini 3.1 Pro 數字看真實力

OraCore Editors

返回首頁

[MODEL] 2026年4月3日7 分鐘閱讀OraCore 編輯部

Gemini 3.1 Pro 數字看真實力

Gemini 3.1 Pro 以 77.1% ARC-AGI-2、94.3% GPQA Diamond、1M token 上下文登場，價格仍維持 Gemini 3。這次重點不是噱頭，而是長文檔、程式碼與 agent 工作流的實戰成本。

GPQA Diamond ARC-AGI-2 LLM 長上下文 Google DeepMind SWE-Bench Verified Google AI Vertex AI

分享 LinkedIn

Google DeepMind 的 Gemini 3.1 Pro 這次很直接。它在 ARC-AGI-2 拿到 77.1%，在 GPQA Diamond 拿到 94.3%，SWE-Bench Verified 也有 80.6%。更扯的是，它還塞進了 1,048,576 token 的上下文窗口。

講白了，這不是只會聊天的模型。它更像一台可以吞整包資料的工作機。上線時間是 2026 年 2 月 19 日。價格也沒亂漲，還是 Gemini 3 的規格：每 100 萬 input token 2 美元，每 100 萬 output token 12 美元。

對台灣開發者來說，這種組合很有感。因為很多團隊卡住，不是卡在模型不會答，而是卡在上下文太短、切資料太麻煩、成本又太高。Gemini 3.1 Pro 的賣點，就是把這三件事一起往前推。

先看它到底強在哪

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

先不要被行銷字眼帶走。看數字比較實在。Gemini 3.1 Pro 的重點，不是單一分數漂亮而已，而是它在推理、科學問答、程式修 bug 這三塊都站得住。

1M token 上下文，對長文件工作流很有用。你可以把整個 codebase、設計文件、測試紀錄、API 規格一起丟進去。以前要拆成 10 段，現在可能 1 次就夠。這會直接影響 agent 設計。

它還支援最多 65,536 output token。這點常被忽略，但很重要。因為很多模型不是不會想，而是寫到一半就斷掉。對重構程式、產出長報告、整理研究材料來說，這很煩。

ARC-AGI-2：77.1%
GPQA Diamond：94.3%
SWE-Bench Verified：80.6%
上下文窗口：1,048,576 token
輸出長度：最多 65,536 token
定價：input 2 美元、output 12 美元

為什麼這組 benchmark 很有意思

有些模型只會刷題。有些模型只會寫得像人話。Gemini 3.1 Pro 的數字比較像是三路都想打。ARC-AGI-2 看抽象推理，GPQA Diamond 看研究型知識，SWE-Bench Verified 看真實 repo 修 bug。這三個放一起，才看得出模型有沒有料。

Google 也丟了幾個更偏實戰的數字。像是 LiveCodeBench Pro 2887 Elo、MCP Atlas 69.2%、BrowseComp 85.9%。這些分數不算好記，但意思很清楚。它在 coding、工具協作、網頁研究這三件事上，都有不錯表現。

我覺得這比單看聊天品質更重要。因為現在很多 AI 專案，最後都會走向 agent。你不是只問它一句話。你是要它找資料、跑工具、改程式、驗證結果。這時候 benchmark 就不是裝飾品，而是成本預測工具。

"The ultimate goal is to build a universal assistant." — Demis Hassabis

這句話來自 The Verge 對 Demis Hassabis 的訪談。講得很白。Google 想做的不是單純聊天機，而是能處理工作流的通用助理。

價格、競品、還有誰比較划算

很多人只看分數，這很容易中招。真正在意成本的團隊，會先算 token 單價。Gemini 3.1 Pro 的 input 是 $2 / 1M tokens，output 是 $12 / 1M tokens。這個價格在長上下文模型裡，算很能打。

拿 Claude 來比，頁面上的數字顯示 Claude Opus 4.6 是 $15 input、$75 output。差距很大。對每天跑大量摘要、比對文件、生成程式碼的團隊來說，這不是小錢。

再看 GPT-5.4。Google 在頁面上列出幾個對照。Gemini 3.1 Pro 在 ARC-AGI-2 和 GPQA Diamond 領先。GPT-5.4 則在 OSWorld、GDPval 這類電腦操作和辦公任務上更強。也就是說，沒有誰是全包。

ARC-AGI-2：Gemini 3.1 Pro 77.1%，GPT-5.4 73.3%，Claude Opus 4.6 68.8%
GPQA Diamond：Gemini 3.1 Pro 94.3%，GPT-5.4 92.8%，Claude Opus 4.6 91.3%
SWE-Bench Verified：Gemini 3.1 Pro 80.6%，GPT-5.2 80.0%，Claude Opus 4.6 80.8%
OSWorld：GPT-5.4 75.0%，Claude Opus 4.6 72.7%，Gemini 3.1 Pro 未列為領先者
價格：Gemini 3.1 Pro 明顯低於 Claude Opus 4.6
適合情境：長文件、研究、程式碼、agent 工作流

這對開發者代表什麼

如果你是工程師，這顆模型最有感的地方，不是聊天，而是 workflow。1M token 上下文代表你可以少切很多段。少切段，就少掉很多 prompt 管理成本。這對 code review、repo 分析、規格比對、測試失敗追查都很有幫助。

另一個重點是視覺輸出。Google 提到它支援 native SVG 和 3D code rendering。這聽起來有點花，但實際上很實用。你可以直接叫它生圖表、簡單 UI、流程圖，甚至用在內部工具的原型設計。少一輪人工轉譯，就少一輪出錯。

它還有三種思考等級：Low、Medium、High。這設計很務實。不是每個問題都要重算一大堆 Token。分類、抽取、簡單摘要，用 Low 就好。複雜 debug 或多步推理，再開 High。這種控制感，對成本控管很重要。

如果你要接 API，Google AI 和 Vertex AI 會是主要入口。這也代表它比較像企業工具，不是純消費級聊天產品。對團隊來說，這反而是好事，因為你比較容易把它塞進既有系統。

產業脈絡：大上下文已經不是噱頭

大上下文模型這兩年一直在往前推。原因很簡單。企業資料就是碎的。文件在 Confluence，程式碼在 GitHub，聊天紀錄在 Slack，規格在 Notion。你如果每次都要拆來拆去，AI 就很難真的進工作流。

所以現在大家比的不只是模型會不會答，而是它能不能一次看懂整包資料。這也是為什麼 1M token 會被拿來當賣點。因為它直接改變了「一次能處理多少上下文」這個基本單位。

另一個趨勢是 agent 化。模型不只回文字，還要會呼叫工具、查資料、改程式、做驗證。這也是為什麼 MCP Atlas、BrowseComp 這類分數會變重要。它們其實在測，模型能不能跟外部工具和平共處。

如果你回頭看這波競爭，會發現每家都在搶同一件事：誰能讓 AI 少一點玩具感，多一點工作機感。Gemini 3.1 Pro 這次的數字，至少讓 Google 在這場牌局裡坐到前排。

結論：先別問它會不會取代誰

比較實際的問題是：你的團隊會不會開始把它當預設模型。對長文件、研究、程式碼、agent 工作流來說，我覺得答案很可能是會。因為它的價格、上下文、分數，三個條件湊在一起，真的很難忽視。

但如果你的場景是電腦操作、桌面自動化、某些辦公任務，那 GPT-5.4 或 Claude 仍然有機會更合適。講白了，這不是選邊站。這是選工作型態。你要的是推理、成本，還是操作能力，答案會不一樣。

我的預測很簡單。接下來 6 到 12 個月，會有更多團隊把「一次丟整包資料」當標準做法。不是因為大家懶，是因為成本算得過去。你如果正在做 AI 產品，現在就該測一輪長上下文流程。別只看 demo。看真實資料，才知道這顆模型到底有沒有料。

// 相關文章

Gemini 3.1 Pro 數字看真實力

先看它到底強在哪

訂閱 AI 趨勢週報

為什麼這組 benchmark 很有意思

價格、競品、還有誰比較划算

這對開發者代表什麼

產業脈絡：大上下文已經不是噱頭

結論：先別問它會不會取代誰

MiniMax-M1：開源 1M Token 推理模型

Gemini Omni 影片模型怎麼了

為什麼 Xiaomi 的 MiMo-V2.5-Pro 改變的是 Coding …

OpenAI 即時音訊模型瞄準語音互動

Anthropic推10款金融AI Agent

為什麼 Claude 的「無限」上下文窗口，仍然不會讓 AI 自主運作