Claude Mythos 跟 Opus 4.6 差多少

OraCore Editors

返回首頁

[MODEL] 2026年4月2日8 分鐘閱讀OraCore 編輯部

Claude Mythos 跟 Opus 4.6 差多少

Anthropic 傳出 Mythos 測試分數高於 Claude Opus 4.6。若 SWE-bench、推理與資安數字屬實，開發者會感受到明顯差距。

資安模型 Anthropic SWE-Bench Verified AI coding Claude Mythos LLM benchmark

分享 LinkedIn

Anthropic 這波傳聞很有戲。Anthropic 內部疑似有新模型 Claude Opus 4.6 之上。外流截圖還指向一個名字：Mythos。

最誇張的數字在 SWE-bench Verified。傳聞裡，Mythos 落在 80 分後段。Opus 4.6 則在 70 分前段。差距不是小修小補，已經像換了一顆等級不同的晶片。

我覺得這件事值得看。因為現在選 LLM，不只是看會不會聊天。你是要拿它寫程式、做推理、看資安題。這些場景裡，5 分差距都可能很有感，更別說十幾分。

外流數字到底在講什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

先講白了。這些分數不是官方發布。它們比較像訓練中的截圖。也就是說，Anthropic 可能還在調參，最後上線版本不一定一樣。

但外流內容的方向很一致。Mythos 被放在 Opus 4.6 上面。強項也很明確。寫程式、解題、資安分析，三個都在榜上。這代表它不是只想拿來聊天。

Anthropic 的命名也有脈絡。Haiku、Sonnet、Opus，一直是能力分層。現在多一個 Mythos，通常不是隨便取名。這種命名常常暗示新旗艦，或至少是另一條產品線。

Mythos 目前沒有正式發布。
外流內容把它放在 Opus 4.6 之上。
最強的項目是 coding、reasoning、security。
最後上線分數可能和截圖不同。

所以別把它當成最終規格表。比較合理的讀法，是把它當成方向指標。Anthropic 可能真的在準備一個更猛的旗艦模型。

而且這種外流也常有時間差。截圖可能來自某次 checkpoint。後面如果又做了 safety tuning，分數就會變動。這很正常，別太快下結論。

為什麼 SWE-bench 這麼重要

SWE-bench Verified 很像真實世界的考卷。它不是叫模型亂寫一段程式碼。它是要模型去修真實 GitHub issue。這差很多。

因為真正難的地方，不是語法。是理解 repo。是看懂上下文。是知道哪個檔案該改，哪個地方不能動。還要避免修 bug 時順手弄出新 bug。

Opus 4.6 本來就不弱。公開社群與測試追蹤常把它放在 70 分左右。這已經是很能打的水準。可如果 Mythos 真能衝到 80 分後段，那就不是一點點進步。

Opus 4.6 約在 72% 到 73%。
Mythos 傳聞約在 84% 到 87%。
差距大約 12 到 15 分。
測的是實際 GitHub issue，不是玩具題。

對開發者來說，這差距很實際。因為 agent 工作流最怕反覆修正。模型如果第一次就能修對更多 bug，人工介入就會少很多。

還有測試撰寫也會受影響。好的 coding model 不只是會補程式。它還要會補測試，會找出 failure path，會看 stack trace。這些都很吃上下文理解。

推理與數學，才是硬仗

推理類 benchmark 一直很擠。大家都在同一個分數帶打架。像 GPQA Diamond 這種題目，差 2 分都可能很有感。

GPQA Diamond 是研究所等級的科學題。題目涵蓋生物、化學、物理。它專門抓模型的弱點。光靠語料拼湊，通常很難過關。

外流內容說 Mythos 在這類題目上更高。這代表它可能比較會處理多步驟推理。也比較不會在最後一步翻車。說真的，這比單純會講漂亮話重要多了。

“The models are getting better at reasoning, but they still make mistakes in ways that are hard to predict.” — Dario Amodei, Anthropic CEO，受訪於 WIRED

數學也是一樣。像 AIME 類型題目，重點不是背答案。重點是連續推導。一步錯，後面全歪。

如果 Mythos 在這塊真有提升，那對金融分析、科學研究、長鏈 agent 都很有用。因為這些工作最怕一個小算錯，整份結果一起壞掉。

GPQA Diamond 偏向研究所等級科學推理。
Mythos 傳聞進到低到中 80 分。
AIME 類題目很吃多步計算。
數學錯誤會在 agent 流程裡連鎖放大。

講白了，如果 Opus 4.6 已經能做事，Mythos 可能是比較少出糗的版本。差別不只在分數。差別在你要不要一直人工盯著它。

資安分數為什麼最敏感

最有意思的是資安。Anthropic 一直很在意危險能力評估。因為模型一旦太會看漏洞，防守方會受益，攻擊方也會受益。

這就是雙面刃。模型能幫紅隊、幫 bug bounty、幫 CVE 分析，也可能被拿去做更糟的事。能力越強，控制就越重要。

Anthropic 自己的 Responsible Scaling Policy 也在講這件事。它會先測危險能力，再決定怎麼放大使用範圍。這不是公關話術，是產品門檻。

資安能力強，對防守方很有幫助。
同時也可能被攻擊者拿去用。
Anthropic 會先做能力測試。
外流內容暗示 Mythos 比 Opus 4.6 更強。

如果你是防守方，這是好消息。你可能拿到更強的漏洞分析、威脅建模、CVE 解讀工具。可是如果控管不好，風險也會一起上升。

所以資安分數才會這麼敏感。它不是單純的技術成績。它直接碰到部署策略、權限設計、甚至產品審核流程。

怎麼看這種外流，不要看歪

外流 benchmark 很容易被看過頭。因為它通常只是一個 checkpoint。模型還沒正式上線。後面可能還有對齊、修正、安全處理。

還有一個問題是選擇性曝光。公司通常只會放最好看的部分。外流截圖也是一樣。你看到的可能是強項，不是全貌。

再來，真實世界比 benchmark 難很多。你的 repo 可能很亂。文件可能過時。商業邏輯可能一堆例外。這些都不是單一分數能完全反映的。

benchmark 分數會在發布前變動。
外流內容可能只挑了強項。
真實工作比測試題更混亂。
獨立評測比截圖更可靠。

但外流還是有價值。它至少告訴你一件事。Anthropic 很可能在做一個更適合 agent 工作的模型。這種模型不只會回答，還能真的動手。

如果你在做 AI 產品，重點就很直接。它能不能少讓人修。它能不能少出錯。它能不能讓流程更短。這些才是你會不會換模型的理由。

跟其他模型比，差在哪

如果拿 Anthropic 自家產品來看，Opus 一直是高階線。Sonnet 偏實用。Haiku 偏便宜快。Mythos 若真存在，而且分數像外流那樣高，那它會更像旗艦中的旗艦。

跟 OpenAI 的 GPT 系列比，Anthropic 的強項常在長上下文、文字穩定度、以及 coding workflow。這不是絕對，但很多團隊是這樣感受的。若 Mythos 再把 coding 拉高，差距會更明顯。

跟 Claude 現有旗艦比，最值得注意的是「需要多少人工盯場」。如果一個模型能少犯幾個 repo 級錯誤，團隊就能省掉不少 review 時間。

Opus 偏高階通用。
Sonnet 偏平衡。
Haiku 偏速度與成本。
Mythos 若屬實，可能更偏 agent 與重任務。

這裡還有成本問題。模型越強，通常越貴。對公司來說，不是分數高就一定買單。你要算 token 成本、延遲、錯誤率、人工修正時間。

所以真正的比較，不是誰分數最高。是誰最適合你的工作流。這點很多人會忽略，但實務上超重要。

產業脈絡：大家都在往 agent 走

這波傳聞之所以重要，是因為整個產業都在往 agent 走。現在不是只比聊天順不順。是比誰比較能自己做事。這包含寫 code、查資料、跑工具、改檔案。

LLM 進到這個階段，benchmark 的意義也變了。以前看字面回答。現在看任務完成率。SWE-bench、GPQA、資安測試，這些都比單純對話更接近真實需求。

開發者的使用方式也在變。以前是問答。現在是把模型塞進 CI、IDE、客服系統、研究助手。模型一旦更穩，整條流程都會變順一點。

這也是為什麼 Anthropic 這種公司很在意安全。因為能力越往上，產品就越像基礎設施。不是單一功能，而是整個工作流的一部分。

現在最實際的做法

如果你已經在用 Claude，我會建議你先準備自己的測試集。不要只看外流分數。拿你自己的 repo、你自己的 bug、你自己的 prompt 去跑。

如果 Mythos 真的上線，而且分數接近外流說法，那它很可能在 code review、debug、資安輔助上很有感。尤其是需要多步推理的任務，差距應該會更明顯。

我的預測很直接：如果 Anthropic 把 Mythos 推到市場，開發者會把它當成高風險任務用的模型。不是拿來閒聊。是拿來修真的東西。你現在就該先想，哪些工作值得升級，哪些工作沒必要多花錢。

// 相關文章

Claude Mythos 跟 Opus 4.6 差多少

外流數字到底在講什麼

訂閱 AI 趨勢週報

為什麼 SWE-bench 這麼重要

推理與數學，才是硬仗

資安分數為什麼最敏感

怎麼看這種外流，不要看歪

跟其他模型比，差在哪

產業脈絡：大家都在往 agent 走

現在最實際的做法

MiniMax-M1：開源 1M Token 推理模型

Gemini Omni 影片模型怎麼了

為什麼 Xiaomi 的 MiMo-V2.5-Pro 改變的是 Coding …

OpenAI 即時音訊模型瞄準語音互動

Anthropic推10款金融AI Agent

為什麼 Claude 的「無限」上下文窗口，仍然不會讓 AI 自主運作