[MODEL] 8 分鐘閱讀OraCore 編輯部

Claude Mythos 跟 Opus 4.6 差多少

Anthropic 傳出 Mythos 測試分數高於 Claude Opus 4.6。若 SWE-bench、推理與資安數字屬實,開發者會感受到明顯差距。

分享 LinkedIn
Claude Mythos 跟 Opus 4.6 差多少

Anthropic 這波傳聞很有戲。Anthropic 內部疑似有新模型 Claude Opus 4.6 之上。外流截圖還指向一個名字:Mythos。

最誇張的數字在 SWE-bench Verified。傳聞裡,Mythos 落在 80 分後段。Opus 4.6 則在 70 分前段。差距不是小修小補,已經像換了一顆等級不同的晶片。

我覺得這件事值得看。因為現在選 LLM,不只是看會不會聊天。你是要拿它寫程式、做推理、看資安題。這些場景裡,5 分差距都可能很有感,更別說十幾分。

外流數字到底在講什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

先講白了。這些分數不是官方發布。它們比較像訓練中的截圖。也就是說,Anthropic 可能還在調參,最後上線版本不一定一樣。

Claude Mythos 跟 Opus 4.6 差多少

但外流內容的方向很一致。Mythos 被放在 Opus 4.6 上面。強項也很明確。寫程式、解題、資安分析,三個都在榜上。這代表它不是只想拿來聊天。

Anthropic 的命名也有脈絡。Haiku、Sonnet、Opus,一直是能力分層。現在多一個 Mythos,通常不是隨便取名。這種命名常常暗示新旗艦,或至少是另一條產品線。

  • Mythos 目前沒有正式發布。
  • 外流內容把它放在 Opus 4.6 之上。
  • 最強的項目是 coding、reasoning、security。
  • 最後上線分數可能和截圖不同。

所以別把它當成最終規格表。比較合理的讀法,是把它當成方向指標。Anthropic 可能真的在準備一個更猛的旗艦模型。

而且這種外流也常有時間差。截圖可能來自某次 checkpoint。後面如果又做了 safety tuning,分數就會變動。這很正常,別太快下結論。

為什麼 SWE-bench 這麼重要

SWE-bench Verified 很像真實世界的考卷。它不是叫模型亂寫一段程式碼。它是要模型去修真實 GitHub issue。這差很多。

因為真正難的地方,不是語法。是理解 repo。是看懂上下文。是知道哪個檔案該改,哪個地方不能動。還要避免修 bug 時順手弄出新 bug。

Opus 4.6 本來就不弱。公開社群與測試追蹤常把它放在 70 分左右。這已經是很能打的水準。可如果 Mythos 真能衝到 80 分後段,那就不是一點點進步。

  • Opus 4.6 約在 72% 到 73%。
  • Mythos 傳聞約在 84% 到 87%。
  • 差距大約 12 到 15 分。
  • 測的是實際 GitHub issue,不是玩具題。

對開發者來說,這差距很實際。因為 agent 工作流最怕反覆修正。模型如果第一次就能修對更多 bug,人工介入就會少很多。

還有測試撰寫也會受影響。好的 coding model 不只是會補程式。它還要會補測試,會找出 failure path,會看 stack trace。這些都很吃上下文理解。

推理與數學,才是硬仗

推理類 benchmark 一直很擠。大家都在同一個分數帶打架。像 GPQA Diamond 這種題目,差 2 分都可能很有感。

Claude Mythos 跟 Opus 4.6 差多少

GPQA Diamond 是研究所等級的科學題。題目涵蓋生物、化學、物理。它專門抓模型的弱點。光靠語料拼湊,通常很難過關。

外流內容說 Mythos 在這類題目上更高。這代表它可能比較會處理多步驟推理。也比較不會在最後一步翻車。說真的,這比單純會講漂亮話重要多了。

“The models are getting better at reasoning, but they still make mistakes in ways that are hard to predict.” — Dario Amodei, Anthropic CEO,受訪於 WIRED

數學也是一樣。像 AIME 類型題目,重點不是背答案。重點是連續推導。一步錯,後面全歪。

如果 Mythos 在這塊真有提升,那對金融分析、科學研究、長鏈 agent 都很有用。因為這些工作最怕一個小算錯,整份結果一起壞掉。

  • GPQA Diamond 偏向研究所等級科學推理。
  • Mythos 傳聞進到低到中 80 分。
  • AIME 類題目很吃多步計算。
  • 數學錯誤會在 agent 流程裡連鎖放大。

講白了,如果 Opus 4.6 已經能做事,Mythos 可能是比較少出糗的版本。差別不只在分數。差別在你要不要一直人工盯著它。

資安分數為什麼最敏感

最有意思的是資安。Anthropic 一直很在意危險能力評估。因為模型一旦太會看漏洞,防守方會受益,攻擊方也會受益。

這就是雙面刃。模型能幫紅隊、幫 bug bounty、幫 CVE 分析,也可能被拿去做更糟的事。能力越強,控制就越重要。

Anthropic 自己的 Responsible Scaling Policy 也在講這件事。它會先測危險能力,再決定怎麼放大使用範圍。這不是公關話術,是產品門檻。

  • 資安能力強,對防守方很有幫助。
  • 同時也可能被攻擊者拿去用。
  • Anthropic 會先做能力測試。
  • 外流內容暗示 Mythos 比 Opus 4.6 更強。

如果你是防守方,這是好消息。你可能拿到更強的漏洞分析、威脅建模、CVE 解讀工具。可是如果控管不好,風險也會一起上升。

所以資安分數才會這麼敏感。它不是單純的技術成績。它直接碰到部署策略、權限設計、甚至產品審核流程。

怎麼看這種外流,不要看歪

外流 benchmark 很容易被看過頭。因為它通常只是一個 checkpoint。模型還沒正式上線。後面可能還有對齊、修正、安全處理。

還有一個問題是選擇性曝光。公司通常只會放最好看的部分。外流截圖也是一樣。你看到的可能是強項,不是全貌。

再來,真實世界比 benchmark 難很多。你的 repo 可能很亂。文件可能過時。商業邏輯可能一堆例外。這些都不是單一分數能完全反映的。

  • benchmark 分數會在發布前變動。
  • 外流內容可能只挑了強項。
  • 真實工作比測試題更混亂。
  • 獨立評測比截圖更可靠。

但外流還是有價值。它至少告訴你一件事。Anthropic 很可能在做一個更適合 agent 工作的模型。這種模型不只會回答,還能真的動手。

如果你在做 AI 產品,重點就很直接。它能不能少讓人修。它能不能少出錯。它能不能讓流程更短。這些才是你會不會換模型的理由。

跟其他模型比,差在哪

如果拿 Anthropic 自家產品來看,Opus 一直是高階線。Sonnet 偏實用。Haiku 偏便宜快。Mythos 若真存在,而且分數像外流那樣高,那它會更像旗艦中的旗艦。

OpenAI 的 GPT 系列比,Anthropic 的強項常在長上下文、文字穩定度、以及 coding workflow。這不是絕對,但很多團隊是這樣感受的。若 Mythos 再把 coding 拉高,差距會更明顯。

Claude 現有旗艦比,最值得注意的是「需要多少人工盯場」。如果一個模型能少犯幾個 repo 級錯誤,團隊就能省掉不少 review 時間。

  • Opus 偏高階通用。
  • Sonnet 偏平衡。
  • Haiku 偏速度與成本。
  • Mythos 若屬實,可能更偏 agent 與重任務。

這裡還有成本問題。模型越強,通常越貴。對公司來說,不是分數高就一定買單。你要算 token 成本、延遲、錯誤率、人工修正時間。

所以真正的比較,不是誰分數最高。是誰最適合你的工作流。這點很多人會忽略,但實務上超重要。

產業脈絡:大家都在往 agent 走

這波傳聞之所以重要,是因為整個產業都在往 agent 走。現在不是只比聊天順不順。是比誰比較能自己做事。這包含寫 code、查資料、跑工具、改檔案。

LLM 進到這個階段,benchmark 的意義也變了。以前看字面回答。現在看任務完成率。SWE-bench、GPQA、資安測試,這些都比單純對話更接近真實需求。

開發者的使用方式也在變。以前是問答。現在是把模型塞進 CI、IDE、客服系統、研究助手。模型一旦更穩,整條流程都會變順一點。

這也是為什麼 Anthropic 這種公司很在意安全。因為能力越往上,產品就越像基礎設施。不是單一功能,而是整個工作流的一部分。

現在最實際的做法

如果你已經在用 Claude,我會建議你先準備自己的測試集。不要只看外流分數。拿你自己的 repo、你自己的 bug、你自己的 prompt 去跑。

如果 Mythos 真的上線,而且分數接近外流說法,那它很可能在 code review、debug、資安輔助上很有感。尤其是需要多步推理的任務,差距應該會更明顯。

我的預測很直接:如果 Anthropic 把 Mythos 推到市場,開發者會把它當成高風險任務用的模型。不是拿來閒聊。是拿來修真的東西。你現在就該先想,哪些工作值得升級,哪些工作沒必要多花錢。