[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-claude-mythos-vs-opus-46-capability-jump-zh":3,"tags-claude-mythos-vs-opus-46-capability-jump-zh":32,"related-lang-claude-mythos-vs-opus-46-capability-jump-zh":45,"related-posts-claude-mythos-vs-opus-46-capability-jump-zh":49,"series-model-release-2478aa0c-2f56-447c-8fff-419d35183405":86},{"id":4,"title":5,"content":6,"summary":7,"source":8,"source_url":9,"author":10,"image_url":11,"keywords":12,"language":20,"translated_content":10,"views":21,"is_premium":22,"created_at":23,"updated_at":23,"cover_image":11,"published_at":24,"rewrite_status":25,"rewrite_error":10,"rewritten_from_id":26,"slug":27,"category":28,"related_article_id":29,"status":30,"google_indexed_at":31,"x_posted_at":10,"tweet_text":10,"title_rewritten_at":10,"title_original":10,"key_takeaways":10,"topic_cluster_id":10,"embedding":10,"is_canonical_seed":22},"2478aa0c-2f56-447c-8fff-419d35183405","Claude Mythos 跟 Opus 4.6 差多少","\u003Cp>Anthropic 這波傳聞很有戲。\u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002F\" target=\"_blank\" rel=\"noopener\">Anthropic\u003C\u002Fa> 內部疑似有新模型 \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fclaude\" target=\"_blank\" rel=\"noopener\">Claude Opus 4.6\u003C\u002Fa> 之上。外流截圖還指向一個名字：Mythos。\u003C\u002Fp>\u003Cp>最誇張的數字在 \u003Ca href=\"https:\u002F\u002Fwww.swebench.com\u002F\" target=\"_blank\" rel=\"noopener\">SWE-bench Verified\u003C\u002Fa>。傳聞裡，Mythos 落在 80 分後段。Opus 4.6 則在 70 分前段。差距不是小修小補，已經像換了一顆等級不同的晶片。\u003C\u002Fp>\u003Cp>我覺得這件事值得看。因為現在選 LLM，不只是看會不會聊天。你是要拿它寫程式、做推理、看資安題。這些場景裡，5 分差距都可能很有感，更別說十幾分。\u003C\u002Fp>\u003Ch2>外流數字到底在講什麼\u003C\u002Fh2>\u003Cp>先講白了。這些分數不是官方發布。它們比較像訓練中的截圖。也就是說，\u003Ca href=\"\u002Fnews\u002Fanthropic-accidentally-exposes-claude-agent-code-zh\">Anth\u003C\u002Fa>ropic 可能還在調參，最後上線版本不一定一樣。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775125819094-xhdz.png\" alt=\"Claude Mythos 跟 Opus 4.6 差多少\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>但外流內容的方向很一致。Mythos 被放在 Opus 4.6 上面。強項也很明確。寫程式、解題、資安分析，三個都在榜上。這代表它不是只想拿來聊天。\u003C\u002Fp>\u003Cp>Anthropic 的命名也有脈絡。Haiku、Sonnet、Opus，一直是能力分層。現在多一個 Mythos，通常不是隨便取名。這種命名常常暗示新旗艦，或至少是另一條產品線。\u003C\u002Fp>\u003Cul>\u003Cli>Mythos 目前沒有正式發布。\u003C\u002Fli>\u003Cli>外流內容把它放在 Opus 4.6 之上。\u003C\u002Fli>\u003Cli>最強的項目是 coding、reasoning、security。\u003C\u002Fli>\u003Cli>最後上線分數可能和截圖不同。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>所以別把它當成最終規格表。比較合理的讀法，是把它當成方向指標。Anthropic 可能真的在準備一個更猛的旗艦模型。\u003C\u002Fp>\u003Cp>而且這種外流也常有時間差。截圖可能來自某次 checkpoint。後面如果又做了 safety tuning，分數就會變動。這很正常，別太快下結論。\u003C\u002Fp>\u003Ch2>為什麼 SWE-bench 這麼重要\u003C\u002Fh2>\u003Cp>\u003Ca href=\"https:\u002F\u002Fwww.swebench.com\u002F\" target=\"_blank\" rel=\"noopener\">SWE-bench Verified\u003C\u002Fa> 很像真實世界的考卷。它不是叫模型亂寫一段程式碼。它是要模型去修真實 GitHub issue。這差很多。\u003C\u002Fp>\u003Cp>因為真正難的地方，不是語法。是理解 repo。是看懂上下文。是知道哪個檔案該改，哪個地方不能動。還要避免修 bug 時順手弄出新 bug。\u003C\u002Fp>\u003Cp>Opus 4.6 本來就不弱。公開社群與測試追蹤常把它放在 70 分左右。這已經是很能打的水準。可如果 Mythos 真能衝到 80 分後段，那就不是一點點進步。\u003C\u002Fp>\u003Cul>\u003Cli>Opus 4.6 約在 72% 到 73%。\u003C\u002Fli>\u003Cli>Mythos 傳聞約在 84% 到 87%。\u003C\u002Fli>\u003Cli>差距大約 12 到 15 分。\u003C\u002Fli>\u003Cli>測的是實際 GitHub issue，不是玩具題。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>對開發者來說，這差距很實際。因為 agent 工作流最怕反覆修正。模型如果第一次就能修對更多 bug，人工介入就會少很多。\u003C\u002Fp>\u003Cp>還有測試撰寫也會受影響。好的 coding model 不只是會補程式。它還要會補測試，會找出 failure path，會看 stack trace。這些都很吃上下文理解。\u003C\u002Fp>\u003Ch2>推理與數學，才是硬仗\u003C\u002Fh2>\u003Cp>推理類 benchmark 一直很擠。大家都在同一個分數帶打架。像 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FEleutherAI\u002Flm-evaluation-harness\u002Ftree\u002Fmain\u002Flm_eval\u002Ftasks\u002Fgpqa\" target=\"_blank\" rel=\"noopener\">GPQA Diamond\u003C\u002Fa> 這種題目，差 2 分都可能很有感。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775125833639-qtqm.png\" alt=\"Claude Mythos 跟 Opus 4.6 差多少\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>GPQA Diamond 是研究所等級的科學題。題目涵蓋生物、化學、物理。它專門抓模型的弱點。光靠語料拼湊，通常很難過關。\u003C\u002Fp>\u003Cp>外流內容說 Mythos 在這類題目上更高。這代表它可能比較會處理多步驟推理。也比較不會在最後一步翻車。說真的，這比單純會講漂亮話重要多了。\u003C\u002Fp>\u003Cblockquote>“The models are getting better at reasoning, but they still make mistakes in ways that are hard to predict.” — Dario Amodei, Anthropic CEO，受訪於 \u003Ca href=\"https:\u002F\u002Fwww.wired.com\u002Fstory\u002Fanthropic-dario-amodei-interview-ai-safety\u002F\" target=\"_blank\" rel=\"noopener\">WIRED\u003C\u002Fa>\u003C\u002Fblockquote>\u003Cp>數學也是一樣。像 \u003Ca href=\"https:\u002F\u002Fartofproblemsolving.com\u002Fwiki\u002Findex.php\u002FAIME\" target=\"_blank\" rel=\"noopener\">AIME\u003C\u002Fa> 類型題目，重點不是背答案。重點是連續推導。一步錯，後面全歪。\u003C\u002Fp>\u003Cp>如果 Mythos 在這塊真有提升，那對金融分析、科學研究、長鏈 agent 都很有用。因為這些工作最怕一個小算錯，整份結果一起壞掉。\u003C\u002Fp>\u003Cul>\u003Cli>GPQA Diamond 偏向研究所等級科學推理。\u003C\u002Fli>\u003Cli>Mythos 傳聞進到低到中 80 分。\u003C\u002Fli>\u003Cli>AIME 類題目很吃多步計算。\u003C\u002Fli>\u003Cli>數學錯誤會在 agent 流程裡連鎖放大。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>講白了，如果 Opus 4.6 已經能做事，Mythos 可能是比較少出糗的版本。差別不只在分數。差別在你要不要一直人工盯著它。\u003C\u002Fp>\u003Ch2>資安分數為什麼最敏感\u003C\u002Fh2>\u003Cp>最有意思的是資安。Anthropic 一直很在意危險能力評估。因為模型一旦太會看漏洞，防守方會受益，攻擊方也會受益。\u003C\u002Fp>\u003Cp>這就是雙面刃。模型能幫紅隊、幫 bug bounty、幫 CVE 分析，也可能被拿去做更糟的事。能力越強，控制就越重要。\u003C\u002Fp>\u003Cp>Anthropic 自己的 \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fnews\u002Fanthropics-approach-to-responsible-scaling\" target=\"_blank\" rel=\"noopener\">Responsible Scaling Policy\u003C\u002Fa> 也在講這件事。它會先測危險能力，再決定怎麼放大使用範圍。這不是公關話術，是產品門檻。\u003C\u002Fp>\u003Cul>\u003Cli>資安能力強，對防守方很有幫助。\u003C\u002Fli>\u003Cli>同時也可能被攻擊者拿去用。\u003C\u002Fli>\u003Cli>Anthropic 會先做能力測試。\u003C\u002Fli>\u003Cli>外流內容暗示 Mythos 比 Opus 4.6 更強。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>如果你是防守方，這是好消息。你可能拿到更強的漏洞分析、威脅建模、CVE 解讀工具。可是如果控管不好，風險也會一起上升。\u003C\u002Fp>\u003Cp>所以資安分數才會這麼敏感。它不是單純的技術成績。它直接碰到部署策略、權限設計、甚至產品審核流程。\u003C\u002Fp>\u003Ch2>怎麼看這種外流，不要看歪\u003C\u002Fh2>\u003Cp>外流 benchmark 很容易被看過頭。因為它通常只是一個 checkpoint。模型還沒正式上線。後面可能還有對齊、修正、安全處理。\u003C\u002Fp>\u003Cp>還有一個問題是選擇性曝光。公司通常只會放最好看的部分。外流截圖也是一樣。你看到的可能是強項，不是全貌。\u003C\u002Fp>\u003Cp>再來，真實世界比 benchmark 難很多。你的 repo 可能很亂。文件可能過時。商業邏輯可能一堆例外。這些都不是單一分數能完全反映的。\u003C\u002Fp>\u003Cul>\u003Cli>benchmark 分數會在發布前變動。\u003C\u002Fli>\u003Cli>外流內容可能只挑了強項。\u003C\u002Fli>\u003Cli>真實工作比測試題更混亂。\u003C\u002Fli>\u003Cli>獨立評測比截圖更可靠。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>但外流還是有價值。它至少告訴你一件事。Anthropic 很可能在做一個更適合 agent 工作的模型。這種模型不只會回答，還能真的動手。\u003C\u002Fp>\u003Cp>如果你在做 AI 產品，重點就很直接。它能不能少讓人修。它能不能少出錯。它能不能讓流程更短。這些才是你會不會換模型的理由。\u003C\u002Fp>\u003Ch2>跟其他模型比，差在哪\u003C\u002Fh2>\u003Cp>如果拿 Anthropic 自家產品來看，Opus 一直是高階線。Sonnet 偏實用。Haiku 偏便宜快。Mythos 若真存在，而且分數像外流那樣高，那它會更像旗艦中的旗艦。\u003C\u002Fp>\u003Cp>跟 \u003Ca href=\"https:\u002F\u002Fopenai.com\u002F\" target=\"_blank\" rel=\"noopener\">OpenAI\u003C\u002Fa> 的 GPT 系列比，Anthropic 的強項常在長上下文、文字穩定度、以及 coding workflow。這不是絕對，但很多團隊是這樣感受的。若 Mythos 再把 coding 拉高，差距會更明顯。\u003C\u002Fp>\u003Cp>跟 \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fclaude\" target=\"_blank\" rel=\"noopener\">Claude\u003C\u002Fa> 現有旗艦比，最值得注意的是「需要多少人工盯場」。如果一個模型能少犯幾個 repo 級錯誤，團隊就能省掉不少 review 時間。\u003C\u002Fp>\u003Cul>\u003Cli>Opus 偏高階通用。\u003C\u002Fli>\u003Cli>Sonnet 偏平衡。\u003C\u002Fli>\u003Cli>Haiku 偏速度與成本。\u003C\u002Fli>\u003Cli>Mythos 若屬實，可能更偏 agent 與重任務。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這裡還有成本問題。模型越強，通常越貴。對公司來說，不是分數高就一定買單。你要算 token 成本、延遲、錯誤率、人工修正時間。\u003C\u002Fp>\u003Cp>所以真正的比較，不是誰分數最高。是誰最適合你的工作流。這點很多人會忽略，但實務上超重要。\u003C\u002Fp>\u003Ch2>產業脈絡：大家都在往 agent 走\u003C\u002Fh2>\u003Cp>這波傳聞之所以重要，是因為整個產業都在往 agent 走。現在不是只比聊天順不順。是比誰比較能自己做事。這包含寫 code、查資料、跑工具、改檔案。\u003C\u002Fp>\u003Cp>LLM 進到這個階段，benchmark 的意義也變了。以前看字面回答。現在看任務完成率。SWE-bench、GPQA、資安測試，這些都比單純對話更接近真實需求。\u003C\u002Fp>\u003Cp>開發者的使用方式也在變。以前是問答。現在是把模型塞進 CI、IDE、客服系統、研究助手。模型一旦更穩，整條流程都會變順一點。\u003C\u002Fp>\u003Cp>這也是為什麼 Anthropic 這種公司很在意安全。因為能力越往上，產品就越像基礎設施。不是單一功能，而是整個工作流的一部分。\u003C\u002Fp>\u003Ch2>現在最實際的做法\u003C\u002Fh2>\u003Cp>如果你已經在用 \u003Ca href=\"\u002Fnews\u002Fopenclaw-testing-china-ai-ambitions-zh\">Cla\u003C\u002Fa>ude，我會建議你先準備自己的測試集。不要只看外流分數。拿你自己的 repo、你自己的 bug、你自己的 pro\u003Ca href=\"\u002Fnews\u002Ftempo-launches-ai-payment-protocol-zh\">mp\u003C\u002Fa>t 去跑。\u003C\u002Fp>\u003Cp>如果 Mythos 真的上線，而且分數接近外流說法，那它很可能在 code review、debug、資安輔助上很有感。尤其是需要多步推理的任務，差距應該會更明顯。\u003C\u002Fp>\u003Cp>我的預測很直接：如果 Anthropic 把 Mythos 推到市場，開發者會把它當成高風險任務用的模型。不是拿來閒聊。是拿來修真的東西。你現在就該先想，哪些工作值得升級，哪些工作沒必要多花錢。\u003C\u002Fp>\u003C\u002Fp>","Anthropic 傳出 Mythos 測試分數高於 Claude Opus 4.6。若 SWE-bench、推理與資安數字屬實，開發者會感受到明顯差距。","www.mindstudio.ai","https:\u002F\u002Fwww.mindstudio.ai\u002Fblog\u002Fclaude-mythos-vs-opus-4-6-capability-comparison",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775125819094-xhdz.png",[13,14,15,16,17,18,19],"Claude Mythos","Claude Opus 4.6","Anthropic","SWE-bench Verified","LLM benchmark","AI coding","資安模型","zh",2,false,"2026-04-02T09:09:38.488815+00:00","2026-04-02T09:09:38.46+00:00","done","838986f3-8e30-4c03-a484-6ec7a9d32897","claude-mythos-vs-opus-46-capability-jump-zh","model-release","8958b20f-16e9-4838-b10e-d75865a3a3e5","published","2026-04-08T09:00:53.026+00:00",[33,34,36,39,41,43],{"name":19,"slug":19},{"name":15,"slug":35},"anthropic",{"name":37,"slug":38},"SWE-Bench Verified","swe-bench-verified",{"name":18,"slug":40},"ai-coding",{"name":13,"slug":42},"claude-mythos",{"name":17,"slug":44},"llm-benchmark",{"id":29,"slug":46,"title":47,"language":48},"claude-mythos-vs-opus-46-capability-jump-en","Claude Mythos vs Opus 4.6: How Big Is the Jump?","en",[50,56,62,68,74,80],{"id":51,"slug":52,"title":53,"cover_image":54,"image_url":54,"created_at":55,"category":28},"bd8cfc0e-66db-4546-9b9e-fa328f7538d6","weishenme-google-yincang-de-gemini-live-moxing-bi-yanshi-gen-zh","為什麼 Google 隱藏的 Gemini Live 模型，比演示更重要","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778869245574-c25w.png","2026-05-15T18:20:23.111559+00:00",{"id":57,"slug":58,"title":59,"cover_image":60,"image_url":60,"created_at":61,"category":28},"5b5fa24f-5259-4e9e-8270-b08b6805f281","minimax-m1-open-hybrid-attention-reasoning-model-zh","MiniMax-M1：開源 1M Token 推理模型","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778797859209-ea1g.png","2026-05-14T22:30:38.636592+00:00",{"id":63,"slug":64,"title":65,"cover_image":66,"image_url":66,"created_at":67,"category":28},"b1da56ac-8019-4c6b-a8dc-22e6e22b1cb5","gemini-omni-video-review-text-rendering-zh","Gemini Omni 影片模型怎麼了","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778779280109-lrrk.png","2026-05-14T17:20:42.608312+00:00",{"id":69,"slug":70,"title":71,"cover_image":72,"image_url":72,"created_at":73,"category":28},"d63e9d93-e613-4bbf-8135-9599fde11d08","why-xiaomi-mimo-v25-pro-changes-coding-agents-zh","為什麼 Xiaomi 的 MiMo-V2.5-Pro 改變的是 Coding …","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778689858139-v38e.png","2026-05-13T16:30:27.893951+00:00",{"id":75,"slug":76,"title":77,"cover_image":78,"image_url":78,"created_at":79,"category":28},"8f0c9185-52f9-46f2-82c6-5baec126ba2e","openai-realtime-audio-models-live-voice-zh","OpenAI 即時音訊模型瞄準語音互動","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778451657895-2iu7.png","2026-05-10T22:20:32.443798+00:00",{"id":81,"slug":82,"title":83,"cover_image":84,"image_url":84,"created_at":85,"category":28},"52106dc2-4eba-4ca0-8318-fa646064de97","anthropic-10-finance-ai-agents-zh","Anthropic推10款金融AI Agent","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778389843399-vclb.png","2026-05-10T05:10:22.778762+00:00",[87,92,97,102,107,112,117,122,127,132],{"id":88,"slug":89,"title":90,"created_at":91},"58b64033-7eb6-49b9-9aab-01cf8ae1b2f2","nvidia-rubin-six-chips-one-ai-supercomputer-zh","NVIDIA Rubin 把六顆晶片塞進 AI 機櫃","2026-03-26T07:18:45.861277+00:00",{"id":93,"slug":94,"title":95,"created_at":96},"0dcc2c61-c2a6-480d-adb8-dd225fc68914","march-2026-ai-model-news-what-mattered-zh","2026 年 3 月 AI 模型新聞重點","2026-03-26T07:32:08.386348+00:00",{"id":98,"slug":99,"title":100,"created_at":101},"214ab08b-5ce5-4b5c-8b72-47619d8675dd","why-small-models-are-winning-on-device-ai-zh","小模型為何吃下裝置端 AI","2026-03-26T07:36:30.488966+00:00",{"id":103,"slug":104,"title":105,"created_at":106},"785624b2-0355-4b82-adc3-de5e45eecd88","midjourney-v8-faster-images-higher-costs-zh","Midjourney V8 變快了，也變貴了","2026-03-26T07:52:03.562971+00:00",{"id":108,"slug":109,"title":110,"created_at":111},"cda76b92-d209-4134-86c1-a60f5bc7b128","xiaomi-mimo-trio-agents-robots-voice-zh","小米 MiMo 三模型瞄準代理、機器人與語音","2026-03-28T03:05:08.779489+00:00",{"id":113,"slug":114,"title":115,"created_at":116},"9e1044b4-946d-47fe-9e2a-c2ee032e1164","xiaomi-mimo-v2-pro-1t-moe-agents-zh","小米 MiMo-V2-Pro 登場：1T MoE 模型","2026-03-28T03:06:19.002353+00:00",{"id":118,"slug":119,"title":120,"created_at":121},"d68e59a2-55eb-4a8f-95d6-edc8fcbff581","cursor-composer-2-started-from-kimi-zh","Cursor Composer 2 其實從 Kimi 起步","2026-03-28T03:11:58.893796+00:00",{"id":123,"slug":124,"title":125,"created_at":126},"c4b6186f-bd84-4598-997e-c6e31d543c0d","cursor-composer-2-agentic-coding-model-zh","Cursor Composer 2 走向代理式寫碼","2026-03-28T03:13:06.422716+00:00",{"id":128,"slug":129,"title":130,"created_at":131},"45812c46-99fc-4b1f-aae1-56f64f5c9024","openai-shuts-down-sora-video-app-api-zh","OpenAI 關閉 Sora App 與 API","2026-03-29T04:47:48.974108+00:00",{"id":133,"slug":134,"title":135,"created_at":136},"e112e76f-ec3b-408f-810e-e93ae21a888a","apple-siri-gemini-distilled-models-zh","Apple Siri 牽手 Gemini 的真相","2026-03-29T04:52:57.886544+00:00"]