Claude 5双模型上线,代码与科学任务全面领跑
4个看点读懂Claude 5:Fable与Mythos双模型上线,编程、视觉、科学任务都给出强势成绩。

Claude 5以Fable和Mythos双模型上线,主攻编程、视觉和科学任务。
Anthropic这次一次放出两个Claude 5版本,文章里给出的关键数据很直接:SWE-Bench Pro上Fable 5拿到80.3%,把上一代和多家竞品都甩开了。
| Item | 定位 | 关键表现 | 定价/可用性 |
|---|---|---|---|
| Claude Fable 5 | 公开版 | SWE-Bench Pro 80.3% | 输入$10/百万token,输出$50/百万token |
| Claude Mythos 5 | 完整版 | 与Fable 5分数接近,差距多在1到3个百分点 | 无安全分类器限制 |
| Claude Opus 4.8 | 上一代对照 | SWE-Bench Pro 69.2% | Fast Mode定价参考 |
| GPT-5.5 | 竞品对照 | SWE-Bench Pro 58.6% | 文中对比为Fable 5约六分之一价格 |
1. Claude Fable 5
Get the latest AI news in your inbox
Weekly picks of model releases, tools, and deep dives — no spam, unsubscribe anytime.
No spam. Unsubscribe at any time.
Fable 5是这次面向大众开放的版本,也是文章里最适合普通开发者先看的模型。它的卖点很明确:在软件工程、知识工作、视觉和长上下文任务上都冲到前列,而且很多测试里不只是赢一点,而是赢得很明显。

最能说明问题的是编程表现。SWE-Bench Pro上它拿到80.3%,比Opus 4.8高11.1个百分点,比GPT-5.5高21.7个百分点。文章还提到它在中等算力档位就能跑到顶,不需要把推理开满。
- 适合:日常编码、Agent工作流、代码迁移
- 价格:输入$10/百万token,输出$50/百万token
- 可用性:Pro、Max、Team用户可在6月22日前免费体验
2. Claude Mythos 5
Mythos 5是这次更“放开”的版本,文章把它描述为没有安全分类器限制的完整版。它和Fable 5的分数几乎一致,通常只差1到3个百分点,说明两者底座基本相同,差别主要在安全策略。
如果你关心的是模型原始能力,而不是产品层的安全约束,Mythos 5更像是这次发布的“本体”。但文章也明确写了,它被Anthropic长期压着没放出来,原因就是任务边界更宽,尤其在网络安全、生物化学和蒸馏相关请求上更敏感。
- 特点:无安全分类器
- 定位:更接近内部原始能力版本
- 适合:研究者、红队测试、能力边界观察
3. SWE-Bench Pro 编程能力
如果只看一个榜单,SWE-Bench Pro最能代表Claude 5这次升级的含金量。它衡量的是现实世界里的Agent编程能力,不是简单补全,而是能否在复杂代码环境里真正把任务做完。

文章给出的对比很醒目:Fable 5是80.3%,Opus 4.8是69.2%,GPT-5.5是58.6%,Gemini 3.1 Pro是54.2%。这意味着Claude 5不是“略优”,而是在真实工程任务上把差距拉开了一个档位。
Fable 5: 80.3%
Opus 4.8: 69.2%
GPT-5.5: 58.6%
Gemini 3.1 Pro: 54.2%4. 视觉与长任务执行
Claude 5的另一个重点,是它能靠视觉输入完成更长的任务链。文章举了两个很典型的例子:只靠截图通关《宝可梦火红版》,以及在浏览器里搭出一个3D CAD编辑器,再在里面修改模型。
这类能力的意义不只是“看图更准”,而是模型能把视觉信息转成连续行动。对开发者来说,这会影响图表读取、网页重建、界面操作、文档抽取这些场景。对普通用户来说,AI不再只是回答问题,而是能根据屏幕内容继续做事。
- 截图输入即可推进游戏和应用操作
- 可从科学图表中提取数值
- 可根据少量界面信息重建Web应用
5. 科学研究与自动化实验
文章最夸张的部分在科学任务。Mythos 5被描述为能自动做蛋白质设计、基因组学分析,甚至在一周多时间里自己搜集138个物种、几百万个细胞的数据,训练出一个机器学习模型。
这里真正值得注意的不是“分数高”,而是工作方式变了。它开始像一个能持续运行的研究助理,自己找数据、自己试错、自己修正。对于生命科学、材料、物理这类高门槛领域,这种自动化会比单点问答更有价值。
- 蛋白质设计:14个疾病靶点中拿到9个强候选
- 基因组学:体量比近期Science同类研究小100倍
- 物理任务:36小时跑到GPT-5.5四天才到的位置
如何决定
如果你是开发者、产品经理或普通重度用户,先看Fable 5就够了。它有明确价格、公开可用,而且在编程和多模态任务上已经足够强。你想要的是稳定可用的高性能模型,Fable 5更合适。
如果你做研究、红队测试,或者想看模型在更少限制下的真实边界,Mythos 5更值得关注。它更像内部能力样本,也更能反映Anthropic这次到底把模型推到了什么位置。
// Related Articles
- [IND]
KuCoin’s AI stack turns blockchain into AI plumbing
- [IND]
Ping Identity is right: AI agents need runtime identity, not just log…
- [IND]
Cloudflare’s design partner program is a smart security wedge
- [IND]
Mistral’s €20B valuation hinges on compute
- [IND]
$2 billion Nvidia-Coherent AI plant backs Huang's warning
- [IND]
Huang’s Marvell call turns AI hype into a thesis