Anthropic终于把他们那个,强到不敢公开、强到怕引起恐慌的新模型,给放出来了。


众所周知,前俩月,Claude 给咱们上演了一波好戏。

先是宣布,自己整出了个牛逼到爆炸的新模型Claude Mythos。

不但各门类的跑分爆杀老模型,而且还能从各种系统里找出一堆存在了十几年,甚至二十几年都没人发现的 bug。


这模型要是拿出来给大家用,那不是直接拳打 GPT,脚踢 Gemini 了么?

但 Claude 怕这 AI 被坏人利用,拿去破坏网络安全。所以,搬出了一个 “过于先进不便展示” 的理由,直接把好东西给藏起来了。


当时大家对这也是各有说法:

有夸 Anthropic 有担当,还是那么在意安全的。。。

也有人说这是和隔壁 OpenAI 学坏了,也玩核爆瘫坐这一套。。。模型纯营销罢了,纯纯拿耍猴超估值的。

总之,在吹捧和质疑声中,Anthropic 缝缝补补修修改改一直到了今天凌晨,才正式把新模型端出来了。

不过不是 Mythos ,这次是 Mythos 同级别的大模型 Claude Fable 5

这俩模型有啥区别?

按照 Claude 的官方说法是区别不大,可以看到在跑分这块,Mythos 5 和 Fable 5 直接共用了一块表格。

这俩模型的能力,全面碾压同行了,也基本全方面领先于俩月前发布的 Mythos 预览版。


唯一的区别,可能就是在安全性上了。

Anthropic 一直担心有人拿 Mythos 搞网络破坏,于是就给 Fable 5 做了点安全限制。


一旦发现你拿它搞事,就会自动切换成能力更弱的 Opus 模型。

约等于是让你开法拉利,但你要是敢踩一脚油门超速,后台自动给你换成哈啰电单车。


不过即使戴上了口球,Fable 5 的能力还是要比之前那个把自己给认成千问的 Opus 4.8 要强了太多。

尤其体现在视觉能力和长线记忆这两点上。

就比如它可以直接通过屏幕识别的方式,花费了整整五十个小时,通关了《宝可梦 火红》的游戏全流程。

不敢想象这背后花了多少 Token。


甚至让它去玩杀戮尖塔,见到 Boss 的概率也要比 Opus 4.8 高出三倍。


我们也上手帮大家简单的测了一下。

先试了试经典的距离洗车店 150 米洗车问题,结果发现根本拦不住它。


让它来审阅我之前用 GPT5.5 做的项目,看起来也是毫无压力。


于是我们再给它上点难度,让它生成一群旋转小球来看看咸淡,

咱们拿同样一段提示词出来,让 Fable 5 和 GPT 5.5 一起跑了下。

编写一个 Python 程序,展示一个球在旋转的六边形内弹跳,六边形中只有五边是墙壁,其中一边是可通过的,小球碰到墙壁的时候自动分裂成两个,或者是穿过可通过的边界掉落到地图外面,球的运动轨迹应受到重力的影响,并且必须真实地反弹到旋转的墙壁上。

在界面的左下角显示总共生成的小球数量,当所有小球都掉落到界面外面的时候,游戏结束,玩家可以重新开始游戏。

两边都能帮我一次性的解决问题。

相比之下,CodeX 做出来的界面更加花里胡哨一些,不但把六边形的边框弄厚了,还给那些随机弹跳的小球加了拖尾。

但是 CodeX 自作聪明的给小球生成的总数加了上限,再一次游戏中,累计生成了 220 个小球后,就会让小球不再分裂。


这就导致这些小球很快都会掉光,游戏直接 GameOver。

而 Claude Fable 5 这边做的则是稳妥的多了,同样是为了防止程序卡死,Fable 5 这边限制的是屏幕里“当前小球” 的数量。

当小球掉下去后就会自动重新生成,让游戏继续进行。


虽然画风看起来不如 CodeX 炫酷,但至少活做起来没出错。

因为时间有限,其他更大更复杂的案例,得等差评君明天再试试了。(问了这么几个问题,5 小时额度就给用完了)


不过整体体验下来,差评君发现对于 Fable 来说,最大的问题可能还是出在它的成本上。

实际上,Fable 5 的定价并没有一开始大家想象的那么离谱,每输出百万 Token 定价 50 美元,相当于原来的旗舰模型 Opus 的两倍。


但是仔细看了一眼这次 Fable 5 的付费规则就会发现,这次 Anthropic 又来给大家玩文字游戏了。。。

当咱在 APP 上用 Fable 5 的时候,上面写了一行小字:Including until 6 月 22 日。


我翻了一下他们的官方博客,Anthropic 是这么解释的。

在 6 月 22 日之前,你可以通过你的 Claude 订阅来用 Fable 5。

不需要额外付钱,直接消耗订阅额度就行。

而到了 6 月 22 日之后,不管你是每个月 20 刀的 Pro 用户,还是每个月 200 刀的 Max 用户,都别想直接用 Fable 5 了。。。


直接转变成按量付费的模式了,用多少充多少,没有一点优惠,和买API的价格一样。

等到哪天服务器压力没那么大了,才会再给订阅用户用上不额外花钱的 Fable 5。


这个时间什么时候会到呢?不确定,可能取决于竞争对手啥时候能给它们足够大的压力了。

Anthropic 之所以收费敢这么嚣张,或许是新模型确实给了他们很大的自信。 我也翻了翻他们长达 300 多页的模型 System Card。

像是什么两队打 PK ,普通生物学博士 + Mythos 模型 VS 世界顶级生物专家,结果普通博士+AI这组轻松碾压,这种都是基本操作了。

还有 Mythos 知道自己是个模型在被大家狂测,而且它自己却藏着不说。。。

但其中最让我细思恐极的是,Anthropic 发现,Mythos 5 差一点跨过了生化武器的红线。

他们整了一个生化安全等级,用来评估 AI 在生化安全方面,威胁到底有多大的。

之前的模型都是 CB-1 级别的,也就是说能协助人类,造已知的生化武器。

CB-2 级别的话,那就是能帮助人类,发明全新的生化武器。 他们觉得,这次的 Mythos 5 虽然依旧是 CB-1 级别的,但这结论也没之前那么笃定了。

甚至,他们觉得在少数领域,AI 替代世界级的专家,已经开始变成可能。

如果一切属实,Anthropic 这波给Mythos戴嘴套,推出 Fabel 模型,还是干了一波人事的。


最后说了这么多,我觉得安全,依旧是那个逃不开的话题。

毕竟安全是 Anthropic 的金字招牌,也是 Mythos 出圈备受关注的重要原因,更和咱们普通人也息息相关。

但安全呢,可能从来都不单纯只是一个技术问题,它还和权限管理、甚至某个人的手抖不抖相关。

就像 Mythos 刚出来没多久,一个专门研究未发布 AI 产品的 Discord 社区,先偷偷玩上了。后来调查发现,问题绕了一大圈,最后还是落在合作方权限和访问管理上。


随后网上又开始出现各种 Mythos API 转卖的传闻,Anthropic 原本担心的是模型能力扩散,结果先扩散开的是访问权限。

包括 Claude Code 被开源事件也是一样。一次员工的手抖,让本来不该公开的代码,被一起传上了网。

看完这些事,你会发现安全这个东西,有时候特别不讲道理。

所以也希望,Anthropic 的模型真有他们口中的那么强,真有那么在意安全吧。 对了,Anthropic 已经出牌了,下个回合,是不是该到 OpenAI 和 Google了?

撰文:早起 & 江江

编辑:江江 & 面线

美编:早起

图片、资料来源

Anthropic’s Mythos Model Is Being Accessed by Unauthorized Users —— Bloomberg

Anthropic 官网

Fable 5 白皮书