文/王新喜
梁文锋的历史性的一刻,今天DeepSeek放出了两个新产品,一个叫V4 Flash,一个叫V4 Pro。它们都开源了,号称是目前最强的开源AI。这两个产品出来之后,意味着DeepSeek已无法阻挡,黄仁勋发飙被理解了。
距离去年1月的大版本更新已经过去了15个月,DeepSeek这次在海内外全网发布大更新后,热度飙升。
为什么飙升,因为它的推理性能全面超越所有已知开源模型,成绩直接比肩世界顶级闭源模型(GPT/Gemini)。知识储备与Google的Gemini Pro只差一丢丢,属于开源模型天花板。
其次是,其Agent能力史上最强。内部员工已用它来AI编程,体验直接超过了Claude Sonnet 4.5,交付质量已经接近Opus 4.6的非思考模式。DeepSeek V4和GPT-5.5谁更强?哪些领域哪个更领先?从目前公开信息和基准来看,两者各有侧重,没有绝对碾压。
而DeepSeek的1.6万亿参数,只用了同业大概四分之一的GPU,以及10%的存储。
海外社媒有不少网友也第一时间关注了DeepSeek的更新,在DeepSeek 评论区,大家纷纷表示,“鲸鱼回来了”“便宜又强大”“这太震撼了,如果那些效率突破成立的话”。
值得一提的是,业界一直在关注DeepSeek-V4是否会使用国产算力,从推文来看确实是与华为昇腾合作。DeepSeek V4 在芯片选择上做出了一个非常具有战略意义的决定:它在推理部署方面主要使用了华为的昇腾系列国产芯片,并全面转向华为的 CANN 架构。
所以说这一次V4的发布可以看作是中国AI的一场生死战,V4的发布,让所有人都明白了,为何前段时间黄仁勋公开罕见发飙,怒喷美国对中国的芯片封锁。
DeepSeek已无法阻挡,终于明白黄仁勋为何发飙了
就在近期一档Dwarkesh Patel的播客专访中,英伟达首席执行官黄仁勋明确表示,若中国AI初创公司DeepSeek将其新模型优化适配至华为芯片,对美国而言将是“一个可怕的结果”。
这句话出自全球最重要的AI芯片供应商之口,分量不轻,背后的信号很微妙。因为就在这场访谈的前一周,多家媒体已经爆料DeepSeek下一代旗舰模型V4全面迁移至华为昇腾950PR,底层代码从CUDA重写为华为自研的CANN框架。也就是说,黄仁勋之所以会有这样的结论,其实已经知道DeepSeek V4的发布,这件事已经在路上了。
DeepSeek是开源的,理论上可以跑在任何加速器上,即便它在华为昇腾上首发,在英伟达GPU上同样能跑,区别到底在哪里?黄仁勋的回答泄露了真正让他介意的东西——
“假设它是针对华为优化的,针对他们的架构化了,那就会让我们处于劣势”。
为什么?因为这意味着Deepseek将对英伟达GPU硬件与CUDA软件,都将产生冲击力。
首先,从硬件层面来看,DeepSeek在2025年初横空出世,以极低的训练成本实现了接近顶尖水准的模型性能,震动全球。
它证明了堆算力这条路并不是唯一解,足够聪明的算法工程师依然能训练出令人生畏的模型。如今DeepSeek V4再次证明了这一点。
华为计算发文表示,昇腾一直同步支持DeepSeek系列模型,本次通过双方芯模技术紧密协同,实现昇腾超节点全系列产品支持DeepSeek V4系列模型。
昇腾950通过融合kernel和多流并行技术降低Attention计算和访存开销,大幅提升推理性能,结合多种量化算法,实现了高吞吐、低时延的DeepSeek V4模型推理部署。
从价格看,DeepSeek 提到,V4-Pro每百万tokens输入是1元,输出是12元,V4-Flash每百万tokens输入是0.2元,输出是2元。“太普惠了,还是那个DeepSeek。”有网友感慨。
DeepSeek在小字中表示,受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调。
DeepSeek再一次示范了:用更少的算力,做出不差的模型,并拥有更具性价比的价格优势,如果这套方法论能在华为芯片平台上进一步打磨成熟,美国通过硬件封锁建立的护城河,就会比想象中浅得多。
此外是,随着DeepSeek那套极致压缩算力需求的技术,与华为不断成熟的本土芯片生态深度绑定,中国的AI产业链就有可能在不依赖任何美国硬件的前提下,实现自给自足的高速发展。
目前这个势头正在起来,DeepSeek V4带动了从芯片、服务器到云服务的全链条需求,中国AI周调用量已达美国的4倍多。
这就对英伟达的真正护城河CUDA产生了冲击效应。
英伟达真正的护城河从来不是GPU本身的算力,而是CUDA作为“事实标准”的软件生态位。过去近二十年里,几乎所有主流AI框架、算子库、开源模型的首发优化,都把CUDA作为默认起点。英伟达的CUDA就跟当年的Windows一样,软件、工具、教程、开发者全围着它转。
你要是一直用CUDA,越用依赖越深。但对于中国市场的大模型来说,过度依赖CUDA,等于把自己的命根子交给英伟达——它一涨价、一断供,你就直接傻眼。再加上美国一制裁,高端卡不卖给你,你就算会CUDA也没用,也就是说,DeepSeek如果没有摆脱对CUDA的依赖,那么它会发展到什么高度,命运始终是掌握在别人手里的。
所以DeepSeek要掌握自己的生存权与主导权,必须摆脱对CUDA的依赖,如今,DeepSeek事实上已经成为全球第一个不依赖英伟达的前沿AI大模型。
英伟达的CUDA护城河开始漏水
过去十几年,全球AI都被CUDA锁死,DeepSeek把这堵墙撞开了一个大口子,DeepSeek在昇腾上发布,验证了至少存在一条真实、可运行、被顶级模型验证过的非CUDA路径,并且这条路径上会沉淀下一批熟练的工程师、一套可复制的优化经验、以及第一批用户信心。
这才是黄仁勋那句“灾难性”的真实分量:不怕某一款芯片被替换,但怕“开源模型必须以CUDA为首要优化目标”这条默认规则出现反例,而中国已经走出了不依赖美国的另一条路,只要DeepSeek彻底摆脱对英伟达的依赖,那么DeepSeek未来走到什么高度,是美国无法阻挡的。
黄仁勋的警告抛出了一个美国一个非常纠结的战略困境:继续收紧出口管制,短期内能延缓中国获取顶尖硬件,但长期可能加速中国本土替代生态的成熟,放松管制,则意味着直接为潜在竞争对手输送核心工具。
但是DeepSeek已经不纠结了,已经下决心把这条路跑通。这对国产芯片公司+被卡算力的国内互联网巨头,具有历史性意义,国产芯片+国产AI生态适用成熟后,AI服务的成本大幅降低,企业部署成本较海外方案降低70%以上,为产业链上下游硬件、软件、工具、开发者创造海量就业机会,并且将主导权掌握在自己手里。
DeepSeek官方公众号最后一段说:“不诱于誉,不恐于诽,率道而行,端然正己。我们将始终秉持长期主义的原则理念,努力向实现AGI的目标不断靠近。”
长期主义,不执着于一时的胜负,愿Deepseek的这句话引领所有想要改变世界的中国科技行业从业者前行,攀登科技之巅。