新紫光集团最近动作频频。5月创新峰会上,新紫光集团一口气亮出六大前沿成果,覆盖IC、ICT、AI三大领域,从芯片到应用形成全链条布局。

在这张宏大的战略棋局中,有一家主体格外引人关注——新紫光前沿技术研究院(前沿院)。在当下火爆的GPGPU赛道中,前沿院作为新生力量切入市场,走出了一条不同于摩尔线程、沐曦集成、壁仞科技等企业的差异化路线。

面对AI算力对存储带宽的极致渴求,以及HBM供应链的现实制约,前沿院避开了拥挤的主流赛道,采用创新的三维化近存计算创新架构重新定义GPGPU。这条路线交出了一份惊人的答卷:存储带宽超30TB/s(达到标杆级算力芯片带宽8TB/s的4倍)、访存延迟降低18倍,首创实现4种功能芯粒集成,且已具备国内首次规模化可量产能力。

当整个行业都在HBM赛道上内卷,前沿院却另辟蹊径。它的技术路线为何不同?它的野心到底是什么?半导体产业纵横对话前沿院研究员于洪涛,试图找到答案。

01

落子:为什么是GPGPU?

理解前沿院的选择,先要理解产业的大逻辑。

2025年中国AI加速卡市场总出货量约400万张,中国本土芯片厂商拿下近41%的份额;预计中国AI芯片市场规模将从2025年约190亿美元增长至2030年的670亿美元,巨大的市场蛋糕就在眼前。

于洪涛开门见山的说到:“AI市场是一个确定性的市场,AI市场的发展处在长期的演进过程。”

当前,新紫光集团的产业公司在数据中心核心服务器、网络、存储等系统级设备和集成建设方面已经占据了相当的市场:AI服务器中国第二、刀片服务器中国第一、以太网交换机中国第二、企业级外部存储中国前三。但这仅仅是新紫光集团宏大AI产业构思的序章,为了构建面向AI时代的全栈版图,集团正在核心智算芯片领域落下关键一子。

恰逢此时,这个市场正在经历一场结构性变革。第一个变化,AI对存储带宽的需求在持续攀升。当大模型的参数规模突破万亿级别,对存储带宽的需求呈指数级增长。HBM是目前行业的主流解法,通过2.5D封装将存储带宽提升到TB/s级别。第二个变化,AI供应链在持续重构。国内获取HBM的难度增加,这对于依赖HBM方案的企业来说,是一个必须面对的现实。

正是在这个条件下,前沿院选择进入该领域。于洪涛说到:“我们需要有自己完全可控的核心算力产品,这是我们切入GPGPU的初衷。”

同时可以看到,在国产算力芯片的新兴势力中,GPGPU仍然是多数派,2025年成功上市的四家企业均为GPGPU架构,前沿院选择顺应市场需求主流,在计算单元的微架构设计上与市场主流生态做到完全兼容,为产品加速成熟和快速推向市场、灵活适配各类主流大模型提供通用能力基座。在此基础上,结合三维化存储架构的底层创新,使这款产品同时跨入GPGPU赛道和3D DRAM AI芯片赛道,兼具高易用性和极致高带宽的双重优势。

02

突围:3.5D架构的底层创新

在AI芯片行业,存储带宽是决定算力利用率的关键指标。带宽越高,数据搬运越高效,芯片性能越能充分发挥。当前行业主流采用的是HBM方案:HBM3单堆栈理论最大带宽为819GB/s,即便是最新的HBM4,单堆栈带宽也只有2TB/s级别。

HBM本质上是一种2.5D封装方案:存储芯片和计算芯片铺在同一块基板上,通过中介层和大量的microbump(微凸块)连接。这种方案的带宽受限于基板面积和连接密度,想要更大的带宽,就得用更先进的工艺、更大的面积,成本随之飙升。

前沿院给出的答案,直接将单堆栈带宽提升了15倍,芯片级总带宽也达到当前国际标杆级算力芯片(8TB/s)的4倍。

在新紫光首届创新峰会上,新紫光前沿技术研究院执行院长李莺特别提到:“三维堆叠DRAM在存储带宽和容量上保持优势,大带宽使得计算效率更高,同时基于三维堆叠的国内领先供应链,我们的方案是规模化可量产。”不用HBM,存储带宽突破30TB/s,这不仅是对行业主流技术路线的挑战,更是中国AI芯片产业的一次大胆突破。

紫弦架构

具体来看,前沿院选择了3D堆叠近存计算路线,构建了一套完整的技术体系——紫弦架构。

第一,3.5D三维化架构。前沿院首创四种功能芯粒、三维异构异质集成,包括DRAM层、控制逻辑层、计算逻辑层,以及高速互联的I/O Chiplet作为外部接口。通过3D堆叠高级封装、2.5D高级封装以及MCM封装技术的组合,实现了带宽的指数级提升。

第二,GPGPU架构加近存PNM计算模式。这种模式下,片内总线利用率提升1.7倍,访存延迟最大降低18倍。模拟仿真显示,同等算力下Token吞吐率较标杆级算力芯片高出1.5到2倍。

第三,超宽互联,跨生态高速联接。紫弦架构支持1024卡高带宽互联,互联带宽可以达到1600GB每秒,延迟低至百纳秒。支持3种以上Scale Up交换协议,充分发挥超节点集群的性能优势。

第四,CPU+GPU双芯联动。前沿院自研的CPU与GPU异构协同,内存统一管理。相较于原有PCIe互联,双向带宽扩大5到10倍,网络延迟降低5到10倍。

为什么选择了3D堆叠近存计算这一路线?于洪涛解释了选择这条技术路线的两大优势:一是3D堆叠能提供更大的访存带宽和存储容量,大带宽优势一定程度提升算力利用率,能够提升推理市场的优势;二是3D工艺已经趋于成熟,具备整体量产能力,且国内可以实施能够保障供应链安全。成本是行业最关心的问题之一。于洪涛坦言:“从短期来看,3D堆叠有定制化过程,一次性设计费用会比HBM高,但从量产角度来讲,单位容量成本低于HBM。”

03

破壁:开放生态的第三种选择

当下,超节点正在成为AI计算的主流产品形态。当大模型的参数规模突破万亿级别,单卡性能已经无法满足需求,需要更多的计算芯片协同工作,需要更大的互联带宽,需要更高的系统级效率。不管是英伟达的NVL72还是华为的384,它们首先都是一种超节点的形态。对于趋势的判断,于洪涛说,“从我们的视角来看,未来的市场产品形态会以超节点成为一个主力,这是我们对整体未来市场演进的判断。但超节点也是一场大考。超节点其实更多的是一个系统性的工程,它已经不再单单是一颗芯片在承担的一个任务,它是需要多芯片协同、整系统的协同。这个时候它会更多地要求你的系统的高可用性、效率更高、性能更强、稳定性更强、可靠性更强、可维护性更强。”

对于国内芯片企业来说,这是一个巨大的挑战。过去,很多芯片公司的打法是:先把单卡做出来,再慢慢迭代系统级能力。但超节点时代的要求是:必须在芯片设计阶段就把系统级能力考虑进去。“如果我们只是依赖于单颗芯片的产品能力去推进最终的产品形态,那会发现它在系统的可靠性方面会碰到一些瓶颈。”于洪涛指出了关键。

面对英伟达和华为的超节点方案,作为新进入者前沿院的差异化路径是:开放生态。

英伟达的NVL72采用NVLink私有协议,实现了72颗GPU与18颗NVSwitch芯片的全互联,5000根铜缆连接所有GPU。华为的CM384则采用灵衢总线,将总线从服务器内部扩展到整机柜、甚至跨机柜。两个封闭体系,一个共同的逻辑:谁掌握了超节点的互联标准,谁就掌握了下游客户,但这个格局正在被打破。2025年,AMD、博通、Meta、微软等公司联合推动超以太网联盟(UEC),目标是打破NVLink在高速互联领域的垄断。在国内,以太网生态也在推进开放协议标准。“不管是华为还是英伟达,他们的超节点形态,内部互联方式更多采用的是一种封闭的体系结构。”于洪涛说,“我们想走的是一个更加开放、融合、共享的结构。”

前沿院的底气来自哪里?无疑是紫光集团的协同能力。紫光集团对前沿院的赋能是全方位的。第一个层面是3D堆叠。紫光国芯是国内最早实现3D堆叠量产的公司之一。这意味着前沿院的3D堆叠方案从一开始就站在了成熟的供应链基础上,可以实现、可以量产。第二个层面是多T战略。紫光集团内正在推进一个协同布局:通算芯片CPU、智算芯片GPU、互联芯片、交换芯片,这些芯片共同服务于智算中心的需求。这些芯片之间会进行深度技术协同,形成一个相对独立芯片厂商的有力系统级产品能力。第三个层面是系统整合。前沿院不仅仅是一家芯片设计公司,它背后站着整个紫光集团的系统能力。集团内的产业公司具备从单板到整个系统方案的整合能力,“从芯片到板卡到系统,是个全方位的一个赋能。”于洪涛表示:“集团内已经做了CPU、GPU以及交换芯片的全方位布局,我们会通过内部的协同来打造一个在性能、在能效上能够和业界高端产品相媲美的产品,在国内市场形成头部。”前沿院不是一个人在战斗,集团内的深度协同是独立芯片厂商无法复制的优势。

04

结语

AI产业正全面进入落地深水区,无论是训练还是推理,都有广阔的空间。而推理市场的规模,或许比训练市场更大。在交流中于洪涛认为:未来的产品形态也会是多样的,无论是训练还是推理,在AI市场的都具有很大的市场空间。

在AI这场长跑中,我们看到前沿院手握两张王牌:3D堆叠技术带来的推理优势,以及GPGPU架构在训练市场的天然竞争力。但这只是开始,2026年是产品化元年,2027年将实现规模化突破。于洪涛表示:“我们在推理市场基于3D堆叠的大带宽优势会在整个市场拿到一个比较大的份额。另一方面我们也没有放弃训练市场,因为训练代表了一个企业的AI能力的高度。我们会在训练市场持续深耕,在国内达到一个更高水平。”

墙再高,也挡不住向上的力量。

从更大的视角来看,前沿院的诞生,折射出新紫光集团的战略逻辑:协同共赢+突破创新。不同于成熟大企业的延续创新,也不同于孤立初创企业的突破创新,新紫光走的是集团支持下的新设企业创新路径,大幅放大创新成功的概率。

新紫光前沿院的出现,让中国在下一代AI算力的竞争中,多了一个有力的筹码。正如新紫光集团董事长李滨所言:“创新从来不是一条坦途——它意味着要以艰苦·混沌·失败为常态,同时葆有乐观·试错·坚韧的精神底色。”