国内AI芯片主要采用类GPU、NPU及存算一体架构,重点优化矩阵计算,提升算力与能效。
国内AI芯片计算架构正处于从通用GPGPU向领域专用架构(DSA)深度转型的关键时期,其核心特征表现为异构计算、存算一体以及软硬协同设计,主流国产AI芯片架构已不再单纯追求对CUDA的指令集兼容,而是转向针对深度学习算法中的张量计算进行极致优化,主要分为以类CUDA兼容为主的GPGPU架构、以张量计算为核心的NPU架构以及探索性的存算一体架构,旨在在摩尔定律放缓的背景下,通过架构创新解决算力需求爆炸与能效比之间的矛盾。

主流技术架构流派解析
在国产AI芯片领域,计算架构的设计路线呈现出百花齐放的态势,但归根结底可以归纳为三大技术流派,每种流派都有其特定的应用场景和技术优势。
通用并行计算架构(GPGPU),这是目前国产化替代中最受关注的路线,以壁仞科技、摩尔线程等企业为代表,其架构设计初衷是尽可能兼容英伟达CUDA的软件生态,这类架构通常采用大规模SIMT(单指令多线程)处理单元,通过高带宽显存(HBM)和大规模片上缓存来支撑大规模并行计算,其核心优势在于通用性强,迁移成本相对较低,适合处理浮点数运算密集型的通用大模型训练任务,这种架构在控制逻辑上较为冗余,对于AI推理场景中常见的整型运算和低精度计算,能效比往往不如专用架构。
领域专用架构(DSA),以华为昇腾、寒武纪为代表,这是目前国内算力底座的中坚力量,DSA架构摒弃了通用GPU中为了图形渲染而保留的冗余逻辑,转而采用专用的张量计算核心,华为昇腾的达芬奇架构采用了独特的3D Cube计算引擎,专门针对矩阵乘法进行优化,能够在单时钟周期内完成海量数据的乘累加操作,这种架构在处理卷积神经网络(CNN)和Transformer模型时,能效比远超通用GPU,是目前国产AI芯片在推理和特定训练场景下最具竞争力的架构形式。
第三类是新兴的存算一体架构,这被视为打破“冯·诺依曼瓶颈”的革命性技术,传统的计算架构中,数据在存储器和处理器之间频繁搬运消耗了大量时间和能量,存算一体架构通过将计算单元直接嵌入存储器阵列中,实现了数据在哪里,计算就在哪里进行,虽然目前该架构主要在推理端和边缘侧应用较多,但随着技术成熟,其正在向大算力训练场景渗透,是未来解决内存墙问题的关键技术路径。
核心计算单元的微观创新
深入到微观层面,国产AI芯片在计算单元(ALU)的设计上展现出了极高的专业度,传统的标量处理器已无法满足深度学习的需求,取而代之的是向量处理单元和矩阵处理单元的深度结合。
在矩阵计算单元的设计上,国产厂商普遍采用了脉动阵列技术,以寒武纪的MLU架构为例,通过二维的脉动阵列排列,数据像血液一样在处理单元之间有规律地流动,每个处理单元在接收数据的同时完成计算并传递给下一级,这种设计极大地减少了数据对片上缓存的访问需求,大幅提升了有效算力利用率,针对大模型时代稀疏计算的特点,部分先进架构开始支持结构化剪枝和非结构化稀疏计算,即在硬件层面直接识别并跳过数值为零的计算,从而在不损失模型精度的前提下成倍提升实际计算速度。

数据精度的支持也是架构设计的核心考量,为了适应大模型从FP32向FP16、BF16甚至INT8、INT4演变的趋势,国产AI芯片架构普遍集成了灵活的数值处理单元,支持Transformer引擎的架构能够在一个计算周期内自动完成FP16和BF16的混合精度计算,既保证了训练时的数值稳定性,又大幅提升了吞吐量。
软硬协同设计的架构哲学
在硬件制程受限的背景下,单纯的堆砌晶体管已难以维持竞争优势,软硬协同设计成为国产AI芯片架构突围的关键,这要求在架构定义阶段就必须充分考虑到上层软件算法的特性。
华为昇腾的CANN(Compute Architecture for Neural Networks)算子库就是软硬协同的典型代表,其硬件架构专门为支持算子开发而设计,提供了丰富的指令集使得开发者能够像搭积木一样高效实现复杂的算子逻辑,相比之下,如果硬件架构设计不合理,软件层就需要花费数倍的指令周期去弥补硬件功能的缺失,导致实际性能大幅下降。
针对大模型分布式训练的需求,国产高端AI芯片架构在片间互联技术上进行了深度优化,除了标准的PCIe接口外,厂商纷纷自研高性能互联技术,如华为的HCCS协议,旨在实现多卡、多节点间的模型参数同步如同访问本地显存一样低延迟,这种系统级的架构设计能力,是衡量国产AI芯片能否支撑千亿参数级大模型训练的重要标尺。
面向未来的架构演进趋势
展望未来,国产AI芯片计算架构将呈现出更加多元化和集成化的趋势,Chiplet(芯粒)技术将成为主流,通过将计算单元I/O单元、存储单元通过先进封装集成在一起,可以在不依赖单一先进制程的情况下,实现大算力芯片的量产,这不仅是技术路线的选择,更是供应链安全背景下的战略抉择。
可重构架构将获得更多关注,这种架构允许硬件在运行时根据不同的算法需求动态改变电路连接结构,从而在通用性和专用性之间找到最佳平衡点,对于国内厂商而言,构建一个既能支持大模型训练,又能高效处理边缘侧推理,且具备良好软件扩展性的统一计算架构,将是下一阶段竞争的焦点。

国内AI芯片计算架构已经走过了单纯模仿的阶段,正在形成以张量计算为核心、软硬协同为灵魂、异构集成为手段的独特技术体系,尽管在生态建设和软件栈的易用性上与国际顶尖水平仍有差距,但在核心架构设计层面,国产芯片已经展现出了强大的创新能力和独特的技术路径。
您认为在当前的大模型浪潮下,国产AI芯片架构是应该优先追求极致的通用性以兼容生态,还是应该坚持走专用化路线以换取更高的能效比?欢迎在评论区留下您的专业见解。
以上内容就是解答有关国内AI芯片计算架构的详细内容了,我相信这篇文章可以为您解决一些疑惑,有任何问题欢迎留言反馈,谢谢阅读。
原创文章,发布者:酷番叔,转转请注明出处:https://cloud.kd.cn/ask/97360.html