华为昇腾、寒武纪、地平线、壁仞科技、燧原科技、海光信息、摩尔线程等。
国内AI芯片厂商主要包括华为昇腾、寒武纪、地平线、壁仞科技、燧原科技、摩尔线程、百度昆仑芯以及阿里平头哥等,这些企业构成了中国人工智能算力版图的核心力量,分别在云端训练、边缘推理、通用GPU以及自动驾驶等细分领域展现出强大的技术实力与市场竞争力。

云端训练与推理的领军者
在数据中心和云端高性能计算领域,国产AI芯片已经具备了与国际巨头同台竞技的实力,尤其是在大模型训练场景下,部分产品的性能表现十分亮眼。
华为昇腾是目前国内AI算力的标杆,其核心产品昇腾910芯片在FP16精度下的算力达到了256 TFLOPS,通过华为自研的达芬奇架构,极大地提升了矩阵运算的效率,更重要的是,华为构建了完整的软件栈,包括CANN(Compute Architecture for Neural Networks)算子库和MindSpore框架,实现了软硬件的深度协同,这种全栈自研的策略虽然门槛高,但有效地解决了生态兼容性问题,使得昇腾在智算中心建设中占据了主导地位,对于企业级用户而言,昇腾提供的不仅是硬件,更是一套从底层硬件到上层应用的全链路解决方案。
寒武纪作为科创板AI芯片第一股,其产品线覆盖了云端、边缘端和终端,在云端方面,寒武纪的MLU370系列芯片采用了先进的Chiplet(芯粒)技术,通过先进封装工艺实现了算力的灵活扩展,寒武纪的优势在于其指令集架构的通用性,能够较好地适配主流的深度学习框架,对于需要兼顾推理和轻量级训练的互联网业务场景,寒武纪提供了高能效比的解决方案。
燧原科技专注于云端高性能计算解决方案,其“云燧”系列产品针对GPGPU架构进行了深度优化,燧原的技术特色在于其独特的“驭算”软件平台,能够显著降低用户从CUDA生态迁移到国产平台的成本,在生成式AI(AIGC)爆发的背景下,燧原针对Transformer模型进行了专门的硬件加速设计,有效提升了大模型训练和推理的吞吐量。
通用GPU与高性能计算的挑战者
随着美国对高端GPU出口限制的收紧,通用GPU(GPGPU)成为了国产替代最紧迫的战场,这一领域的厂商致力于打造兼容CUDA生态的高性能计算卡,旨在填补英伟达在中高端市场的空白。
壁仞科技凭借其BR100系列芯片刷新了国产通用GPU的算力纪录,该芯片采用了7nm工艺和Chiplet技术,峰值算力接近国际主流高端产品水平,壁仞科技的核心竞争力在于其原创的HUAWEI(Harmonized Unified Architecture for Wide-ranging Efficiency)架构,该架构在数据并行度和计算密度上进行了创新设计,对于科学计算、数字孪生以及大规模3D渲染等需要高精度浮点运算的场景,壁仞科技提供了强有力的国产算力支撑。
摩尔线程则主打“元计算”概念,其“苏堤”系列显卡不仅具备AI计算能力,还拥有强大的图形渲染能力,这种“GPU+AI”的融合架构,使得摩尔线程的产品在面向元宇宙、数字媒体处理等场景时具有独特优势,摩尔线程高度重视软件生态的建设,推出了MUSA统一系统架构,并积极适配主流的AI模型库,旨在为开发者提供一个无缝切换的开发环境。

边缘侧与自动驾驶的佼佼者
在边缘计算和智能驾驶领域,AI芯片的需求更侧重于能效比、实时性以及低功耗,这一领域的国产厂商往往采用“软硬结合”的路径,通过提供算法工具链来增强硬件的粘性。
地平线是国内自动驾驶芯片的绝对领导者,其“征程”系列芯片采用了专用的BPU(Brain Processing Unit)架构,针对深度学习算法中的卷积神经网络进行了极致优化,地平线的核心优势在于其“芯片+算法+工具链”的商业模式,通过提供丰富的AI参考算法库和高效的编译器,地平线极大地降低了车厂和Tier1的开发门槛,征程系列芯片已在多家主流车企的量产车型中得到广泛应用,展现了极高的市场成熟度。
互联网巨头的自研布局
除了独立的芯片设计公司,互联网巨头也基于自身庞大的业务需求开启了自研之路。
百度昆仑芯经历了从FPGA到ASIC的演进,昆仑芯2代采用了先进的7nm工艺,拥有数百TOPS的INT8算力,主要服务于百度搜索、自动驾驶等内部业务,同时也通过百度智能云对外输出,其优势在于与百度飞桨(PaddlePaddle)框架的原生适配,能够针对百度的业务模型进行深度优化。
阿里平头哥则推出了含光800芯片,这是一款专注于AI推理的芯片,主要应用于阿里云的数据中心,含光800在机器视觉场景下表现优异,能够大幅提升图像处理和视频分析的效率,阿里的策略是通过云端一体化,将芯片算力转化为云服务的性价比优势。
行业痛点与专业解决方案
尽管国产AI芯片发展迅猛,但在实际落地过程中仍面临“软件生态碎片化”和“算力利用率不足”两大挑战,针对这些问题,行业需要采取系统性的解决方案。
软件生态的兼容与迁移是关键,目前大多数AI模型是基于CUDA生态开发的,国产芯片厂商必须提供高效的代码迁移工具,专业的解决方案是建立中间抽象层(如OpenCL、SYCL或厂商自研的高层IR),让开发者能够以最小的代价修改代码,华为昇腾的算子开发库允许用户直接调用优化好的算子,而无需从零编写底层代码。

集群化部署是弥补单芯片性能差距的有效途径,在先进制程受限的情况下,通过高速互联技术(如HCCS、CCIX)将数千颗国产芯片连接成超级计算机集群,可以实现线性加速比,这要求厂商在芯片设计之初就考虑到互联拓扑结构的优化,以及分布式训练框架的适配。
针对特定场景的专用化设计(DSA)是突围之道,通用GPU虽然灵活,但能效比往往不如专用芯片,国产厂商应发挥贴近本土市场的优势,针对安防、互联网推荐、自动驾驶等特定场景的算法特点,定制化设计数据流架构,从而在特定垂直领域建立“护城河”。
未来展望与独立见解
展望未来,国产AI芯片的竞争将不再局限于单点的算力比拼,而是转向“算力-算法-数据”的综合效能比,我认为,存算一体技术和可重构架构将成为下一代AI芯片的重要技术方向,存算一体技术能够打破冯·诺依曼架构的“存储墙”瓶颈,大幅降低大模型推理时的功耗和延迟;而可重构架构则能适应AI算法快速迭代的需求,延长硬件的生命周期。
对于企业用户而言,在选择国产AI芯片时,不应仅看峰值算力数字,更要关注其在实际业务模型下的吞吐量、延迟以及软件栈的易用性,构建一个异构算力平台,混合部署不同架构的国产芯片,以匹配不同类型的AI负载,将是未来数据中心建设的主流趋势。
您认为在当前的技术环境下,国产AI芯片厂商最应该优先突破的是硬件制程工艺,还是软件生态的构建?欢迎在评论区分享您的专业见解。
以上内容就是解答有关国内AI芯片厂商有哪些的详细内容了,我相信这篇文章可以为您解决一些疑惑,有任何问题欢迎留言反馈,谢谢阅读。
原创文章,发布者:酷番叔,转转请注明出处:https://cloud.kd.cn/ask/97871.html