支撑中国“DeepSeek冲击”的芯片“Ascend 910C”技术瓶颈明显[TechTalk]

by Lim Juhyeong

Published 06 May.2025 07:30(KST)

Updated 07 May.2025 07:06(KST)

open/close

前一代芯片双芯连接架构
低电价抵消性能瓶颈

中国华为的Ascend（中文名昇腾）910C图形处理器。华为提供

近日，曾撼动整个人工智能（AI）行业的中国AI模型“DeepSeek”，在硬件领域同样引发警惕。这是因为它在训练和推理阶段都使用了中国国产图形处理器（GPU）——华为昇腾910C。昇腾910C是华为昇腾GPU系列的第三代产品，在无法直接进口英伟达高性能GPU的中国，被视为实现技术自主的核心。近期，西方半导体专家对昇腾910C的架构与局限进行了剖析。

下一代中国GPU的关键是小芯片技术

Ascend 910C 的芯片结构。采用将上一代 Ascend 910B 两枚芯片以芯粒形式串联封装的结构。X Capture 提供

美国国家战略智库——战略与国际研究中心（Center for Strategic and International Studies）今年3月获取并公开了有关华为910C详细规格的信息。此后，西方科技专家对这款芯片的结构和制造方式进行了深入分析。

综合美国科技专业媒体Toms Hardware、SemiAnalysis等的资料，昇腾910C本质上是将上一代910B芯片两颗封装在一起的大型芯片。这得益于“小芯片（Chiplet）”技术，可让多块半导体芯片裸片在封装后像一块芯片那样工作。由此，910C在没有显著制程创新的情况下，理论性能可达到前一代的两倍。

华为采取这种路径，很大概率是出于技术瓶颈的考虑。910C与910B一样，采用的是7纳米（nm）工艺。不过，更关键的一点在于，它并非使用台湾台积电的工艺，而是采用了中国国有半导体代工企业中芯国际（SMIC）的7纳米工艺。由此，昇腾910C在知识产权、半导体工艺设备以及代工生产等方面全部实现国产化，可谓在技术自立上取得了阶段性成功。

无法触达全球高端技术，短板同样明显

基于Ascend 910C的云解决方案CloudMatrix 384。尽管占用面积比英伟达产品更大、单位功耗性能也明显逊色，但对中国企业而言，这已成为唯一的选择。华为提供

然而，昇腾910C这种技术路径也存在明显局限。其一是芯片面积增加。将两颗芯片合二为一，芯片本身占用的空间必然变大。AI芯片往往要在数据中心中成千上万片地部署，裸片面积变大，就意味着安装芯片的服务器机架（rack）以及其他配套设施也要预留更大空间，这无形中增加了数据中心建设方的负担。

第二个局限是内存带宽。与英伟达不同，中国企业目前无法获得韩国生产的高性能高带宽内存（HBM），这直接造成了性能瓶颈。昇腾910C使用的是HBM2e，每个引脚的内存带宽为3.6Gbps，而英伟达下一代芯片将采用的HBM4，其带宽为6.4Gbps，几乎高出一倍。当作为AI数据传输速度核心指标的带宽偏低时，AI训练性能也无法完全释放。

为弥补这些短板，华为选择采用昂贵的通信技术。上月16日，华为发布了名为CloudMatrix 384的AI云系统。这一系统搭载数千颗昇腾910C，在服务器机架之间并未采用铜缆，而是实现了100%光纤互联。光纤的数据传输速度快于铜缆，但成本高得多，且传输距离越远，功耗也越大。

综合考虑这些各种“惩罚项”后，昇腾910C在单位功耗下的计算性能，大约只有英伟达H100 GPU的60%。

以较低电价对冲效率劣势

中国上海吴泾燃煤火力发电厂全景。韩联社供图

单位功耗下的计算性能，是AI训练和推理竞争力的核心。随着AI模型规模呈指数级膨胀，只有依托超大型数据中心，尽可能压低开发和运行成本，企业才能参与竞争。如果在相同的1瓦（W）功耗下，昇腾910C只能发挥出H100约60%的算力，那么中国企业就必须通过增加数据中心投资来弥补剩下40%的差距。这不仅会推高AI数据中心的散热管理、冷却水消耗以及运维人力等各类附加成本，也将成为中国AI企业发展的掣肘。

不过，至少在当下，中国企业似乎仍有能力承受CloudMatrix的这种低效率。讽刺的是，这在一定程度上得益于中国经济的低迷。