支撑中国“DeepSeek冲击”的芯片“Ascend 910C”技术瓶颈明显[TechTalk]
前一代芯片双芯连接架构
低电价抵消性能瓶颈
近日,曾撼动整个人工智能(AI)行业的中国AI模型“DeepSeek”,在硬件领域同样引发警惕。这是因为它在训练和推理阶段都使用了中国国产图形处理器(GPU)——华为昇腾910C。昇腾910C是华为昇腾GPU系列的第三代产品,在无法直接进口英伟达高性能GPU的中国,被视为实现技术自主的核心。近期,西方半导体专家对昇腾910C的架构与局限进行了剖析。
下一代中国GPU的关键是小芯片技术
美国国家战略智库——战略与国际研究中心(Center for Strategic and International Studies)今年3月获取并公开了有关华为910C详细规格的信息。此后,西方科技专家对这款芯片的结构和制造方式进行了深入分析。
综合美国科技专业媒体Toms Hardware、SemiAnalysis等的资料,昇腾910C本质上是将上一代910B芯片两颗封装在一起的大型芯片。这得益于“小芯片(Chiplet)”技术,可让多块半导体芯片裸片在封装后像一块芯片那样工作。由此,910C在没有显著制程创新的情况下,理论性能可达到前一代的两倍。
华为采取这种路径,很大概率是出于技术瓶颈的考虑。910C与910B一样,采用的是7纳米(nm)工艺。不过,更关键的一点在于,它并非使用台湾台积电的工艺,而是采用了中国国有半导体代工企业中芯国际(SMIC)的7纳米工艺。由此,昇腾910C在知识产权、半导体工艺设备以及代工生产等方面全部实现国产化,可谓在技术自立上取得了阶段性成功。
无法触达全球高端技术,短板同样明显
基于Ascend 910C的云解决方案CloudMatrix 384。尽管占用面积比英伟达产品更大、单位功耗性能也明显逊色,但对中国企业而言,这已成为唯一的选择。华为提供
View original image然而,昇腾910C这种技术路径也存在明显局限。其一是芯片面积增加。将两颗芯片合二为一,芯片本身占用的空间必然变大。AI芯片往往要在数据中心中成千上万片地部署,裸片面积变大,就意味着安装芯片的服务器机架(rack)以及其他配套设施也要预留更大空间,这无形中增加了数据中心建设方的负担。
第二个局限是内存带宽。与英伟达不同,中国企业目前无法获得韩国生产的高性能高带宽内存(HBM),这直接造成了性能瓶颈。昇腾910C使用的是HBM2e,每个引脚的内存带宽为3.6Gbps,而英伟达下一代芯片将采用的HBM4,其带宽为6.4Gbps,几乎高出一倍。当作为AI数据传输速度核心指标的带宽偏低时,AI训练性能也无法完全释放。
为弥补这些短板,华为选择采用昂贵的通信技术。上月16日,华为发布了名为CloudMatrix 384的AI云系统。这一系统搭载数千颗昇腾910C,在服务器机架之间并未采用铜缆,而是实现了100%光纤互联。光纤的数据传输速度快于铜缆,但成本高得多,且传输距离越远,功耗也越大。
综合考虑这些各种“惩罚项”后,昇腾910C在单位功耗下的计算性能,大约只有英伟达H100 GPU的60%。
以较低电价对冲效率劣势
单位功耗下的计算性能,是AI训练和推理竞争力的核心。随着AI模型规模呈指数级膨胀,只有依托超大型数据中心,尽可能压低开发和运行成本,企业才能参与竞争。如果在相同的1瓦(W)功耗下,昇腾910C只能发挥出H100约60%的算力,那么中国企业就必须通过增加数据中心投资来弥补剩下40%的差距。这不仅会推高AI数据中心的散热管理、冷却水消耗以及运维人力等各类附加成本,也将成为中国AI企业发展的掣肘。
不过,至少在当下,中国企业似乎仍有能力承受CloudMatrix的这种低效率。讽刺的是,这在一定程度上得益于中国经济的低迷。
据彭博通讯社今年1月报道,目前中国批发电价(以兆瓦时·MWh计)约为56美元(约8万韩元),相比2022年平均90.7美元(约12.8万韩元)大幅下降。各地方政府为对冲经济下行压力,下调了工业用电价格。原本这是为了扶持高耗电制造企业的政策,但运营数据中心的IT企业同样从中受益。
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。