微软立志实现30万块GPU同步训练
必须突破“光纤电缆”瓶颈
发掘凝聚30年物理学精华的技术
人工智能(AI)竞争如今已不再只是计算机芯片或电力供应的问题,而是要在构成大型数据中心的所有基础技术上占据优势。
在开发超大规模AI模型的大型科技企业中,微软(MS)近期拿出的秘密武器,正是“电缆”,也就是通信线缆。它看上去像是随处可得的普通物件,却有可能成为让微软在AI时代胜出的核心技术。
推动AI创新的隐形功臣是电缆
为什么电缆会突然变得如此重要?事实上,在AI创新的背后,一直都有电缆的身影。以图形处理器(GPU)制造商英伟达为例。英伟达向客户出售由数十块GPU连接而成的“服务器机架”。
在GPU与GPU之间、服务器机架与服务器机架之间,连接着无数电缆(NVLink)和交换机(NVSwitch)。这些设备统称为“互连”(interconnect),正是通过它们,GPU之间才能相互通信,从而高速训练超大规模AI。NVLink和NVSwitch与计算机芯片一样,被视为英伟达的核心技术。
现在不妨想象一下部署了GPU服务器机架的现代数据中心。大型科技公司投资建设的超大规模数据中心,一栋建筑内部就搭载1万到2万块GPU。这样的数据中心在全球有数十座,而且各个数据中心之间也由电缆相连。
把数据中心“拉”在一起训练超大模型
随着AI模型规模不断增大,深度学习训练所需的计算能力也呈指数级增长。在此背景下,谷歌去年在训练“Gemini Ultra”模型时,首次公开展示了“分布式数据中心训练”这一新方法,引发业界关注。谷歌动用了5万余块自家AI训练芯片TPUv5,用于超高速训练单一超大模型。
分布式AI训练本身并不是新方法。其做法是将AI训练所需的数据集分片发送到各计算芯片的通信节点上,实现并行训练。所谓分布式数据中心训练,则是把这一规模扩大到“数据中心”层级。也就是说,遍布美国各地的谷歌数据中心全部被投入到模型训练之中。
与OpenAI合作构建超大规模AI的微软,也计划挑战分布式训练。此前,OpenAI和微软已经表示,将通过最多30万块GPU进行分布式训练,以打造下一代模型。为此需要动员15栋各自搭载约2万块GPU的数据中心建筑。其成本、电力消耗以及物理距离都将是天文数字。
在AI训练中,最关键的是数据的传输速度和带宽容量。信息技术行业在2000年代初迎来高速互联网时代时,已经完成了一次从铜缆到光纤电缆的“世代跃迁”,得益于此,如今的数据中心可以以极高速度传输海量数据。然而,要实现分布式数据中心训练,就需要远超目前水平的传输速度。
要实现“30万块GPU分布式训练”,必须突破光纤速度
归根结底,如果微软要实现“30万块GPU分布式训练”的目标,就必须在电缆技术上实现创新。而微软早在2年前就开始准备这件“秘密武器”。2022年底,微软收购了源自英国南安普顿大学光电子研究所的一家初创公司“Lumenisity”。该公司开发的是下一代光纤电缆的一种,即HCF(Hollow Core Fiber,中空光纤)电缆。
HCF这一概念早在1990年代就已被提出,但当时由于技术难题未能实现。该电缆是在普通二氧化硅材料电缆内部打出微米(㎛)级空孔而成。如果说传统光纤是通过嵌入二氧化硅电缆内部的光纤来传输光信号,那么HCF则意味着其中只有空气或真空存在。
光子在空气中的传播速度快于在玻璃中的速度。因此,据悉HCF的时延水平比普通光纤电缆低50%。随距离增加而产生的光信号损失或色散(Dispersion,即散射光在不同波长下折射,从而干扰信号的现象)也大幅减少。也就是说,它非常适合用于超长距离、超高速通信。它具有成为连接远距离数据中心之间的“AI神经网络”的潜力。
HCF电缆在量产方面曾面临极高的技术门槛。然而,经过30余年的相关研究,Lumenisity在被微软收购后,得以首次建立HCF量产工厂。如今,微软正在英国的数据中心测试HCF电缆。去年,微软首席执行官Satya Nadella在年度开发者大会上首次提及HCF,并表示,“看到这项突破性(Breakthrough)技术真正发挥作用,令人振奋”,表达了期待。
一根通信线里也凝聚科学精华……只是血腥AI大战的冰山一角
当然,电缆终究只是构成分布式数据中心训练的诸多要素之一。仅凭这种电缆,并不能消除所有瓶颈和技术壁垒。必须解决HCF电缆与其他“传统”通信设备之间的兼容问题,更重要的是,要让超过30万块GPU全部稳定运行,就必须构建极其精密的监控系统和故障隔离机制。在这方面,谷歌凭借数十年来提供搜索引擎和YouTube等互联网流量管理服务所积累的经验,相比其他大型科技公司更具优势。
即便如此,这个故事仍然表明,现代大型科技公司为了打造超大规模AI,正在投入多么巨大的努力和资本。AI模型的规模会不断扩大,与之相应,计算能力也必须同步提升。仅仅依赖芯片性能的提升,无法在这场竞争中存活。必须动用一切可能的科学和工程手段,跨越一道道门槛。
哪怕是一根看上去最普通、最廉价的“电缆”,其中也凝聚着当代纳米工程和光物理学的精华。这或许才是AI之所以艰难的真正原因。为了破解“数据传输瓶颈”这一唯一的难题,企业不得不在全球范围内搜罗、筛选并引进最尖端的技术。
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。