谷歌 DeepMind 的解耦式 DiLoCo 技术
将全球数据中心当作一个整体使用
谷歌计算机容错技术进一步升级

编者注从人工智能、半导体、通信到生物技术,我们将用浅显易懂的语言,解读这些与生活密不可分却又十分陌生的技术故事。

人工智能(AI)开发面临的最大难题是数据中心。大型科技公司为了比竞争对手抢占更多计算机芯片,正不断加大对数据中心的投资。但如果能把分布在全球的无数数据中心“打包”在一起进行AI训练,那么困扰科技企业的芯片瓶颈问题也将得到大幅缓解。谷歌旗下先进AI开发研究所 DeepMind 公布的“解耦式 DiLoCo(Decoupled Distributed Low-Communication)”技术因此备受关注。


谷歌 DeepMind 的下一代AI训练技术“解耦式 DiLoCo”


用图示方式表达去耦合 Diloco 原理的图片。通过将遍布全球的人工智能数据中心视作一台计算机,可以构建“地球数据中心”。谷歌 DeepMind 供图

用图示方式表达去耦合 Diloco 原理的图片。通过将遍布全球的人工智能数据中心视作一台计算机,可以构建“地球数据中心”。谷歌 DeepMind 供图

View original image

解耦式 DiLoCo 是 DeepMind 于上月24日(当地时间)在公司官网及论文预印本平台 Arxiv 上公开的技术。名称意为“非同步(解耦式·Decoupled)的分布式低通信(Distributed Low-Communication)AI训练”。虽然充满陌生的计算机科学术语,但逐一拆解后其实并不难懂。


“非同步”指的是AI专用计算芯片之间的连接较为松散。目前AI数据中心中部署的成万上万块GPU,通过芯粒(Chiplet·将多种半导体通过高速接口封装连接的后工序技术)、光纤等,可以实现超高速数据收发,因此在使用上几乎可以当作一台巨大的计算机整体,这就叫“同步”。DeepMind 的意思是,即便不依赖高度同步技术,也能把上万块AI芯片当作一块来使用。


“分布式低通信”指的是距离较远、速度较慢的通信网络。DeepMind 通过解耦式 DiLoCo,仅依靠普通互联网通信速度水平——每秒2~5GB——就成功将分布在北美大陆的4座数据中心整合成一个整体。


一次性调用全球各地的计算芯片


也就是说,解耦式 DiLoCo 是一种无需昂贵尖端技术,就能同时调度远程AI专用图形处理单元(GPU)、张量处理单元(TPU)等的技术。借此,可以从世界各地的数据中心“租用”计算资源,用于AI训练和推理。该技术事实上具备实现“地球级数据中心”的潜力。


解耦式 DiLoCo 也是一项突破既有AI训练极限的技术。AI训练的关键在于芯片与内存之间的数据交换,一旦同步水平下降,AI性能就会急剧下滑,严重时甚至可能导致模型彻底损坏。


将GPU集合细分应对的容错技术


按GPU切片方式划分的AI训练(上)与按岛屿单元划分的AI训练之间的差异。即使错误频率相同,因需要停机的GPU数量(以红色标出)不同,整体训练性能和训练时间等会出现巨大差异。谷歌DeepMind供图

按GPU切片方式划分的AI训练(上)与按岛屿单元划分的AI训练之间的差异。即使错误频率相同,因需要停机的GPU数量(以红色标出)不同,整体训练性能和训练时间等会出现巨大差异。谷歌DeepMind供图

View original image

DeepMind 之所以能够突破这一限制,秘诀在于被称为“容错性”的计算机运行技术。容错性指的是,即便计算机网络的部分组成元件损坏,也能不中断地维持系统运行的各种手段。例如,当数据中心内部部分设备发生故障时,立即切断错误并启动备用系统的流程,也属于容错性范畴。


对AI数据中心而言,容错性同样必不可少。成万上万块GPU同时运行时,难免会出现故障部件,必须及时检测并隔离这些部件,才能防止错误扩散到整个系统。迄今为止,大型科技公司通常将数万块GPU再划分成由数百至数千块组成的“切片(Slice)”来实现容错,而解耦式 DiLoCo 则把切片进一步细分,创造出名为“岛(Island)”的新单位。过去一旦某个GPU切片出问题,就只能整体停机应对,如今则可以以“岛”为单位停机,将损失降到最低。


DeepMind 表示:“如果不是以切片,而是以岛为单位对硬件进行隔离,即便错误发生频率相同,错误带来的影响也会缩小。借此几乎无需中断即可持续执行任务,并且可以大幅降低数据中心之间所需的带宽(通信速度),从而实现在远距离位置进行AI训练。”


大规模分布式训练节省芯片成本


谷歌数据中心。谷歌供图

谷歌数据中心。谷歌供图

View original image

如果无论数据中心位于何处,所有GPU都能用于AI任务,那么就能大幅节省芯片采购成本。因为过去因距离、物流等原因而闲置的计算芯片,也能全部投入训练之中。



解耦式 DiLoCo 的优势远不止于此。由于芯片之间的同步要求较低,还可以混合使用不同代际的芯片。比如,DeepMind 就借助解耦式 DiLoCo,将第5代TPU与第6代TPU混合投入AI模型训练。DeepMind 强调称:“下一代硬件并不会在所有数据中心同时部署。通过同时使用多代芯片,可以避免物理层面的物流瓶颈,甚至连老一代硬件也能对提升AI训练速度产生实质性帮助。”


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。

不容错过的热点