若能一次调用全球GPU…谷歌的雄心 [科技对话]

by Lim Juhyeong

Published 02 May.2026 07:10(KST)

谷歌 DeepMind 的解耦式 DiLoCo 技术
将全球数据中心当作一个整体使用
谷歌计算机容错技术进一步升级

编者注从人工智能、半导体、通信到生物技术，我们将用浅显易懂的语言，解读这些与生活密不可分却又十分陌生的技术故事。

人工智能（AI）开发面临的最大难题是数据中心。大型科技公司为了比竞争对手抢占更多计算机芯片，正不断加大对数据中心的投资。但如果能把分布在全球的无数数据中心“打包”在一起进行AI训练，那么困扰科技企业的芯片瓶颈问题也将得到大幅缓解。谷歌旗下先进AI开发研究所 DeepMind 公布的“解耦式 DiLoCo（Decoupled Distributed Low-Communication）”技术因此备受关注。

谷歌 DeepMind 的下一代AI训练技术“解耦式 DiLoCo”

用图示方式表达去耦合 Diloco 原理的图片。通过将遍布全球的人工智能数据中心视作一台计算机，可以构建“地球数据中心”。谷歌 DeepMind 供图

解耦式 DiLoCo 是 DeepMind 于上月24日（当地时间）在公司官网及论文预印本平台 Arxiv 上公开的技术。名称意为“非同步（解耦式·Decoupled）的分布式低通信（Distributed Low-Communication）AI训练”。虽然充满陌生的计算机科学术语，但逐一拆解后其实并不难懂。

“非同步”指的是AI专用计算芯片之间的连接较为松散。目前AI数据中心中部署的成万上万块GPU，通过芯粒（Chiplet·将多种半导体通过高速接口封装连接的后工序技术）、光纤等，可以实现超高速数据收发，因此在使用上几乎可以当作一台巨大的计算机整体，这就叫“同步”。DeepMind 的意思是，即便不依赖高度同步技术，也能把上万块AI芯片当作一块来使用。

“分布式低通信”指的是距离较远、速度较慢的通信网络。DeepMind 通过解耦式 DiLoCo，仅依靠普通互联网通信速度水平——每秒2～5GB——就成功将分布在北美大陆的4座数据中心整合成一个整体。

一次性调用全球各地的计算芯片

也就是说，解耦式 DiLoCo 是一种无需昂贵尖端技术，就能同时调度远程AI专用图形处理单元（GPU）、张量处理单元（TPU）等的技术。借此，可以从世界各地的数据中心“租用”计算资源，用于AI训练和推理。该技术事实上具备实现“地球级数据中心”的潜力。

解耦式 DiLoCo 也是一项突破既有AI训练极限的技术。AI训练的关键在于芯片与内存之间的数据交换，一旦同步水平下降，AI性能就会急剧下滑，严重时甚至可能导致模型彻底损坏。

将GPU集合细分应对的容错技术

按GPU切片方式划分的AI训练（上）与按岛屿单元划分的AI训练之间的差异。即使错误频率相同，因需要停机的GPU数量（以红色标出）不同，整体训练性能和训练时间等会出现巨大差异。谷歌DeepMind供图

DeepMind 之所以能够突破这一限制，秘诀在于被称为“容错性”的计算机运行技术。容错性指的是，即便计算机网络的部分组成元件损坏，也能不中断地维持系统运行的各种手段。例如，当数据中心内部部分设备发生故障时，立即切断错误并启动备用系统的流程，也属于容错性范畴。

对AI数据中心而言，容错性同样必不可少。成万上万块GPU同时运行时，难免会出现故障部件，必须及时检测并隔离这些部件，才能防止错误扩散到整个系统。迄今为止，大型科技公司通常将数万块GPU再划分成由数百至数千块组成的“切片（Slice）”来实现容错，而解耦式 DiLoCo 则把切片进一步细分，创造出名为“岛（Island）”的新单位。过去一旦某个GPU切片出问题，就只能整体停机应对，如今则可以以“岛”为单位停机，将损失降到最低。

DeepMind 表示：“如果不是以切片，而是以岛为单位对硬件进行隔离，即便错误发生频率相同，错误带来的影响也会缩小。借此几乎无需中断即可持续执行任务，并且可以大幅降低数据中心之间所需的带宽（通信速度），从而实现在远距离位置进行AI训练。”

大规模分布式训练节省芯片成本

谷歌数据中心。谷歌供图

如果无论数据中心位于何处，所有GPU都能用于AI任务，那么就能大幅节省芯片采购成本。因为过去因距离、物流等原因而闲置的计算芯片，也能全部投入训练之中。

必读新闻

三星放缓之际猛然追上…中国D램一年内转亏为盈

解耦式 DiLoCo 的优势远不止于此。由于芯片之间的同步要求较低，还可以混合使用不同代际的芯片。比如，DeepMind 就借助解耦式 DiLoCo，将第5代TPU与第6代TPU混合投入AI模型训练。DeepMind 强调称：“下一代硬件并不会在所有数据中心同时部署。通过同时使用多代芯片，可以避免物理层面的物流瓶颈，甚至连老一代硬件也能对提升AI训练速度产生实质性帮助。”

한글 기사 보기

本报道由人工智能(AI)翻译技术生成。