液冷散热系统迅速崛起
用水与液体为发烫的超级计算机和GPU降温
相比风冷噪音更小、占用空间更少
预计未来导入将扩散‥亟需提前布局

位于京畿道南杨州、专注于构建和运营人工智能(AI)全栈平台的专业企业 MKScore 办公楼里,有一间特别的房间。在这栋木结构办公楼内,安装了一套模拟数据中心环境的大型超级计算机系统。超级计算机两侧连接着管道,里面有液体流动,冷液流入、热水流出的结构。每台超级计算机上都挂满了管道。面对这套价值数千万韩元的高价电子设备,有人询问液体若发生泄漏导致故障怎么办,得到的答复是:系统经过严密设计,已充分防范此类情况。

Mkiscore常务Kim Jonghun正在介绍用于液冷散热系统的冷水机。照片=记者白钟民

Mkiscore常务Kim Jonghun正在介绍用于液冷散热系统的冷水机。照片=记者白钟民

View original image

水冷方式的优势可以立刻感受到。虽然英伟达的“H100”图形处理器(GPU)正在运转,但与其他数据中心相比,这里的噪音大小明显不同。通常参观数据中心时,手腕上的智能手表会警告噪声约为80分贝,而上月21日这里的噪声仅约为60分贝。MKScore 常务 Kim Jonghun 表示:“通过水冷式散热系统为计算机降温,因此噪音较小。”据他介绍,与利用空气散热相比,使用水或润滑油的水冷式散热方式,既能最大化提升数据中心效率,又能降低耗电量和噪音,具备多重优势。


用液体为作为电子产品的服务器降温,在过去几乎不存在。随着人工智能(AI)时代的到来,情况发生了变化。使用高发热 GPU 的服务器数量激增,使得冷却技术备受关注。这与摩托车用空气为发动机散热,而发动机体积更大的汽车则通过散热器用水降温的原理相似。根据 MKScore 的数据,一般风冷服务器平均消耗94千瓦时(kWh)电力,而采用水冷散热后,电费可节省10%以上,仅需约82千瓦时。在耗电量巨大的 AI 服务器环境中,这是一个重要优势。


英伟达最新的“Blackwell”GPU 出现后,水冷散热技术正逐渐成为行业标配。Blackwell GPU 的功耗提高到1000~1200瓦,比以往更高。与现有 H100 GPU 相比,其性能更强,但发热量的增加则是“必要之恶”。采用普通风冷方式难以有效控制这种热量。为 OpenAI 的 ChatGPT 提供计算资源的微软公司表示,其全球首批导入的 Blackwell GB200 服务器,已经率先在全球范围内采用了水冷方式。

采用水冷散热系统的超级计算机连接着软管和管道。右侧软管输送冷却液体,左侧软管则排出带走热量后升温的液体。可以轻易看出,左侧软管的温度明显高于右侧。照片=Baek Jongmin 记者提供

采用水冷散热系统的超级计算机连接着软管和管道。右侧软管输送冷却液体,左侧软管则排出带走热量后升温的液体。可以轻易看出,左侧软管的温度明显高于右侧。照片=Baek Jongmin 记者提供

View original image

引入水冷散热系统后,空间利用度也随之提高。可以取消设置在数据中心外部的大量冷却风扇,取而代之的是需要安装作为冷冻机冷却装置的冷水机组(Chiller)。在 MKScore 办公楼外部也摆放着特制的冷水机组。冷水机组过去主要用于冷冻仓库,如今则被用来服务尖端数据服务器。Kim 常务表示:“冷水机组也很可能出现供应瓶颈,如果不提前下单,可能无法按时拿到设备。”这番话是在提醒,如果要为今后导入新一代 GPU 进行数据中心设计,就必须及早着手准备水冷系统的导入。


与水冷竞争的方式是浸没式液体冷却。即将服务器或计算机整体浸入液体中进行散热。不过,英伟达尚未明确表示直接支持这种方式。英伟达相关负责人通过社交媒体强调,水冷散热是能够容纳下一代 GPU 服务器的数据中心的基本要求。



国内已经有采用水冷散热方式的机构,即运营国家超级计算机的韩国科学技术信息研究院(KISTI)。KISTI 目前采用的是并未将管道直接连接到计算机上的“半水冷”方式。KISTI 国家超级计算本部部长 Lee Sik 表示:“预计即将导入的第6号超级计算机,将不得不采用在系统内部直接连接管道或软管的水冷散热方式。”


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。

不容错过的热点