即使没有英伟达GPU也打开了AI训练之路

by Paek Jongmin

Published 19 Sep.2024 08:55(KST)

Updated 19 Sep.2024 15:00(KST)

open/close

KAIST Han Dongsoo教授团队开发
普通电脑也能进行快速AI训练
相比传统数据并行学习性能最高提升至104倍
有望加速学界和中小企业的AI研究与开发

一项无需昂贵的数据中心级图形处理器（GPU）或高速网络，也能高效训练人工智能（AI）模型的技术，已由韩国本土研究团队开发成功。

KAIST电气与电子工程学部教授 Han Dongsu

KAIST（校长 Lee Kwanghyung）19日表示，电气及电子工程系 Park Hyeongdong 教授研究团队开发出一项技术，利用普通消费级GPU，即便在网络带宽受限的分布式环境中，也能将AI模型训练速度提升数十倍到数百倍。

为了训练AI模型，通常需要单价高达数千万韩元的高性能服务器用GPU，如英伟达H100、A100，以及用于连接这些GPU的、具备400Gbps级高速网络的昂贵基础设施。资本雄厚的大型信息技术企业会采购数万块GPU进行AI训练，而大多数企业和研究人员则因成本问题难以引入此类高价基础设施。

为解决这一问题，Park Hyeongdong 教授团队开发了名为“StellaTrain”的分布式训练框架。该技术利用多块高性能普通PC用户所使用的消费级GPU，在带宽比专用高速网络低数百到数千倍的一般互联网环境下，也能实现高效的分布式训练。这项技术解决了在大规模AI模型训练时，如果缺乏高端GPU训练速度会降低数百倍的问题。研究团队解释称，使用StellaTrain技术，相比传统的数据并行训练方式，性能最高可提升104倍。

Park Hyeongdong 教授表示：“本次研究将为让任何人都能轻松开展大规模AI模型训练作出重要贡献”，并称“今后也将持续推进在低成本环境下训练大规模AI模型的相关技术开发”。他已将StellaTrain以开源形式发布在开发者平台“GitHub”上，供任何人使用。