KAIST Han Dongsoo教授团队开发
普通电脑也能进行快速AI训练
相比传统数据并行学习性能最高提升至104倍
有望加速学界和中小企业的AI研究与开发

一项无需昂贵的数据中心级图形处理器(GPU)或高速网络,也能高效训练人工智能(AI)模型的技术,已由韩国本土研究团队开发成功。

KAIST电气与电子工程学部教授 Han Dongsu

KAIST电气与电子工程学部教授 Han Dongsu

View original image

KAIST(校长 Lee Kwanghyung)19日表示,电气及电子工程系 Park Hyeongdong 教授研究团队开发出一项技术,利用普通消费级GPU,即便在网络带宽受限的分布式环境中,也能将AI模型训练速度提升数十倍到数百倍。


为了训练AI模型,通常需要单价高达数千万韩元的高性能服务器用GPU,如英伟达H100、A100,以及用于连接这些GPU的、具备400Gbps级高速网络的昂贵基础设施。资本雄厚的大型信息技术企业会采购数万块GPU进行AI训练,而大多数企业和研究人员则因成本问题难以引入此类高价基础设施。


为解决这一问题,Park Hyeongdong 教授团队开发了名为“StellaTrain”的分布式训练框架。该技术利用多块高性能普通PC用户所使用的消费级GPU,在带宽比专用高速网络低数百到数千倍的一般互联网环境下,也能实现高效的分布式训练。这项技术解决了在大规模AI模型训练时,如果缺乏高端GPU训练速度会降低数百倍的问题。研究团队解释称,使用StellaTrain技术,相比传统的数据并行训练方式,性能最高可提升104倍。


Park Hyeongdong 教授表示:“本次研究将为让任何人都能轻松开展大规模AI模型训练作出重要贡献”,并称“今后也将持续推进在低成本环境下训练大规模AI模型的相关技术开发”。他已将StellaTrain以开源形式发布在开发者平台“GitHub”上,供任何人使用。



本研究由KAIST的 Lim Huijun 博士、博士研究生 Ye Junchul,以及加州大学欧文分校的 Sangeetha Abdu Jyothi 教授共同参与完成,研究成果已于2024年8月在澳大利亚悉尼举行的ACM SIGCOMM 2024大会上发表。


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。

不容错过的热点