为了提高Chat GPT和DeepSeek等超大规模人工智能(AI)模型的GPU使用率并降低训练成本,一种能够进行训练优化仿真(导出最优并行化配置)的技术已在韩国本土开发完成。由于根据如何对训练过程进行并行化和分布式处理,训练时间和成本会发生巨大变化,因此此次研究成果具有重要意义。


大型语言模型是在配备数万块数据中心用GPU的大规模分布式系统上进行训练的,据估算,仅以GPT-4为例,模型训练所消耗的成本就接近1400亿韩元。


KAIST开发用于ChatGPT等模型的学习优化模拟系统 View original image

KAIST表示,电气及电子工程系Yoo Minsoo教授研究团队与三星电子三星综合技术院联合开发出一种可在大规模分布式系统中预测并优化大型语言模型(LLM)训练时间的仿真框架(以下简称vTrain),相关消息于13日公布。


要提高大型语言模型的训练效率,寻找最优的分布式训练策略至关重要。但由于可选策略的组合数量极其庞大,在真实环境中逐一测试各策略性能又需要耗费巨额成本和时间,这成为寻找最优分布式训练策略的一大障碍。


企业在训练大型语言模型时仅采用少数在经验上得到验证的策略,也正是出于这一原因。这不仅导致GPU利用效率不高、额外成本增加,而且由于缺乏面向大规模系统的仿真技术,企业难以及时、有效地解决相关问题。


为此,联合研究团队开发了vTrain,能够精确预测大型语言模型的训练时间,并快速搜索多种分布式并行化策略。


(从左起)KAIST电气与电子工程系Yoo Minsoo教授、Bang Jehyeon博士研究生、Choi Yujeong博士。KAIST提供

(从左起)KAIST电气与电子工程系Yoo Minsoo教授、Bang Jehyeon博士研究生、Choi Yujeong博士。KAIST提供

View original image

将其与多GPU环境下各种大型语言模型的实测训练时间进行对比后验证发现,在单节点(8块A100 GPU)环境中,平均绝对百分比误差(MAPE)为8.37%;在多节点(最多512块A100 GPU)环境中,预测训练时间的精度为14.73%。


联合研究团队预计,vTrain通过提供对多种并行化技术的定量评估以及训练时间预测功能,将有助于在数据中心环境中制定最优分布式训练策略。


联合研究团队表示,通过这一工具,可以最大限度高效利用GPU资源,在降低训练成本的同时,进一步提升大规模AI系统运营的效率。


尤其是,联合研究团队已将vTrain框架及1500余条真实训练时间测量数据以开源形式公开,方便AI研究人员和企业自由使用。


Yoo Minsoo KAIST教授表示:“vTrain作为一种基于性能剖析的仿真技术,相比以往依赖经验的方式,能够探索在提高GPU使用率的同时降低训练成本的训练策略。联合研究团队通过开源发布,期待企业能够利用这一工具高效削减超大规模人工智能模型的训练成本。”



此外,本次研究在韩国研究财团、信息通信企划评价院以及三星电子的支持下完成。研究成果已于去年11月在由美国电气电子工程师学会(IEEE)与计算机协会(ACM)共同主办的微架构国际学术会议(MICRO)上发表。


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。

不容错过的热点