年内目标的4倍水平
从明年起向产学研提供
Kakao通过政府图形处理器(GPU) 확보 사업(GPU 확보项目)所获得的2424块英伟达图形处理器(GPU)B200中,有2040块已提前在自家数据中心完成部署,Kakao于29日对此予以公布。
Kakao在今年8月被选定为以“AI三大强国”为目标、由政府向民间提供作为核心基础设施的GPU资源的国家项目——“图形处理器(GPU) 확보 사업”的最终承接方之后,迅速推进最新GPU基础设施建设,正式开始支持韩国国内的人工智能研究与开发。公司计划在未来5年内托管运营共2424块英伟达B200 GPU,以支撑国内人工智能研发环境。
Kakao正以位于京畿道安山的“Kakao数据中心安山”为基础,构建大规模GPU基础设施。凭借自有数据中心运营能力和GPU集群建设经验,大幅提前了原定建设进度。目前已完成约占整体分配量84%的255个节点、2040块GPU的部署。这一规模是原本年内目标64个节点的4倍以上。
提前建成的背后,是数据中心安山的高度先进基础设施。Kakao在从GPU采购到建设、运营准备的全流程中强化项目管理,并通过与供应商合作提前锁定核心设备。同时还通过事前技术验证(PoC),预先排查实际运行阶段可能出现的风险。
为运营高密度GPU服务器所需的电力与冷却基础设施也提前到位。数据中心安山为高性能GPU服务器产生的热量实现高效管理,引入了“热通道封闭系统(Hot Aisle Containment System)”,以提升冷却效率。
Kakao不仅提供硬件基础设施,还同步支持人工智能模型开发所需的软件环境。通过与国家人工智能算力资源支撑门户联动的一体化平台,使用户可以便捷接入由Kakao Enterprise运营的Kakao Cloud,并提供人工智能平台“Kubeflow”。
Kubeflow是一款在云原生环境中,基于Kubernetes为机器学习工作流的开发、训练、部署与推理全流程提供支持的平台,可帮助研究人员实现工作流自动化,并高效利用云端资源。
Kakao目前正针对已建成的255个节点进行网络与性能测试,并计划自明年1月2日起,向由科学技术信息通信部和信息通信产业振兴院通过测试服务公开招募方式选定的产学研项目提供最新计算资源。
Kakao人工智能协同成果负责人 Kim Sewoong 表示:“稳定构建并运营大规模GPU基础设施,是人工智能竞争力的关键”,并称“我们将以Kakao的数据中心和云能力为基础,提供稳定且高效的人工智能开发环境,为韩国国内人工智能生态的发展作出贡献”。
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。