연내 목표 대비 4배 수준

내년부터 산·학·연에 제공

카카오가 정부 GPU 확보 사업을 통해 확보한 엔비디아 그래픽처리장치(GPU) 'B200' 2424장 가운데 2040장을 자사 데이터센터에 조기 구축했다고 29일 밝혔다.

카카오는 지난 8월 정부가 'AI 3대 강국'을 목표로 핵심 인프라인 GPU를 민간에 지원하는 국책 프로젝트인 '그래픽 처리 장치(GPU) 확보 사업'의 최종 사업자로 선정된 이후 최신 GPU 인프라 구축을 빠르게 진행하며 국내 AI 연구·개발 지원에 본격 나선다. 총 2424장의 엔비디아 B200 GPU를 확보해 5년간 위탁 운영하며 국내 AI 연구·개발 환경을 지원할 계획이다.

카카오는 경기도 안산에 위치한 '카카오 데이터센터 안산'을 기반으로 대규모 GPU 인프라를 구축 중이다. 자체 데이터센터 운영 역량과 GPU 클러스터 구축 경험을 바탕으로 당초 계획보다 구축 속도를 크게 앞당겼다. 현재 전체 할당량의 약 84%에 해당하는 255노드, GPU 2040장 구축을 완료했다. 이는 당초 연내 목표였던 64노드 대비 4배를 넘는 수준이다.

조기 구축 성과의 배경에는 데이터센터 안산의 고도화된 인프라가 있다. 카카오는 GPU 확보부터 구축, 운영 준비까지 전 과정에 걸쳐 프로젝트 관리를 강화하고, 공급사와의 협력을 통해 핵심 장비를 조기에 확보했다. 또 사전 기술 검증(PoC)을 통해 실제 가동 단계에서 발생할 수 있는 리스크를 사전에 점검했다.

고집적 GPU 서버 운영을 위한 전력·냉각 인프라도 선제적으로 마련했다. 데이터센터 안산에는 고성능 GPU 서버에서 발생하는 열을 효율적으로 관리하기 위해 '열복도 밀폐 시스템(Hot Aisle Containment System)'을 적용, 냉각 효율을 높였다.

카카오는 하드웨어 인프라 제공에 그치지 않고 AI 모델 개발에 필요한 소프트웨어 환경도 함께 지원한다. 국가 AI 컴퓨팅 자원 지원 포털과 연동된 통합 플랫폼을 통해 이용자가 카카오엔터프라이즈가 운영하는 카카오클라우드에 손쉽게 접속할 수 있도록 했으며, AI 플랫폼 '쿠브플로우(Kubeflow)'를 제공한다.

쿠브플로우는 클라우드 네이티브 환경에서 머신러닝 워크플로우의 개발·학습·배포·추론 전 과정을 쿠버네티스 기반으로 지원하는 플랫폼으로, 연구자가 워크플로우를 자동화하고 클라우드 자원을 효율적으로 활용할 수 있도록 돕는다.

카카오는 현재 구축을 완료한 255노드를 대상으로 네트워크와 성능 테스트를 진행 중이며, 내년 1월 2일부터 과학기술정보통신부와 정보통신산업진흥원이 베타서비스 공모를 통해 선정한 산·학·연 과제에 최신 컴퓨팅 자원을 제공할 예정이다.

김세웅 카카오 AI시너지 성과리더는 "대규모 GPU 인프라를 안정적으로 구축·운영하는 것은 AI 경쟁력의 핵심"이라며 "카카오의 데이터센터와 클라우드 역량을 바탕으로 안정적이고 효율적인 AI 개발 환경을 제공해 국내 AI 생태계 발전에 기여하겠다"고 말했다.





박유진 기자 genie@asiae.co.kr



