짧은 녹음으로 고품질 합성음…네이버, 음성합성 기술 공개

40분 음성 데이터로 실제 음성에 가까운 합성음 제작

짧은 녹음으로 고품질 합성음…네이버, 음성합성 기술 공개 원본보기 아이콘


[아시아경제 이진규 기자] 네이버는 짧은 녹음만으로 고품질의 합성음을 제작할 수 있는 클로바 음성합성 기술 'NES'을 공개하고, 이를 기반으로 보이스 비즈니스 서비스를 제공한다고 14일 밝혔다.


NES는 40분 정도의 음성 데이터(약 400문장)로 실제 사람의 음성에 가까운 자연스러운 합성음을 제작할 수 있는 기술이다. 40시간에서 100시간 정도의 음성 데이터가 필요했던 기존과 비교해 쉽고 빠르게 음성 서비스를 개발할 수 있다는 것이 장점이다. 기본 목소리 외에 기쁨·슬픔 등 감정이 반영된 목소리도 제공한다. 클로바 보이스 홈페이지에서 NES 기술로 제작한 음성합성을 체험해볼 수 있다.

네이버는 기업 이용자를 대상으로 NES 기반의 보이스 비즈니스 서비스 '클로바 프리미엄 보이스(CPV)'도 판매하고 있다. 기업 광고와 고객 응대, 오디오 콘텐츠 등 고품질의 합성음이 필요한 서비스에 활용할 수 있으며, 네이버 클라우드 플랫폼에서 유료 API 형태로 제공된다.


김재민 네이버 클로바 Voice 책임리더는 "NES 기술을 통해 누구나 쉽고 편리하게 나만의 보이스 폰트를 제작할 수 있을 것"이라며 "기본 감정 외에도 엄격한 뉴스 앵커 목소리, 부드러운 친구 목소리 등 다양한 감정과 스타일의 합성기를 확대해나가겠다"고 말했다.




이진규 기자 jkme@asiae.co.kr

<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>