KT“AI Human Studio”使用体验
超100种多样AI语音
实现自然的声音与手势

KT“AI Human Studio”演示现场

KT“AI Human Studio”演示现场

View original image

记者尝试利用KT的人工智能(AI)技术,制作由虚拟人朗读、替代生硬文字稿的语音视频新闻。使用的是KT的“AI Human Studio”服务。该服务于去年11月推出,只要选择虚拟人的面孔和声音,再输入所需文本,就能轻松制作属于自己的视频内容,是一款网页服务。它是通过与生成式AI专业企业C&A AI的技术合作开发的。


AI虚拟人是通过图像生成技术制作的角色,可在不受肖像权和著作权限制的情况下自由用于内容创作。此外,还可以根据讲师、播音员、购物主持人、主持人等多种概念进行选择。根据资费方案不同,可使用6至12名虚拟人,可制作的视频时长和数量也会相应增加。


不过,使用须知中注明,不得在制作的视频中包含辱骂等暴力内容,或像色情内容那样用于非法用途。一旦确认存在非法使用,日后可能会受到服务使用限制。


我想制作的新闻视频内容,是介绍KT面向Genie TV用户,推出由“Milli的书房”制作的原创内容“Object Book”服务。我登录AI Human Studio网站,下载用户指南学习使用方法后开始制作视频。虚拟人方面,我选择了给人以信赖感的“Hyunwoo”这张面孔,并设置为画面中只显示上半身。服装没有选择休闲装,而是换上了正装。声音则选择了音色干净柔和的“Misung”。AI声音种类超过100种,还可以对音调和情感进行细致调节。在选择声音前,可以通过“试听”功能提前听一听,十分方便。


在将新闻稿输入到脚本栏时,我加入了双手合十、引导说明等多种手势。视频中的字幕自然不在话下,而且还能设置虚拟人在朗读文本时,每隔0.2秒停顿一次等细节,体现出很高的精细度。时长1分4秒的一条新闻视频很快就制作完成。随着发音不同,嘴型也随之变化,手势也十分自然,整体显得颇为生动。


不过在英语发音方面略显遗憾。Genie TV没有被读成“Genie TV”,而是按字面读成了类似“Genie Tiv”;“AI”也没有准确读成“A I”,而是听上去像“ae ae”。要解决这类问题,需要利用“智能单词本”功能。智能单词本是用户为每个单词逐一输入正确发音,以防止错误的功能,这一部分需要花费一些精力。


在KT的“AI Voice Studio”中,也可以制作纯音频内容。可使用从10岁以下到60多岁、约100种不同的AI声音。注册免费会员后,每月可制作约4000字文本量的AI语音。AI Voice Studio的付费资费方案包括:Light(月费1.2万韩元)、Super(4.8万韩元)、Super Plus(12万韩元)等。



使用Super及以上资费方案,用户可以用自己的声音制作“My AI Voice”。只要朗读约30句脚本,系统就会识别我的声音,此后无论输入什么文本,都能用我的声音来朗读。不仅支持韩语,还提供英语、日语、中文、西班牙语等多语种服务,看上去也很适合作为企业将自家产品或服务推广到海外的工具。


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。

不容错过的热点