一种将人工智能语音合成(TTS)的音质,从以往电话通话水准提升到可媲美高音质流媒体音源的录音棚级别音质的技术已经出现。


语音人工智能初创公司Humelo于14日表示,已通过自主开发的超高速上采样技术,将TTS服务的音质从原先的24kHz升级为48kHz并对外提供。

Humelo 将 AI 语音提升至“录音棚”级音质 View original image

数字音频的音质取决于采样率(Hz),即每秒将声音信号切分得多细。通常电话通话或一般人工智能聊天机器人使用的16kHz音质,虽然可以听清说话内容,但会夹杂噪音,给人机械感。相比之下,48kHz是当前音乐流媒体、电影、广播、游戏等大部分媒体内容制作所采用的标准规格,能够提供清晰、质感丰富的声音。


一直以来,业界之所以对实现48kHz高音质TTS有所顾忌,是因为难以大规模获取48kHz高品质原始音频数据,而且高音质处理所需的庞大运算量和基础设施维护成本会推高服务单价。为解决这一问题,Humelo自主开发了“语音超分辨率上采样”技术,将低音质语音数据还原为超高分辨率的高音质。本次Humelo公开的技术,甚至可以把8kHz这一极低音质提升到48kHz的录音棚级音质。



Humelo首席执行官Kwon Yongseok表示:“在技术水平较低时,TTS需求并不大,而在技术进步之后,高音质化的应用又因成本问题推进缓慢。Humelo自主开发的超高速、高品质语音人工智能技术,将以合理成本,为此前因费用问题而犹豫是否引入高品质TTS的所有创作者和企业,打开全新的体验与可能性。”


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。