[亚洲经济 Park Hyeongsu 记者] 科斯达克上市公司 MediaZen 21日表示,通过韩国电子通信研究院(ETRI)的研究人员现场支援项目,在原有仅使用单一语音频谱通道的基础上,补充开发出了利用 RGB 三通道的语音频谱。


在识别性能方面达到顶峰的深度学习网络语音识别系统,是以 Transformer 算法为基础的。Transformer 算法通过消化海量训练数据不断提升性能,如今超大规模训练数据已经出现,性能提升幅度也几乎趋于饱和。为了进一步提高语音识别性能,不仅需要在网络架构上进行探索,还需要在语音识别特征提取的新方法等多个技术领域开展研究。


目前应用最广泛的语音识别特征是“对数 Mel 频谱”。其缺点在于无法涵盖语音信号的多种生成过程。由于深度学习网络的特性,输入的特征必须能够分别表达多种语音的特征要素,才能在此基础上进行更为智能的学习。


MediaZen 通过 ETRI 研究人员现场支援项目,利用语音发声模型,将分析得到的声道滤波器信息和信号信息通道化,开发出了具有 RGB 组成要素的彩色频谱。一般而言,声道滤波器信息适合用来表达音素,并且对背景噪声具有相对较强的鲁棒性;信号信息不仅能够体现语音信息,还能很好地表达发声个体的特性。在彩色频谱中,对这些信息进行分析并特征化后,在训练语音识别系统时传递给深度学习网络,帮助人工智能自动选择语音识别所需的特征信息。在基于 Tensorflow 的 DeepSpeech2 语音识别系统上进行的验证实验中,证实其相较于采用传统对数 Mel 频谱的语音识别系统,错误率(ERR)性能提升了20%以上。


MediaZen 常务 Song Mingyu 表示,通过 ETRI 研究人员现场支援项目开发的彩色频谱,不仅可用于语音识别,还可应用于文本转语音(TTS)、说话人分离、情感识别等所有基于语音的领域以及各类音频相关应用领域,使用范围非常广泛。他还表示,在提升语音识别性能方面,有望引入为图像处理而开发的网络架构,从而构建出形式多样且高效的语音识别系统。



Mediazen-ETRI开发三通道语音频谱…AI语音识别性能提升迎来“突破口” View original image


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。

不容错过的热点