Mediazen-ETRI开发三通道语音频谱…AI语音识别性能提升迎来“突破口”

Published 21 Feb.2023 10:21(KST)

[亚洲经济 Park Hyeongsu 记者] 科斯达克上市公司 MediaZen 21日表示，通过韩国电子通信研究院（ETRI）的研究人员现场支援项目，在原有仅使用单一语音频谱通道的基础上，补充开发出了利用 RGB 三通道的语音频谱。

在识别性能方面达到顶峰的深度学习网络语音识别系统，是以 Transformer 算法为基础的。Transformer 算法通过消化海量训练数据不断提升性能，如今超大规模训练数据已经出现，性能提升幅度也几乎趋于饱和。为了进一步提高语音识别性能，不仅需要在网络架构上进行探索，还需要在语音识别特征提取的新方法等多个技术领域开展研究。

目前应用最广泛的语音识别特征是“对数 Mel 频谱”。其缺点在于无法涵盖语音信号的多种生成过程。由于深度学习网络的特性，输入的特征必须能够分别表达多种语音的特征要素，才能在此基础上进行更为智能的学习。

MediaZen 通过 ETRI 研究人员现场支援项目，利用语音发声模型，将分析得到的声道滤波器信息和信号信息通道化，开发出了具有 RGB 组成要素的彩色频谱。一般而言，声道滤波器信息适合用来表达音素，并且对背景噪声具有相对较强的鲁棒性；信号信息不仅能够体现语音信息，还能很好地表达发声个体的特性。在彩色频谱中，对这些信息进行分析并特征化后，在训练语音识别系统时传递给深度学习网络，帮助人工智能自动选择语音识别所需的特征信息。在基于 Tensorflow 的 DeepSpeech2 语音识别系统上进行的验证实验中，证实其相较于采用传统对数 Mel 频谱的语音识别系统，错误率（ERR）性能提升了20%以上。

MediaZen 常务 Song Mingyu 表示，通过 ETRI 研究人员现场支援项目开发的彩色频谱，不仅可用于语音识别，还可应用于文本转语音（TTS）、说话人分离、情感识别等所有基于语音的领域以及各类音频相关应用领域，使用范围非常广泛。他还表示，在提升语音识别性能方面，有望引入为图像处理而开发的网络架构，从而构建出形式多样且高效的语音识别系统。