Meta发布支持1100种语言的语音转文本AI模型

by Lee Seungjin

Published 24 May.2023 08:49(KST)

Meta于24日表示，已将能够识别4000多种语音语言，并可在约1100种语言中实现语音转文本或文本转语音转换的“大规模多语言语音识别（Massively Multilingual Speech，以下简称MMS）”人工智能模型以开源形式公开。

Meta的MMS项目以帮助依赖语音信息的人群在内的更多用户更便捷地获取信息，并用自己希望的语言使用各类设备为目标。据悉，目前地球上使用的语言超过7000种，而以往的语音识别模型最多仅支持一百多种语言，存在明显局限。此次Meta公开的人工智能模型，将可进行语音—文本转换及文本—语音转换的语言数量，从既有的一百多种扩展至1107种，扩大约10倍；可通过语音加以识别的语言数量也增至4000多种，扩展约40倍，具有重要意义。

不仅支持语言数量有所增加，通过MMS项目训练出的人工智能模型，与现有语音转换模型相比，性能也更为优异。Meta的分析结果显示，将语音转换支持语言数量从61种增加到1107种、扩大约18倍时，字符错误率仅增加0.4%。此外，与OpenAI的语音识别模型“Whisper”进行对比后发现，基于MMS数据训练的模型在处理语言数量增加11倍的同时，将词错误率减半。

Meta表示，将通过开源方式公开MMS模型及其代码，以此为语言多样性的保护作出贡献，并推动整个人工智能生态系统的发展与负责任的开发。Meta还计划持续扩大适用语言范围，以构建支持数千种语言的单一语音模型，并致力于解决以既有语音技术难以处理的方言为代表的问题。上述先进语音识别技术有望应用于虚拟现实（VR）、增强现实（AR）技术领域以及消息服务，进而引领创新。