Meta于24日表示,已将能够识别4000多种语音语言,并可在约1100种语言中实现语音转文本或文本转语音转换的“大规模多语言语音识别(Massively Multilingual Speech,以下简称MMS)”人工智能模型以开源形式公开。


Meta的MMS项目以帮助依赖语音信息的人群在内的更多用户更便捷地获取信息,并用自己希望的语言使用各类设备为目标。据悉,目前地球上使用的语言超过7000种,而以往的语音识别模型最多仅支持一百多种语言,存在明显局限。此次Meta公开的人工智能模型,将可进行语音—文本转换及文本—语音转换的语言数量,从既有的一百多种扩展至1107种,扩大约10倍;可通过语音加以识别的语言数量也增至4000多种,扩展约40倍,具有重要意义。


不仅支持语言数量有所增加,通过MMS项目训练出的人工智能模型,与现有语音转换模型相比,性能也更为优异。Meta的分析结果显示,将语音转换支持语言数量从61种增加到1107种、扩大约18倍时,字符错误率仅增加0.4%。此外,与OpenAI的语音识别模型“Whisper”进行对比后发现,基于MMS数据训练的模型在处理语言数量增加11倍的同时,将词错误率减半。


Meta表示,将通过开源方式公开MMS模型及其代码,以此为语言多样性的保护作出贡献,并推动整个人工智能生态系统的发展与负责任的开发。Meta还计划持续扩大适用语言范围,以构建支持数千种语言的单一语音模型,并致力于解决以既有语音技术难以处理的方言为代表的问题。上述先进语音识别技术有望应用于虚拟现实(VR)、增强现实(AR)技术领域以及消息服务,进而引领创新。



另一方面,人工智能既是Meta多种产品和服务的基础,也是实现面向元宇宙中长期愿景的核心技术。Meta正围绕人工智能基础设施建设与人工智能模型高度化、数字营销体验提升等三个领域持续开展人工智能研究与投资。


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。