发布含语音功能在内的4种大规模语言模型
Krafton于2日推出人工智能(AI)模型品牌“Raon”,并将其语言·语音模型及视觉编码器以开源形式在全球平台Hugging Face上公开。
Raon这一名称源自意为“快乐”的固有词“Raon”,英文名则利用公司名称中的部分字母组合而成。品牌蕴含着通过AI技术创造游戏本质乐趣的理念,Krafton计划以Raon为核心强化其在全球AI技术领域的竞争力。
此次以开源形式公开的模型包括Raon-Speech、Raon-SpeechChat、Raon-OpenTTS、Raon-VisionEncoder等。根据Krafton介绍,Raon-Speech是在文本中心语言模型基础上扩展而成,能够理解并生成语音,参数规模为90亿,在参数低于100亿级别的公开语音语言模型中,其英文与韩语性能均位列全球第一。这一结果来自对语音-文本转换、基于语音的问答等7个核心任务及40个基准测试进行综合评估,并将各任务平均排名以相同权重进行反映。
Raon-SpeechChat是国内首个发布的实时双向语音模型,用户与模型在对话过程中可自由打断与插话。在3项双向通信模型评估基准中,该模型在附和、插话处理、响应延迟时间等13个主要任务的平均排名方面,展现出全球顶尖水准。仅利用公开语音数据训练的文本转语音模型Raon-OpenTTS,也在盲测评估中与全球研究用TTS模型相比展现出最顶级性能。此前难以利用的部分数据由Krafton自行收集和清洗后公开,整体训练数据也设置为任何人都可在相同环境下复现。
Raon-VisionEncoder则负责将图像转换为AI可理解的信息,与语言模型结合后即可处理视觉信息。Krafton称,该模型自始至终采用自主学习方式开发,在部分视觉识别任务上,性能超过了谷歌的代表性视觉编码器模型SigLIP2,在其他任务中也达到SigLIP2 90%以上的性能。相关技术还将应用于“自主AI基础模型”项目。
Krafton首席AI负责人(CAIO)Lee Kanguk表示:“此次Raon模型系列的公开,是我们不断积累AI技术能力过程中的重要里程碑。通过将大规模训练数据和核心模型以开源形式共享,希望研究人员和开发者能够自由加以利用,并期待为多模态技术的发展以及国内AI生态系统的成长作出贡献。”
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。