首尔大学工学院计算机工学部的Kim Geonhee教授研究团队,开发出了能够让人工智能(AI)理解并再现人类说话习惯、语气词、打断发言等对话行为的语音对话生成技术。
从左起为 Seoul National University 计算机工学部研究员 Kim Ganguk、Seoul National University 计算机工学部教授 Kim Geonhui、Seoul National University 计算机工学部研究员 Lee Sehun。Seoul National University 提供
View original image在此次研究中,Kim教授团队构建了全球最大规模、基于对话行为的语音数据集“Behavior-SD”,并在此基础上提出了能够进行自然语音对话的AI模型“BeDLM”。
研究团队于2025年4月29日至5月4日在美国新墨西哥州阿尔伯克基举行的“北美计算语言学协会2025年年会(NAACL)”上发表了相关论文,并在语音处理及语音语言理解领域获得了最高论文奖。NAACL是与自然语言处理(NLP)相关的、全球最具权威性的学术会议之一,自然语言处理是人工智能的一个分支,旨在让计算机能够理解和生成人的语言。
研究团队注意到,人们在进行语音对话时,会呈现出在文本对话中不易体现的对话行为。例如,人们在交谈时会使用“嗯…”,“所以说…”之类的说话习惯,在合适的时机插入“对”“嗯”等语气词,有时也会打断对方的发言。然而,未能反映这些特征的既有AI对话系统,其说话方式被认为不自然、带有机械感。研究团队判断,要实现像真实人类一样自然对话的AI,就必须将这些对话行为纳入模型。
为尽可能逼真地还原真实对话环境,研究团队收集了10万种对话模式、总计2000小时的语音对话,构建了数据集。由于这一大规模数据对每位说话者来往的简单句子都标注了细致区分的多种对话行为,因此可以精细地再现人与人之间的自然对话。
研究团队基于如此构建的数据,开发了行为驱动的对话生成模型BeDLM。BeDLM基于大型语言模型(LLM),在输入对话情境和两位说话者的行为模式后,能够轻松生成接近真实人类对话的语音交流。这一AI技术可以自然地调节并体现插入语气词、打断发言的习惯以及说话口癖等对话行为,从而突破既有AI对话系统的局限,生成更加接近人类的语音对话。
预计BeDLM今后将在播客内容制作、咨询类AI、个性化语音助手等需要人机交互与情感反馈的多个领域得到广泛应用。此外,它还有望帮助咨询、教育、照护服务等各类场景中实现人类与AI之间更加顺畅的沟通。与此同时,本次研究中开发的Behavior-SD数据集和代码全部以开源形式公开,海内外研究人员均可自由使用。
Kim教授表示:“进行对话的人通常在说话的同时也保持‘耳朵是打开的’,会根据对方的语音反应和视觉反应进行适应和调整,从而推动对话发展,但迄今为止开发的AI对话生成模型并未能反映这一点,因此我们希望突破这一局限。”他还表示:“本次研究的意义在于,将AI像人类一样自然对话的技术又向前推进了一大步。”
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。