韩国科学技术院11日表示,该校电气及电子工程系研究团队在“IEEE DCASE Challenge 2025”中,参加“基于空间语义的声学场景分割”领域并获得冠军。


(自左至右)Kwon Younghu 硕博连读生、Kim Dohwan 硕士研究生、Choi Jeongwoo 教授、Lee Dongheon 博士。KAIST 提供

(自左至右)Kwon Younghu 硕博连读生、Kim Dohwan 硕士研究生、Choi Jeongwoo 教授、Lee Dongheon 博士。KAIST 提供

View original image

“IEEE DCASE Challenge”被公认为全球最具权威的声学检测与分析竞赛。声音分离及分类技术可在无人机、工厂管道、边境监视系统等场景中及早探测异常声音,也能在制作增强现实(AR)和虚拟现实(VR)内容时,将空间音效按音源进行分离和编辑,是下一代人工智能(AI)的核心技术。


研究团队首次参加该竞赛,在与全球86支队伍、6个赛道的角逐中脱颖而出,夺得世界第一的头衔。


该研究团队由教授 Choi Jeongwoo、博士 Lee Dongheon、硕士 Kwon Younghu、博士一体化课程研究生及硕士课程研究生 Kim Dohwan 组成,在竞赛“基于空间语义的声学场景分割”中的“任务4(Task 4)”赛道接受实力检验。任务4是一个高难度赛道,需要分析多种音源混合的多通道信号的空间信息,将各个声音分离并细分为18类。


研究团队计划参加今年10月在巴塞罗那举行的 DCASE 研讨会,现场发布相关技术。


此前,博士 Lee Dongheon 于今年年初开发出将 Transformer 与 Mamba 架构相结合、具备世界最高性能的音源分离人工智能。此外,在挑战赛期间,以研究员 Kwon Younghu 为核心,团队完成了一种“分阶段推理方式”的 AI 模型:以一次分离得到的音源波形和类别为线索,再次执行音源分离和分类。


这一模型模拟了人类在听到复杂声音时,以声音种类、节奏、方向等特定线索为基础,将各个声音分离出来进行聆听的能力。


研究团队借助该模型,在评估 AI 对声音分离和分类效果的“音源信号与失真比提升度(CA-SDRi)”指标上,成为参赛队伍中唯一达到两位数性能(11dB)的团队,证明了其技术优势。


CA-SDRi 是以分贝(dB)为单位,对比原始音频,衡量特定声音被分离得有多清晰(失真更少)的指标,数值越大,说明声音分离得越准确、越干净。



教授 Choi Jeongwoo 表示:“研究团队在过去3年间持续推出世界顶尖水平的声音分离 AI 模型,此次在挑战赛中也正式获得了对既有成果的认可。尽管是首次参加挑战赛,但凭借专注的研究,堂堂正正夺得世界第一,我为所有团队成员感到自豪。”


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。

不容错过的热点