KAIST研究团队首次参加IEEE DCASE挑战赛即夺冠

by Jeong Ilwoong

Published 11 Jul.2025 07:50(KST)

韩国科学技术院11日表示，该校电气及电子工程系研究团队在“IEEE DCASE Challenge 2025”中，参加“基于空间语义的声学场景分割”领域并获得冠军。

（自左至右）Kwon Younghu 硕博连读生、Kim Dohwan 硕士研究生、Choi Jeongwoo 教授、Lee Dongheon 博士。KAIST 提供

“IEEE DCASE Challenge”被公认为全球最具权威的声学检测与分析竞赛。声音分离及分类技术可在无人机、工厂管道、边境监视系统等场景中及早探测异常声音，也能在制作增强现实（AR）和虚拟现实（VR）内容时，将空间音效按音源进行分离和编辑，是下一代人工智能（AI）的核心技术。

研究团队首次参加该竞赛，在与全球86支队伍、6个赛道的角逐中脱颖而出，夺得世界第一的头衔。

该研究团队由教授 Choi Jeongwoo、博士 Lee Dongheon、硕士 Kwon Younghu、博士一体化课程研究生及硕士课程研究生 Kim Dohwan 组成，在竞赛“基于空间语义的声学场景分割”中的“任务4（Task 4）”赛道接受实力检验。任务4是一个高难度赛道，需要分析多种音源混合的多通道信号的空间信息，将各个声音分离并细分为18类。

研究团队计划参加今年10月在巴塞罗那举行的 DCASE 研讨会，现场发布相关技术。

此前，博士 Lee Dongheon 于今年年初开发出将 Transformer 与 Mamba 架构相结合、具备世界最高性能的音源分离人工智能。此外，在挑战赛期间，以研究员 Kwon Younghu 为核心，团队完成了一种“分阶段推理方式”的 AI 模型：以一次分离得到的音源波形和类别为线索，再次执行音源分离和分类。

这一模型模拟了人类在听到复杂声音时，以声音种类、节奏、方向等特定线索为基础，将各个声音分离出来进行聆听的能力。

研究团队借助该模型，在评估 AI 对声音分离和分类效果的“音源信号与失真比提升度（CA-SDRi）”指标上，成为参赛队伍中唯一达到两位数性能（11dB）的团队，证明了其技术优势。

CA-SDRi 是以分贝（dB）为单位，对比原始音频，衡量特定声音被分离得有多清晰（失真更少）的指标，数值越大，说明声音分离得越准确、越干净。