一种模仿人类认知方式来理解图像变化、并能同时兼顾视觉泛化能力与特异性的人工智能技术,已在国内研发成功。预计该技术有望应用于医疗影像分析、自动驾驶、机器人等领域,帮助人工智能理解图像并完成目标的分类和检测。
KAIST表示,电气及电子工程系的 Kim Junmo 教授研究团队开发出一种无需变换标签(transformational labels),即可自我学习对变换敏感特征的视觉人工智能模型“STL(Self-supervised Transformation Learning,自监督变换学习)”,相关消息于13日公布。
STL能够自行学习图像变换,相比于由人类直接告知图像变换类型来进行学习的既有方法,其对视觉信息的理解能力更强。此外,该模型还能学习到以往方法难以理解的细粒度特征,性能最高可比传统方法提升42%。
例如,在计算机视觉中,通过图像变换进行数据增强来学习鲁棒的视觉表征,虽然有助于获得良好的泛化能力,但往往会忽视因变换而产生的视觉细节,因此作为通用视觉人工智能模型存在局限。
然而,STL在设计上能够在没有变换标签的情况下学习变换信息,因此可以在无标签条件下学习对变换敏感的特征,并在保持与既有学习方法相当的学习复杂度的同时,实现更优化的学习过程。
实际实验结果表明,STL在目标分类任务中能够进行准确分类,并在检测实验中记录了最低错误率。此外,STL生成的表征空间会根据变换的强度和类型形成清晰的聚类,被认为较好地反映了不同变换之间的关系。
Kim Junmo 教授表示:“STL通过学习复杂的变换模式,并将其有效反映在表征空间中,展示了对变换敏感特征学习的新可能性。能够在无标签条件下学习变换信息的技术,今后将在多种人工智能应用领域发挥核心作用。”
另一方面,本次研究成果(论文)由KAIST电气及电子工程系博士课程在读生 Yoo Jaemyeong 作为第一作者参与,将于本月在顶级国际学术期刊“神经信息处理系统学会(NeurIPS)2024”上发表。
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。