韩国能源工科大学(KENTECH)13日表示,该校Lee Seokju教授研究团队在分析数据多样化过程中可能产生的视觉失真基础上,开发出一种新型提示词学习方法,使视觉—语言模型(Vision-Language Model, VLM)只学习图像的本质属性(attribute)。
包括CLIP在内的既有视觉—语言模型可以通过结合图像和文本来理解物体的语义,但在需要精细区分属性的情境下存在局限。
为解决这一问题,研究团队引入了“Delta Meta Token”。该标记通过学习图像之间的相对变化,帮助模型更加精细地区分属性差异。借此,模型在对数据变化不那么敏感的同时,仅学习对目标类别具有意义的属性,从而能够基于属性线索区分视觉上相似的对象。比如,传统方法只学习“狗”这一类别信息,而本研究提出的方法则同时学习耳朵、眼睛、毛发等狗的共通属性。由此,即使狗的品种或背景发生变化,模型也能识别其本质属性,在不同领域的数据上依然保持稳定性能。
尽管该方法只在预训练CLIP模型上新增了最少量参数,属于轻量级结构,但在11个基准数据集上已超越现有提示词学习方法,表现出较高的泛化性能。即便给出新的类别或领域,模型仍能维持稳定识别,有望应用于自动驾驶、机器人视觉、工业影像异常检测等需要基于属性进行视觉识别的多个领域。
共同第一作者研究员Kim Gahyun表示:“在KENTECH实验室自主且协作的研究环境中,能够积极挑战新想法,这对本次研究帮助很大。今后将通过人工智能代理协作研究,探索自主智能机器人的扩展可能性。”
本研究在产业通商资源部和韩国研究财团的支持下完成,并于上月23日在线发表在计算机视觉与机器学习领域国际权威学术期刊《Pattern Recognition》(Elsevier)上。
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。