韩国能源工科大学开发提升视觉与语言模型识别率的提示词学习技术

by Min Chanki

Published 13 Nov.2025 10:31(KST)

（自左起）Lee Seokju 韩国能源工科大学教授、Kim Sohee 研究员、Kim Gahyeon 研究员。

韩国能源工科大学（KENTECH）13日表示，该校Lee Seokju教授研究团队在分析数据多样化过程中可能产生的视觉失真基础上，开发出一种新型提示词学习方法，使视觉—语言模型（Vision-Language Model, VLM）只学习图像的本质属性（attribute）。

包括CLIP在内的既有视觉—语言模型可以通过结合图像和文本来理解物体的语义，但在需要精细区分属性的情境下存在局限。

为解决这一问题，研究团队引入了“Delta Meta Token”。该标记通过学习图像之间的相对变化，帮助模型更加精细地区分属性差异。借此，模型在对数据变化不那么敏感的同时，仅学习对目标类别具有意义的属性，从而能够基于属性线索区分视觉上相似的对象。比如，传统方法只学习“狗”这一类别信息，而本研究提出的方法则同时学习耳朵、眼睛、毛发等狗的共通属性。由此，即使狗的品种或背景发生变化，模型也能识别其本质属性，在不同领域的数据上依然保持稳定性能。