Lee Seokju 教授的轻量级提示学习设计图。

Lee Seokju 教授的轻量级提示学习设计图。

View original image

韩国能源工科大学(KENTECH,校长职务代理 Park Jinho)1日表示,Lee Seokju 教授研究团队开发出一项使视觉—语言模型(Vision Language Model, VLM)能够进行三维空间推理的轻量级提示词学习技术。研究团队将这一技术应用于单目摄像头的深度估计方法,大幅提升了人工智能的空间理解能力。


多模态视觉—语言模型 CLIP 是一种能够同时理解图像和文本的人工智能,在视觉与自然语言处理融合领域得到广泛应用。例如,向模型输入“猫”这一词语,它就能在海量照片中找出猫。但在距离和深度感知等几何空间理解方面,该模型存在局限。


为克服这一问题,研究团队引入了“非人类语言提示词”,即用一种不依赖人类自然语言、而是为机器理解进行最优化设计的新型表达方式。借此,即便只有摄像头拍摄的照片或视频,模型也能精确把握物体的深度。


实验结果显示,本次技术仅依靠约110万个训练参数,就展现出可与现有大型模型(3亿个以上参数)相媲美的性能。所需参数数量减少到原来的约三百分之一,但在几乎不损失性能的前提下,仍然能够实现高效学习。Lee Seokju 教授强调:“这一技术将成为可应用于自动驾驶、机器人视觉、增强现实等必须实现轻量化的各类空间计算领域的核心源头技术。”



该研究在产业通商资源部、韩国研究财团、韩国天文研究院的支持下开展,并于上月26日在线发表于计算机视觉与机器学习领域的国际权威学术期刊《Pattern Recognition》。


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。