“理解到图像深处”……Kentec开发推理提示技术

by Min Chanki

Published 01 Oct.2025 10:09(KST)

Lee Seokju 教授的轻量级提示学习设计图。

韩国能源工科大学（KENTECH，校长职务代理 Park Jinho）1日表示，Lee Seokju 教授研究团队开发出一项使视觉—语言模型（Vision Language Model, VLM）能够进行三维空间推理的轻量级提示词学习技术。研究团队将这一技术应用于单目摄像头的深度估计方法，大幅提升了人工智能的空间理解能力。

多模态视觉—语言模型 CLIP 是一种能够同时理解图像和文本的人工智能，在视觉与自然语言处理融合领域得到广泛应用。例如，向模型输入“猫”这一词语，它就能在海量照片中找出猫。但在距离和深度感知等几何空间理解方面，该模型存在局限。

为克服这一问题，研究团队引入了“非人类语言提示词”，即用一种不依赖人类自然语言、而是为机器理解进行最优化设计的新型表达方式。借此，即便只有摄像头拍摄的照片或视频，模型也能精确把握物体的深度。

实验结果显示，本次技术仅依靠约110万个训练参数，就展现出可与现有大型模型（3亿个以上参数）相媲美的性能。所需参数数量减少到原来的约三百分之一，但在几乎不损失性能的前提下，仍然能够实现高效学习。Lee Seokju 教授强调：“这一技术将成为可应用于自动驾驶、机器人视觉、增强现实等必须实现轻量化的各类空间计算领域的核心源头技术。”