UNIST Joo Kyungdon 教授团队利用消失点开发可考虑透视法的人工神经网络模型
有望应用于低成本摄像头自动驾驶和机器人系统,论文被 IROS 2025 录用
一种让基于摄像头的自动驾驶汽车能够更准确感知周围环境的人工智能技术问世了。
该技术利用了为图像赋予透视感的几何装置——“消失点”。
蔚山科学技术院(UNIST)人工智能研究生院 Joo Kyungdon 教授团队15日表示,他们开发出一种名为“VPOcc”的人工智能模型,用于补偿通过摄像头输入信息时产生的透视畸变问题。
自动驾驶汽车和机器人的人工智能通过摄像头或激光雷达(LiDAR)传感器来感知周围环境。与激光雷达相比,摄像头价格更低、重量更轻,并且能够提供颜色、形状等丰富信息,但由于是用二维图像来呈现三维空间,因此随距离变化的尺度畸变非常明显。
近处物体看上去更大,远处物体看上去更小,从而导致漏检远处物体,或仅强调近处区域的错误。
研究团队通过让人工智能以消失点为基准重构信息,解决了这一问题。消失点是文艺复兴时期画家确立的一种赋予画面透视感的技法,指的是车道线或铁轨等在现实中彼此平行的线条在远处看上去会相交的那个点。就像人们通过画布上的消失点在平面上感受到纵深一样,所开发的人工智能模型以消失点为基准,更准确地还原摄像画面中的深度和距离。
该模型主要由三大模块构成:以消失点为基准对图像进行校正、减小透视畸变的模块(VPZoomer),在远近区域中均衡提取信息的模块(VPCA),以及融合原始图像与校正图像、相互弥补短板的模块(SVF)。
实验结果表明,VPOcc在多项基准测试中,无论是空间理解能力(mIoU)还是还原能力(IoU),性能都优于现有模型。尤其是在对自动驾驶至关重要的道路环境中,该模型能够更加清晰地预测远处目标,并更准确地区分相互重叠的目标。
本次研究由 UNIST 研究员 Kim Junsu 作为第一作者主导,研究员 Lee Junhee(UNIST)以及美国卡内基梅隆大学研究团队共同参与。
研究员 Kim Junsu 表示:“我们认为,如果将人类感知空间的方式应用到人工智能上,将能更高效地理解三维空间,因此启动了这项研究。这一成果有望最大化在价格竞争力和轻量化方面优于激光雷达传感器的摄像头传感器的应用价值。”
教授 Joo Kyungdon 也表示:“所开发的技术不仅可以应用于机器人、自动驾驶系统,还可以拓展到增强现实(AR)地图制作等多个领域。”
这一研究成果于今年3月在第31届三星人类技术论文大奖中获得银奖,并被智能机器人领域权威学会——2025年智能机器人与系统国际会议(International Conference on Intelligent Robots and Systems,IROS 2025)录用。今年的大会将于本月19日至25日在中国杭州举行。
该研究在科学技术信息通信部和韩国研究财团的支持下完成。
(论文题目:VPOcc: Exploiting Vanishing Point for 3D Semantic Occupancy Prediction)
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。