Joo Gyeongdon教授团队开发出可从全景图像中同时提取空间与物体信息的人工智能

可应用于增强·混合现实、数字孪生等领域…获计算机视觉权威学会CVPR 2025录用

仅凭一张360度全景照片就能获取室内空间和物体三维信息的人工智能(AI)技术已经被开发出来。


预计这一技术将被应用于增强现实(AR)、混合现实(MR)、数字孪生等对精确理解空间信息至关重要的领域。


蔚山科学技术院(UNIST)人工智能研究生院的 Joo Kyungdon 教授团队于1日表示,他们开发出一款AI模型“HUSH(Holistic Panoramic 3D Scene Understanding using Spherical Harmonics,全景三维场景整体理解模型)”,能够从360度全景图像中同时提取空间结构和内部物体的三维信息。

研究团队成员左为 Joo Kyungdon 教授 右为 Lee Jongsung 研究员。UNIST 提供

研究团队成员左为 Joo Kyungdon 教授 右为 Lee Jongsung 研究员。UNIST 提供

View original image

在增强现实(AR)或混合现实(MR)技术中,要将现实空间与数字内容融合,AI必须能够准确理解并表达墙壁或家具的位置、物体之间的距离信息等。为此,以往必须依赖从多个角度拍摄的多张照片,或深度传感器等高价设备。


本次开发的 HUSH 仅利用360度全景图像就能获取上述信息。全景图像相比普通照片能在一张画面中容纳更广的范围,但由于呈现为圆形畸变的球面结构,AI很难对其进行精确分析。现有方法是将图像切分以减小畸变,再反复应用通用AI模型,但在这一过程中容易造成信息损失,且运算效率低下。


为解决这一问题,研究团队采用了一种能够精准反映全景图像球面特性的数学表达方式——“球面调和函数(Spherical Harmonics, SH)”。该方法将球形表面的信息按频率成分加以分解和分析。像天花板或地板这类宽广平坦的区域用低频成分表示,而家具或物体轮廓等细节复杂的结构则用高频成分表示,从而提高精度。


第一作者、研究员 Lee Jongsung 表示:“球面调和函数原本主要用于虚拟视图生成领域,用来表达对象或场景的色彩感受。我们基于其能够高效分析球面数据这一特性,首次将其应用于基于全景图像的空间重建。”


HUSH 模型在深度预测等方面的精度优于现有其他三维场景重建模型,而且能够仅凭一张图像同时预测多种空间信息,计算效率也十分出色。


Joo Kyungdon 教授表示:“这一技术可广泛应用于需要精确感知用户周围室内空间的AR、MR场景,或从单张图像生成可与用户交互的沉浸式媒体等实际生活领域。”

可在单张全景图像中推理出深度、法线等空间信息的人工智能模型。

可在单张全景图像中推理出深度、法线等空间信息的人工智能模型。

View original image

该研究已被计算机视觉领域权威学术会议——2025年计算机视觉与模式识别会议(CVPR 2025,Conference on Computer Vision and Pattern Recognition)录用。CVPR 2025 于上月11日起在美国纳什维尔举行,为期5天。





本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。

不容错过的热点