“手术模拟更逼真”……UNIST开发可还原手部与物体交互的人工智能

Published 09 Jun.2025 09:29(KST)

Updated 30 Jul.2025 23:45(KST)

open/close

Baek Seungryul 教授团队开发双手与未知物体交互的3D重建技术

有望应用于虚拟·增强现实及机器人控制领域…论文被CVPR 2025录用

一项能够将双手操控陌生物体的场景进行三维复原的人工智能技术已经被开发出来。

即使是在双手与医疗器械交织在一起的模拟手术场景中，也能在增强现实画面中被精准再现。

UNIST 人工智能研究生院 Park Seungryul 教授团队开发出了人工智能模型“BIGS（Bimanual Interaction 3D Gaussian Splatting）”，只需单一 RGB 视频，就能将双手与初次出现的器具之间复杂的交互，以实时三维形式可视化。

研究团队成员左侧为教授 Baek Seungryul 右侧为第一作者研究员 On Jeongwan。UNIST 提供

由于人工智能只接收由摄像头拍摄的二维数据输入，要掌握手与物体的真实位置和立体形状，就必须经过将其重新复原为三维的过程。以往技术要么只能识别一只手，要么只能对应事先扫描过的物体，因此在增强现实或虚拟现实技术中再现具有真实感的交互场景时存在局限。

研究团队开发的 BIGS，即使在手部被遮挡或只露出部分的情况下，也能稳定预测整体形状；对于首次出现的物体，也能利用已经学习到的视觉信息，自然地补全肉眼看不见的部分。此外，无需深度传感器或多视角摄像头，只用一台摄像头拍摄的单一 RGB 视频就能完成上述复原，便于在实际场景中应用。

这一人工智能模型以三维高斯溅射（3D Gaussian Splatting）为基础。高斯溅射是一种将物体形状表示为扩散点云的方式，与以像素为单位、边界清晰的点云方式不同，它能够更自然地复原手与物体接触面等细节。

使用“BIGS”技术从多个视角复原出的手与物体交互结果。

该方式在手部重叠或部分被遮挡时，原本难以推断整体形状，研究团队通过将所有手部统一对齐到一个基准手部结构（Canonical Gaussian）来解决这一问题。同时，还应用了利用预训练扩散模型的得分蒸馏采样（Score Distillation Sampling，SDS）方法，

将视频中看不见的物体背面也一并复原出来。

在实际利用 ARCTIC、HO3Dv3 等国际数据集进行的实验中，BIGS 在手部姿态、物体形状、双手与物体之间接触信息的复原，以及画面再现的渲染质量方面，均表现出优于既有技术的性能。

本次研究由 UNIST 研究员 On Jeongwan 担任第一作者，Gwak Kyunghwan、Kang Geunyoung、Cha Junuk、Hwang Soohyun、Hwang Hyein 研究员作为共同研究者参与。

Park Seungryul 教授表示：“本研究有望在今后虚拟现实（VR）、增强现实（AR）、机器人控制、远程手术模拟等多个领域，被用作实时交互复原技术。”

研究成果已被接收，将在 2025 年 6 月 11 日起为期 5 天、于美国举行的 CVPR（Conference on Computer Vision and Pattern Recognition，计算机视觉与模式识别会议）上发表。CVPR 是计算机视觉领域的权威学术会议。

本研究在科学技术情报通信部韩国研究财团、信息通信规划评价院等机构的支持下完成。

本报道由人工智能(AI)翻译技术生成。