“学习时间更短、性能不降”……UNIST公布3D人工智能模型高效训练数据轻量化技术

Published 01 Dec.2025 08:57(KST)

UNIST人工智能研究生院 Shim Jaeyoung 教授团队开发3D点云数据蒸馏技术

同时解决数据顺序不一致与旋转变化问题，通用性能获验证…论文被NeurIPS录用

“笨重的人工智能可以退场了！”UNIST以“速度革命”大幅缩短3D模型训练时间。训练数据量减了，人工智能模型性能还能保持顶级？

在自动驾驶汽车或机器人中充当“眼睛”的物体识别人工智能模型，即便对其需要学习的数据量进行大幅压缩总结，也能保持性能，从而将训练效率最大化的技术已经问世。

这项技术有望大幅降低人工智能模型开发所需的时间和计算成本。

UNIST人工智能研究生院的 Sim Jaeyoung 教授团队开发出一种“数据蒸馏（dataset distillation）”技术，可高效压缩3D点云（Point Cloud）数据，从而提升训练效率。

研究团队成员（自左起）为 Professor Shim Jaeyoung、第一作者研究员 Lim Jaeyoung、第一作者研究员 Kim Dongwook。UNIST 提供

数据蒸馏是一种从大规模训练数据中提取要点，生成新的“摘要数据”的技术。3D点云数据被认为是最难应用数据蒸馏技术的数据形态之一。3D点云数据是用点来表示物体的数据，由于这些点的排列没有固定顺序，而且物体往往处于不同旋转姿态，因此难度极高。

上述特性在生成摘要数据的过程中成为致命障碍。数据蒸馏是通过“比较”原始数据与摘要数据的特征，逐步提升摘要数据的完整度，但由于上述数据特性，无法进行准确的比较（匹配）。结果就会出现错误的区域彼此对比，甚至将同一物体识别为不同物体，从而生成反映错误信息的摘要数据。

研究团队开发出能够解决这一问题的数据蒸馏技术。该技术引入了一种损失函数（SADM），可自动对无固定顺序的点数据的语义结构进行对齐；同时采用方向优化（learnable rotation）方法，使人工智能能够自主优化物体的旋转角度并进行学习。

实验证实，在采用该数据蒸馏技术的情况下，即使将数据量压缩到原始数据的几十分之一，依然可以保持模型精度。尤其是在特定数据集（ModelNet40）上，即便使用仅为原始数据1/25大小的摘要数据进行训练，也取得了80.1％的识别精度，与使用全部数据训练时的87.8％相比差距不大。这表明，即便在高压缩率下，也能在训练效率和性能之间取得良好平衡。

Sim Jaeyoung 教授表示：“本次技术从根本上解决了既有技术因3D点数据的无序结构和旋转不确定性而产生的匹配错误问题”，“有望在自动驾驶、无人机、机器人、数字孪生等需要利用大规模3D数据的领域，大幅降低人工智能训练的成本和时间”。