KAIST于23日表示,该校电气与电子工程系Kim Changik教授研究团队开发出了超高效率视频识别模型“VideoMamba”。


VideoMamba是为解决现有基于Transformer模型的复杂性而设计的下一代视频识别模型。


传统的基于Transformer的模型依赖自注意力(self-attention)机制,存在计算复杂度按平方级增长的问题。


为解决这一缺点而开发的VideoMamba,在运算量上比基于Transformer的模型降低8倍、内存占用降低4倍的同时,仍能保持较高的准确度,并具备推理速度比传统Transformer模型快4倍的优势。


(自左起)Kim Changik 教授、Park Jinyoung 硕博连读生、Kim Huiseon 博士研究生、Ko Ganguk 博士研究生、Kim Minbeom 博士研究生。KAIST 提供

(自左起)Kim Changik 教授、Park Jinyoung 硕博连读生、Kim Huiseon 博士研究生、Ko Ganguk 博士研究生、Kim Minbeom 博士研究生。KAIST 提供

View original image

尤其是通过利用选择性状态空间模型(Selective State Space Model,指根据输入动态调整参数、使模型能够更好理解序列数据语境的状态空间模型)机制,实现了以线性复杂度进行高效处理。


借此,VideoMamba能够有效捕捉视频的时空信息,高效处理具有长依赖性的视频数据。


为最大化视频识别模型的效率,研究团队还引入了经过高度优化的时空前向与后向选择性状态空间模型(spatio-temporal forward and backward SSM),使VideoMamba能够分析三维时空数据。


该模型能够有效整合无顺序的空间信息与具有顺序的时间信息,从而提升识别性能。


研究团队在多种视频识别基准上验证了VideoMamba的性能,并预测今后VideoMamba有望在需要视频分析的各类应用领域中,提供高效且实用的解决方案。


例如,利用VideoMamba分析自动驾驶中的行驶视频,可以准确把握道路状况,并实时识别行人和障碍物,从而预防事故发生。


研究团队还表示,在医疗领域,通过分析手术视频,可以实时监测患者状态,并在紧急情况发生时迅速应对。


在体育领域,则可在比赛中分析运动员的动作和战术以改进战略,并在训练过程中实时感知疲劳度或受伤可能性,从而起到预防作用。


Kim Changik教授表示:“VideoMamba的高速处理能力、低内存占用,以及相比传统基于Transformer模型更为出色的视频识别性能,使其具备在今后各类视频应用领域得到广泛使用的潜力。”



另外,本次研究在科学技术信息通信部资金支持下,由信息通信企划评价院资助完成。参与研究的有:KAIST电气与电子工程系的Park Jinyoung硕博连读课程、Kim Heeseon博士课程、Ko Kanguk博士课程担任共同第一作者,Kim Minbeom博士课程担任共同作者,Kim Changik教授担任通讯作者。


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。

不容错过的热点