“我是四足行走终极王者”……在无视觉下靠人工智能行走
KAIST开发盲行机器人系统
近期由于三星电子的投资,四足步行机器人备受关注。国内研究团队利用人工智能(AI),开发出即使在黑暗无视野的状况或凹凸不平、障碍物众多的环境中,也能快速行走的四足步行机器人技术。在浓烟弥漫、前方难以看清的灾难现场,该机器人无需额外的视觉或触觉传感器辅助,就能上下楼梯;在树根等崎岖不平的环境中也能不摔倒地移动。
韩国科学技术院(KAIST,卡伊斯特)29日表示,电气及电子工程系的 Myung Hyun 教授研究团队开发出了即使在各种非结构化环境中也能实现强健“盲行(blind locomotion)”的机器人控制技术。
人类在睡梦中醒来后,即便在一片漆黑中走向卫生间,也能完成行走。因为这种“盲行”是可行的,研究团队将该技术命名为“DreamWaQ”,机器人本体则被命名为“DreamWaQer”。
现有的步行机器人控制器是以机构学或动力学模型为基础的,这被称为模型基控制方式。尤其要在田野、山路等非结构化环境中实现稳定行走,就必须更快速地获取模型的特征信息,因此需要大幅强化对周边环境的感知能力,软硬件负担都很大。
研究团队开发的、属于人工智能学习方法之一的深度强化学习型控制器,能够基于从仿真器获取的多种环境数据,快速计算出发送至步行机器人各个电机的合适控制指令。以往,为了让在仿真环境中训练出的控制器在真实机器人上良好运行,还需要额外的调参过程,而此次研究团队开发的控制器无需额外调参,被期待能轻松应用于各类步行机器人。
研究团队开发的控制器 DreamWaQ 大致由两部分构成:一是估计地面与机器人信息的情景(context)估计网络,二是输出控制指令的策略(policy)网络。情景估计网络通过惯性信息和关节信息,隐式估计地面信息,并显式估计机器人的状态;这些信息被输入策略网络,用于输出最优控制指令。两套网络在仿真环境中同步训练。
情景估计网络通过监督学习进行训练,而策略网络则采用深度强化学习方法中的行动者–评论者(actor–critic)方式进行训练。行动者网络只能隐式估计周围地形信息。在仿真环境中,系统可以获取周围地形信息,而掌握这些地形信息的评论者网络会对行动者网络的策略进行评估。
整个训练过程仅耗时约1小时,在真实机器人上只搭载训练完成的行动者网络。机器人在不观测周边地形的情况下,仅利用内部惯性传感器(IMU)与关节角度的测量值,推断所处环境与仿真中哪一种环境相似。当突然遇到台阶等高度差时,在脚尚未接触到高度差之前无法知晓,但一旦脚接触到台阶,就会迅速“想象”出地形信息,并将基于这一推断地形信息生成的合适控制指令发送至各个电机,从而实现快速适应性的行走。
DreamWaQer 机器人不仅在实验室环境中进行了测试,还在路缘石和减速带众多的大学校园环境、树根和碎石较多的野外环境等场景中,通过克服相当于从地面到机身高度约三分之二的台阶,证明了其强健的性能。研究团队还确认,无论环境如何,从0.3米/秒的低速到1.0米/秒的相对高速范围内,机器人都能实现稳定行走。
此次研究成果已被机器人领域世界最高权威学会——将于今年5月下旬在英国伦敦举行的 ICRA(IEEE 国际机器人与自动化会议)录用,并计划在会上发表。
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。