“我是四足行走终极王者”……在无视觉下靠人工智能行走

Published 29 Mar.2023 08:09(KST)

Updated 29 Mar.2023 08:29(KST)

open/close

KAIST开发盲行机器人系统

近期由于三星电子的投资，四足步行机器人备受关注。国内研究团队利用人工智能（AI），开发出即使在黑暗无视野的状况或凹凸不平、障碍物众多的环境中，也能快速行走的四足步行机器人技术。在浓烟弥漫、前方难以看清的灾难现场，该机器人无需额外的视觉或触觉传感器辅助，就能上下楼梯；在树根等崎岖不平的环境中也能不摔倒地移动。

韩国科学技术院（KAIST，卡伊斯特）29日表示，电气及电子工程系的 Myung Hyun 教授研究团队开发出了即使在各种非结构化环境中也能实现强健“盲行（blind locomotion）”的机器人控制技术。

人类在睡梦中醒来后，即便在一片漆黑中走向卫生间，也能完成行走。因为这种“盲行”是可行的，研究团队将该技术命名为“DreamWaQ”，机器人本体则被命名为“DreamWaQer”。

现有的步行机器人控制器是以机构学或动力学模型为基础的，这被称为模型基控制方式。尤其要在田野、山路等非结构化环境中实现稳定行走，就必须更快速地获取模型的特征信息，因此需要大幅强化对周边环境的感知能力，软硬件负担都很大。

研究团队开发的、属于人工智能学习方法之一的深度强化学习型控制器，能够基于从仿真器获取的多种环境数据，快速计算出发送至步行机器人各个电机的合适控制指令。以往，为了让在仿真环境中训练出的控制器在真实机器人上良好运行，还需要额外的调参过程，而此次研究团队开发的控制器无需额外调参，被期待能轻松应用于各类步行机器人。

研究团队开发的控制器 DreamWaQ 大致由两部分构成：一是估计地面与机器人信息的情景（context）估计网络，二是输出控制指令的策略（policy）网络。情景估计网络通过惯性信息和关节信息，隐式估计地面信息，并显式估计机器人的状态；这些信息被输入策略网络，用于输出最优控制指令。两套网络在仿真环境中同步训练。

情景估计网络通过监督学习进行训练，而策略网络则采用深度强化学习方法中的行动者–评论者（actor–critic）方式进行训练。行动者网络只能隐式估计周围地形信息。在仿真环境中，系统可以获取周围地形信息，而掌握这些地形信息的评论者网络会对行动者网络的策略进行评估。

整个训练过程仅耗时约1小时，在真实机器人上只搭载训练完成的行动者网络。机器人在不观测周边地形的情况下，仅利用内部惯性传感器（IMU）与关节角度的测量值，推断所处环境与仿真中哪一种环境相似。当突然遇到台阶等高度差时，在脚尚未接触到高度差之前无法知晓，但一旦脚接触到台阶，就会迅速“想象”出地形信息，并将基于这一推断地形信息生成的合适控制指令发送至各个电机，从而实现快速适应性的行走。

DreamWaQer 机器人不仅在实验室环境中进行了测试，还在路缘石和减速带众多的大学校园环境、树根和碎石较多的野外环境等场景中，通过克服相当于从地面到机身高度约三分之二的台阶，证明了其强健的性能。研究团队还确认，无论环境如何，从0.3米/秒的低速到1.0米/秒的相对高速范围内，机器人都能实现稳定行走。