搭载OpenAI大脑的人形机器人“Figure 01”
能理解人类意图并行动…“我做得还挺不错吧”
类人型机器人“Figure 01”仅凭一段时长2分34秒的视频便一举成名。它的动作自然得仿佛叠加了电脑图形(CG),同时还展示出自主思考和行动的样子。因此,有评价称,这是在类人机器人初创公司Figure AI宣布与ChatGPT开发商OpenAI展开合作仅两周后推出的成果,令人惊叹。
先来看递苹果的动作。看似简单,但对机器人而言却要经历许多步骤。首先,要听懂“有什么可以吃的吗?”这一问题,就需要语言能力。接着要看向桌面,并具备区分物体的认知能力。随后还需在杯子、盘子、苹果之间判断出哪个是能吃的。将苹果拿起并自然地递给人类这一物理动作,又是另一大领域。
推理下一步行为并评价自身行为的表现也令人印象深刻。当被问到“要把前面的盘子移到哪里”时,Figure 01回答“应该放到旁边的餐具沥水架上”,并付诸行动。实验者把垃圾撒在桌上时,即便没有下达指令,它也主动将垃圾捡起装好。面对“你如何评价自己的行为”这一提问,它还打趣道“好像做得还挺不错”,说话语气也不是生硬的机械音,而是还会结巴,显得相当自然。
与去年3月首次公开时相比,Figure 01可谓取得了长足进步。当时它只能用双腿行走、把箱子搬运到传送带上等,执行的只是相对简单的任务。随后在上个月,便突然获得了来自OpenAI、微软(Microsoft)、英伟达(Nvidia)等约9000亿韩元的投资。它将与OpenAI共同开发下一代人工智能机器人,并获得微软在基础设施方面的支持。
与OpenAI合作搭载“聪明大脑”……大规模语言模型(LLM)的力量
原本只会做简单动作的Figure 01之所以能迅速成长,原因就在这里。随着搭载OpenAI的人工智能模型,它拥有了强大的“大脑”。机器人搭载大规模语言模型(LLM),其意义远不止“性能更好”这么简单,而是连机器人训练方式本身都发生了改变。
过去,要教会机器人一项任务需要花费很长时间。若要让它执行特定工作,就必须将每一个动作都编程。例如,要清理洒出的可乐。在这种情况下,必须逐一训练它:▲要知道洒出的可乐是需要清理的对象,▲要拿起可乐罐,▲要寻找可以擦拭可乐的物品等。如果洒出的不是可乐而是水,或者装载容器不是罐子而是玻璃杯,就得另行教它。
搭载LLM之后,情况就不同了。借助海量文本信息以及机器人所看到的视觉信息,机器人可以自主学习并执行各种技能。正如基于LLM的ChatGPT无需分别学习电子邮件写作方法和小说写作方法一样,基于LLM的机器人也能自行决定完成新任务所需的工具和动作。Figure AI方面表示:“Figure 01的动作是机器人亲自观察、判断后作出的行为”,“它可以规划下一步行动,并在结合记忆的基础上,用逻辑清晰地解释自己的想法”。
谷歌在去年7月公开的人工智能机器人“RT-2”也是同样的原理。RT-2在铺开美国、德国等国国旗的情境下,能够利落地完成“把大众牌玩具汽车放在德国国旗前面”这一复杂指令。由于它从海量数据中习得了知识,因此即便没有单独接受关于德国国旗和大众汽车的训练,也能知道它们分别是什么。Maeum AI技术部门代表Choi Hongseop表示:“得益于基础模型,善于做人工智能的公司也能够把机器人做好”,“机器人的能力提升速度将会加快”。
※术语说明:基础模型(Foundation Models)
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。