连“贫嘴”都会的机器人…短短两周大变样的秘密是啥 [AI 一口新闻]

by Choi Yuri

Published 16 Mar.2024 14:00(KST)

搭载OpenAI大脑的人形机器人“Figure 01”
能理解人类意图并行动…“我做得还挺不错吧”

类人型机器人“Figure 01”仅凭一段时长2分34秒的视频便一举成名。它的动作自然得仿佛叠加了电脑图形（CG），同时还展示出自主思考和行动的样子。因此，有评价称，这是在类人机器人初创公司Figure AI宣布与ChatGPT开发商OpenAI展开合作仅两周后推出的成果，令人惊叹。

先来看递苹果的动作。看似简单，但对机器人而言却要经历许多步骤。首先，要听懂“有什么可以吃的吗？”这一问题，就需要语言能力。接着要看向桌面，并具备区分物体的认知能力。随后还需在杯子、盘子、苹果之间判断出哪个是能吃的。将苹果拿起并自然地递给人类这一物理动作，又是另一大领域。

推理下一步行为并评价自身行为的表现也令人印象深刻。当被问到“要把前面的盘子移到哪里”时，Figure 01回答“应该放到旁边的餐具沥水架上”，并付诸行动。实验者把垃圾撒在桌上时，即便没有下达指令，它也主动将垃圾捡起装好。面对“你如何评价自己的行为”这一提问，它还打趣道“好像做得还挺不错”，说话语气也不是生硬的机械音，而是还会结巴，显得相当自然。

与去年3月首次公开时相比，Figure 01可谓取得了长足进步。当时它只能用双腿行走、把箱子搬运到传送带上等，执行的只是相对简单的任务。随后在上个月，便突然获得了来自OpenAI、微软（Microsoft）、英伟达（Nvidia）等约9000亿韩元的投资。它将与OpenAI共同开发下一代人工智能机器人，并获得微软在基础设施方面的支持。

与OpenAI合作搭载“聪明大脑”……大规模语言模型（LLM）的力量

图片由AP韩联社提供

原本只会做简单动作的Figure 01之所以能迅速成长，原因就在这里。随着搭载OpenAI的人工智能模型，它拥有了强大的“大脑”。机器人搭载大规模语言模型（LLM），其意义远不止“性能更好”这么简单，而是连机器人训练方式本身都发生了改变。

过去，要教会机器人一项任务需要花费很长时间。若要让它执行特定工作，就必须将每一个动作都编程。例如，要清理洒出的可乐。在这种情况下，必须逐一训练它：▲要知道洒出的可乐是需要清理的对象，▲要拿起可乐罐，▲要寻找可以擦拭可乐的物品等。如果洒出的不是可乐而是水，或者装载容器不是罐子而是玻璃杯，就得另行教它。

搭载LLM之后，情况就不同了。借助海量文本信息以及机器人所看到的视觉信息，机器人可以自主学习并执行各种技能。正如基于LLM的ChatGPT无需分别学习电子邮件写作方法和小说写作方法一样，基于LLM的机器人也能自行决定完成新任务所需的工具和动作。Figure AI方面表示：“Figure 01的动作是机器人亲自观察、判断后作出的行为”，“它可以规划下一步行动，并在结合记忆的基础上，用逻辑清晰地解释自己的想法”。

必读新闻

三星放缓之际猛然追上…中国D램一年内转亏为盈

谷歌在去年7月公开的人工智能机器人“RT-2”也是同样的原理。RT-2在铺开美国、德国等国国旗的情境下，能够利落地完成“把大众牌玩具汽车放在德国国旗前面”这一复杂指令。由于它从海量数据中习得了知识，因此即便没有单独接受关于德国国旗和大众汽车的训练，也能知道它们分别是什么。Maeum AI技术部门代表Choi Hongseop表示：“得益于基础模型，善于做人工智能的公司也能够把机器人做好”，“机器人的能力提升速度将会加快”。