by Choi Yuri
Published 22 May.2024 16:12(KST)
“给机器人展示一个新动作,仅仅过了20分钟它就学会了。把人工智能(AI)与机器人结合后,我们得以快速扩展作业能力。”
纽约大学计算机与计算科学系教授 Lerrel Pinto 22日在首尔中区小公洞乐天酒店举行的“2024亚洲未来企业论坛”上作出上述表示。Pinto 教授以“构建通用机器人基础”为主题进行了特别演讲。
Rethel Pinto 纽约大学教授22日在首尔中区乐天酒店举行、由《亚洲经济》主办的“2024亚洲未来企业论坛”上通过视频进行特别演讲。照片=记者 Kim Hyunmin kimhyun81@
View original imagePinto 教授是一位专注于机器人机器学习研究的青年学者,正利用人工智能模型开发可在日常生活中使用的通用机器人。他在去年入选《麻省理工科技评论》评选的“35岁以下创新者”,最近又创办了“Fauna Robotics”,备受关注。
Pinto 教授以孩子收拾玩具的视频来说明行为基础上的逻辑模型。要收拾玩具,首先要理解并区分散落在客厅里的各种物品。人工智能也是如此。当我们向人工智能模型下达“画出在海边悠闲休息的人们”这样的指令时,它之所以能够给出逼真的结果,是因为逻辑模型在发挥作用。模型会先分析和理解海边存在的各种事物,再据此生成结果。
若要让机器人像孩子一样收拾玩具,就必须经过学习。也就是向一张“白纸”般空白的模型中输入海量数据。再利用这一模型生成更多数据,并在此过程中不断修正错误,反复迭代。Pinto 教授解释称:“在机器人系统中,同样要让模型学习大量数据,然后观察它如何识别和操作从未见过的物体。相关研究虽已大幅拓展,但距离在家庭中普遍使用机器人仍有差距。”
Pinto 教授将原因归结为数据问题。对人工智能或机器人模型输入的数据越多,错误就越少,但数据本身仍然不够充分。无论收集多少数据,都难以真正代表现实世界。
Pinto 教授的研究室从动物行为中寻找解决问题的线索。他以教猫按下门把手开门的情景为例。猫并不了解“门把手”这一概念,但人类可以通过示范按压动作并在其模仿后给予奖励等方式进行互动,从而教会这一动作。也就是说,人类为特定行为构建了数据,而猫对其进行了学习。Pinto 教授表示:“如果把这一方式应用到机器人学中,就是在既有算法上加入了关于开门这一行为的新知识。我们正在进一步研究,让其在与学习环境不同的情境下也能完成相应行为。”
Rettl Pinto 纽约大学教授22日在首尔中区乐天酒店,以视频连线方式在亚洲经济主办的“2024亚洲未来企业论坛”上进行特别演讲。照片=记者 金贤民 提供
View original imagePinto 教授强调,要推动机器人技术如此发展,人工智能模型至关重要。若要像人类一样在陌生环境中运行,必须以人工智能为基础,具备识别和判断新环境中事物的能力。
当然,大型语言模型并非万能解法。比如,当我们命令机器人“拿起橙色饮料瓶”时可能会失败,但如果改说“拿起金属制的金色饮料瓶”,任务反而可能成功。Pinto 教授指出,语言基础模型在本质上会因使用何种语言、如何表达而对机器人的能力产生巨大影响。
Pinto 教授正通过“OK Robot”项目改善这一问题。他并非只依赖语言模型,而是让机器人学习视频。具体做法是,在长夹具上安装智能手机,用手机摄像头拍摄夹具的动作,再把视频展示给机器人看。机器人观看夹具打开抽屉的视频后学会同样动作,仅需20分钟。在位于美国纽约的10户家庭中,以这种方式让机器人执行了110项任务,成功率达到81%。Pinto 教授强调:“模型之所以能够快速学习,是因为它已经掌握了此前学到技能的相关知识,因此也能迅速适应新环境和新任务。”
Pinto 教授正将这类实验扩展到机器人手指和机器人手臂上,并在人工智能模型的基础上推动机器人学技术的进步。他补充道:“机器人学技术今后仍有大量问题亟待解决,必须在信赖性、安全性和个人信息保护等方面加以考量,推动技术不断发展。”