日期
12/12
2017
咨询
  • QQ扫一扫

  • Vision小助手
    (CMVU)

伯克利视觉预见技术“可看到未来”的机器人 预测无人驾驶事故
收藏
2017-12-12 09:56:34来源: 中国机器视觉网

  加州大学伯克利分校的计算机科学家们研发出“可以预见未来要发生的事情”的机器人技术。运用视觉预见技术,在完全自主学习的情况下,这种机器人可以看到如果他们执行特定的动作会产生怎样的结果。目前的机器人原型还比较简单,只能预测几秒的未来,研究者在NIPS2017上展示了这项技术。

  对于婴幼儿来说,玩玩具不仅仅是乐趣和游戏,这对他们学习和理解世界的运作方式是很重要的。受此启发,加州大学伯克利分校的研究人员开发了一个机器人,像婴儿一样,它从零开始学习理解世界,用物体进行实验,找出如何以最好的路径移动物体。这样,机器人能够“看到”未来要发生的事情。

  如下面的视频介绍所示,这个机器人名为Vestri,它像婴儿一样通过摆玩物体来想象如何完成任务。

  UCBerkeley的研究人员开发了一种机器人学习技术,使机器人能够想象自己的行为的未来,这样它们就能够知道如何操作以前从未遇到过的物体。未来,这项技术可以帮助自动驾驶汽车预测未来的路况,或者实现更智能的家庭机器人助理,但这个最初的原型专注于从完全自主的游戏中学习简单的动手技能。

  这一技术被称为“视觉预见”(visual foresight),使用这种技术,机器人能够预测在执行某个动作的一个步骤时,它们的摄像机将会看到什么。这些机器人的想象力在现在还比较简单——只能预测几秒钟的未来——但是它们足够让机器人弄清楚如何在桌子上移动物体,而不会碰到障碍物。重要的是,机器人可以在没有人类的帮助的情况下学会执行这些任务,也不需要有关物理、环境或物体的先有知识。这是因为视觉想象力是在无监督的探索中从头开始学习的,只有机器人在桌子上摆玩物体。在这个游戏阶段之后,机器人构建了一个有关世界的预测模型,并且可以使用这个模型来操纵它以前从未见过的新物体。

  “就像我们人类可以想象我们的动作将如何移动环境中的物体一样,这种方法可以让机器人想象不同的动作对周围的世界将产生怎样的影响,”伯克利大学电子工程和计算机科学系助理教授SergeyLevine说,他所在的实验室开发了这项技术。“这可以在复杂的现实世界中实现对高度灵活的技能进行智能规划。”

 

研究团队NIPS2017大会上进行了视觉预见技术的demo

 

  这个系统的核心是基于卷积循环视频预测(convolutional recurrent video prediction)或dynamic neural advection(DNA)的深度学习技术。基于DNA的模型根据机器人的动作预测图像中的像素如何从一个帧移动到下一帧。最近对这类模型的改进,以及大大提高的规划能力,使得基于视频预测的机器人控制能够执行越来越复杂的任务,例如在障碍物周围移动玩具并重新定位多个物体。

  “在过去,机器人已经能够在人类主管协助并提供反馈的条件下学会技能,这项新工作令人兴奋的地方在于,机器人可以完全自主地学习一系列的视觉对象操作技能。”Levine实验室的一名博士学生、最初的DNA模型的发明人Chelsea Finn说。

  利用这项新技术,机器人将物体推到桌子上,然后利用所学习的预测模型来选择将物体移动到所需位置的动作。机器人利用从原始摄像头观察的学习模型来自学如何避开障碍物,并在障碍物周围推动物体。

  “人类的一生中,通过数百万次与各种各样的物体的互动,在没有任何教师的情况下学习操控物体的技能。我们已经证明,建立一个利用大量的自主收集的数据来学习广泛适用的操作技能的机器人系统也是可行的,特别是推动物体这一技能。”Frederik Ebert说,他是Levine实验室的一名研究生,这个项目的研究者之一。

  由于通过视频预测的控制仅依赖于可以由机器人自主收集的观察,例如通过摄像机收集的图像,因此这一方法是通用的,具有广泛的适用性。与传统的计算机视觉方法不同,传统的计算机视觉方法需要人类为数千甚至数百万图像进行手工标记,构建视频预测模型只需要未标注的视频,因此可以完全由机器人自主采集。事实上,视频预测模型也已经被应用于从人类活动到驾驶的各种数据集,并且取得了令人信服的结果。

  Levine说:“婴儿可以通过玩玩具、摆动玩具、抓握等等来理解世界。我们的目标是让机器人做同样的事情:通过自主的互动来了解世界是如何运作的。”他说:“这个机器人的能力虽然仍然有限,但它的技能完全是自主学习的,这让它可以通过构建之前观察到的互动模式来预测复杂的物理互动。”

  UCBerkeley的科学家们将继续通过视频预测研究机器人控制,专注于进一步改进视频预测和基于预测的控制,以及开发更复杂的方法,使机器人可以收集更集中的视频数据,用于复杂的任务,例如拾取和放置物体,操纵布或绳索等柔软和可变形的物体,以及组装。

为你推荐