日期
07/24
2017
咨询
  • QQ扫一扫

  • Vision小助手
    (CMVU)

如何增强虚拟现实沉浸感?手势识别有趣且有用
收藏
2017-07-24 13:49:40来源: 中国视觉网

  不知道大家还记不记得2002年的好莱坞电影《少数派报告》?当时疯狂痴迷汤姆克鲁斯饰演的精英探员,不仅仅是因为汤姆克鲁斯本身的魅力,还因为电影里展示的酷炫的手势操作界面。有人说,电影在一定程度上是人类技术的先知,这个论调虽然不能说完全正确,但是在手势控制的人机交互这方面,我们从来没有像现在一样接近未来。


如何增强虚拟现实沉浸感?手势识别有趣且有用


   手势识别是虚拟现实的核心技术之一,能让身体不受限制与虚拟世界中的各种场景互动,大大提高沉浸感。我们今天来了解手势识别技术的发展历程及其种类。也是是近年来大热的人机交互方式。由于功能炫酷、操作方便,智能家居、智能穿戴设备、智能汽车以及VR/AR等领域都增加了手势识别控制功能。


  手势识别的发展历程


   最初的手势识别主要是利用穿戴设备,直接检测手、胳膊各关节的角度和空间位置。这些设备多是通过有线技术将计算机系统与用户相互连接,使用户的手势信息完整无误地传送至识别系统中,其典型设备如数据手套等。这些设备虽可提供良好的检测效果,但将其应用在常用领域则价格昂贵。


  其后,光学标记方法取代了数据手套将光学标记戴在人手上,通过红外线可将人手位置和手指的变化传送到系统屏幕上,该方法也可提供良好的效果,但仍需较为复杂的设备。


  外部设备的介入虽使得手势识别的准确度和稳定性得以提高,但却掩盖了手势自然的表达方式为此,基于视觉的手势识别方式应运而生。视觉手势识别是指对视频采集设备拍摄到的包含手势的图像序列,通过计算机视觉技术进行处理,进而对手势加以识别。


  基于视觉的手势识别分类


  基于视觉的手势识别技术的发展是一个从二维到三维的过程。早期的手势识别是基于二维彩色图像的识别技术,就是指通过普通摄像头拍出场景后,得到二维的静态图像,然后再通过计算机图形算法进行图像中内容的识别。随着摄像头和传感器技术的发展,可以捕捉到手势的深度信息,三维的手势识别技术就可以识别各种手型、手势和动作。


  二维手型识别


  二维手型识别,也称静态二维手势识别,识别的是手势中最简单的一类。只能识别出几个静态的手势动作,比如握拳或者五指张开。


  这种技术只能识别手势的“状态”,而不能感知手势的“持续变化”。说到底是一种模式匹配技术,通过计算机视觉算法分析图像,和预设的图像模式进行比对,从而理解这种手势的含义。因此,二维手型识别技术只可以识别预设好的状态,拓展性差,控制感很弱,用户只能实现最基础的人机交互功能。其代表公司是被Google收购的Flutter。使用他家的软件之后,用户可以用几个手型来控制播放器。


  二维手势识别,仍不含深度信息,停留在二维的层面上。这种技术比起二维手型识别来说稍复杂一些,不仅可以识别手型,还可以识别一些简单的二维手势动作,比如对着摄像头挥挥手。


  二维手势识别拥有了动态的特征,可以追踪手势的运动,进而识别将手势和手部运动结合在一起的复杂动作。这种技术虽然在硬件要求上和二维手型识别并无区别,但是得益于更加先进的计算机视觉算法,可以获得更加丰富的人机交互内容。在使用体验上也提高了一个档次,从纯粹的状态控制,变成了比较丰富的平面控制。


  三维手势识别


  相比较二维手势识别,三维手势识别增加了一个Z轴的信息,它可以识别各种手型、手势和动作。这种包含一定深度信息的手势识别,需要特别的硬件来实现。常见的有通过传感器和光学摄像头来完成。


  目前主要有3种硬件实现方式,加上先进的计算机视觉软件算法就可以实现三维手势识别了。


  结构光(StructureLight)


  这种技术的基本原理是,通过激光的折射以及算法计算出物体的位置和深度信息,进而复原整个三维空间。不过由于依赖折射光的落点位移来计算位置,这种技术不能计算出精确的深度信息,对识别的距离也有严格的要求。


  以PrimeSense的Kinect一代的结构光技术为例,在太近的距离上,折射导致的位移尚不明显,使用该技术就不能太精确的计算出深度信息,所以1米到4米是其最佳应用范围。


 光飞时间(TimeofFlight)


  光飞时间的原理在于:加载一个发光元件,通过CMOS传感器来捕捉计算光子的飞行时间,根据光子飞行时间推算出光子飞行的距离,也就得到了物体的深度信息。就计算上而言,光飞时间是三维手势识别中最简单的,不需要任何计算机视觉方面的计算。SoftKinetic公司为Intel提供带手势识别功能的三维摄像头。同时,这一硬件技术也是微软新一代Kinect所使用的。


多角成像(Multi-camera)


  该技术使用两个或者两个以上的摄像头同时采集图像,通过比对这些不同摄像头在同一时刻获得的图像的差别,使用算法来计算深度信息,从而多角三维成像。


  多角成像是三维手势识别技术中硬件要求最低,但也是最难实现的。多角成像不需要任何额外的特殊设备,完全依赖于计算机视觉算法来匹配两张图片里的相同目标。相比于结构光或者光飞时间这两种技术成本高、功耗大的缺点,多角成像能提供“价廉物美”的三维手势识别效果。该技术的代表产品是LeapMotion公司的同名产品和Usens公司的Fingo。


  手势识别作为人机交互的重要组成部分起着至关重要的作用。目前手势识别仍有一系列问题,如受复杂环境因素制约等,亟待解决。相信随着计算视觉技术的全面发展,手势识别必然向更自然和灵活的方向发展,未来的人机交互也将更加自然、更加融合。