日期
04/27
2017
咨询
  • QQ扫一扫

  • Vision小助手
    (CMVU)

他比苹果还早研发出光学防抖,现在却加入做“机器人眼睛”的创业大军
收藏
2017-04-27 13:56:45来源: 中国视觉网

    SLAM 技术全称为 simultaneous localization and mapping ,即实时定位及地图构建,SLAM 并不是一项新技术,国内外都有数十家公司在研究。它最早被用于核潜艇的海底定位,近年来逐渐进入民用领域,尤其是扫地机器人在消费市场的推广,使得SLAM作为机器视觉的解决方案,备受重视。基于三维视觉的 vSLAM 技术也被广泛应用与机器人、VR、自动驾驶等智能设备上。

    华中科大光电子专业毕业后,李昌檀先后在索尼、飞利浦、联想等大厂里工作了十几年,具体工作略有差别,但核心一直没变,那就是围绕“光电子”,做手机摄像头的系统、硬件、底层软件和集成。在这个行当里,李昌檀取得了不少成绩,比如在 iphone 还没有光学防抖功能的时候,他做了中国第一款光学防抖手机,虽然由于各种原因,卖的并不好。十多年的研究,李昌檀希望自己能站在更高的维度上来看产品,他想知道用户真实的需求是什么,也想知道如何能做出有用的产品,但大厂分工细致,层级严格,已经无法满足他的需求。

    于是,2014年李昌檀开始了第一次创业,作为初始团队加入了一个 VR 公司 。这次创业最大的收获,就是让他结识了黄石生博士。黄石生毕业于清华大学计算机系,师从计算机图形学领域的胡事民教授,在过去一直专注于图像与视频等媒体的研究,在图形学与视觉领域的顶级学术会议(SIGGRAPH/SIGGRAPH Asia/TVCG)上,发表过四篇文章。

    相识一年之后,李昌檀联合黄博士,创办远形时空,开始了第二段创业生涯。李昌檀说:“我们要做一些有用的事情,技术门槛高,是一门手艺活,有很多坑,需要一个一个爬出来,不是模式的创新,也没有很大的杠杆。”

    这个手艺活,就是基于视觉的 vSLAM 软硬件解决方案。在李昌檀看来,原先做的手机,现在流行的VR、无人车、无人机等没有本质的区别,都是用于人机交互的一个工具,底层技术是相通的。但有个区别在于,原先做相机,主要是让人看,现在是要让机器能够看懂。

 

“曾经是为了让人能看到好画面,现在是为了让机器人能看懂这个世界”

 

    黄石生介绍说,无论是定位还是地图,分开做都不是难事,难点在于结合,同时要保证即时。SLAM 不仅仅是一项技术,其实更是一个包含传感器和算法实现的系统。在传感器方面,可以选择的比较多,比如激光雷达、摄像机、视觉里程计、GPS等,主流的是激光雷达和摄像机。有了传感器感知环境之外,还需要算法实现,让机器“看得见”。远形时空选择的解决方案是摄像头+惯性导航+算法。黄石生认为,这样的解决方案,有以下几个优势:

小型化

     虽然激光雷达精度可以达到毫米级,但在工程上无法小型化,尤其是旋转式的激光雷达。从目前在自动驾驶领域的实现来看,都需要给激光雷达预留很大的空间,在 VR/AR 等小型设备上,几乎没有用武之地。

成本低

     激光雷达成本相当高昂,旋转式的激光雷达成本在8000-80000美元之间,固态雷达相对便宜不少,但相比摄像头还是非常昂贵,这对于厂商来说,成本很高。

响应频率高

     激光雷达的响应频率不如摄像头,可以轻松达到50-60赫兹,惯性导航则更高,可以达到1000赫兹,这样输出信息时就非常快。

扩展性强

    使用摄像头的解决方案,除了用来实时定位构建地图外,用户还可以利用它扩展其他功能,比如人脸识别、手势等其他视觉识别的功能。

    特别就 VR 领域而言,现有的视觉解决方案都是由外而内的追踪,比如通过 Lighthouse 和 Constellation 的高精度追踪系统,而远形时空提供的 SLAM 解决方案,则不需要配合,是一体化的解决方案。

    但以摄像头为主的解决方案采集到的信息量大,背后需要配套非常强大的算法来进行处理。经过李昌檀和黄石生的努力,在双目 SLAM 和单目 SLAM 两方面,算法和性能都有了非常大的提升。

    在vSLAM学术研究方面,有很多优秀的工作,有的已经开源(例如ORBSLAM、LSD-SLAM、OKVIS、DSO、ORB-VIO、SVO等),为追求准确性这些方法往往采用计算强度很高的视觉优化(Bundle Adjustment),导致计算功耗很难降低,而纯视觉的 SLAM 往往受光照条件、高速旋转运动、抖动等等影响而产生不稳定,因此,这些方法在产品化在实际产品化过程中有较大难度。

      远形时空推出的双目 SLAM 和单目 SLAM ,不仅仅依靠摄像头,还辅助惯性传感器(即 Visual-Inertial SLAM),很大程度上克服了纯视觉 SLAM 的缺点。另外,为提高稳定性和精度,远形时空团队在传感器硬件、惯性辅助的图像特征追踪、丢失重定位等核心技术方面都做了优化,提高了 vSLAM 的稳定性和精度。远形时空团队推出的双目 SLAM 和单目 SLAM 的精度均在厘米级,drift 小于1%,而计算功耗很小,比同类产品减小超过至少一半以上的计算量,最低时只是1/4左右。

    在机器视觉领域,其实存在着众多玩家,比如百度前日刚收购的硅谷公司 xPerception,其定位和业务范围与远形时空非常类似,国内还有格灵深瞳、速感科技、Human+、拓视觉等初创企业。面对竞争相对激烈的市场,李昌檀认为:“其实我们也看到一些比较优秀的创业团队,我们觉得非常好,大家能够一起教育市场,把这个市场做大。而且,暂时还没有一个可以通吃产品,我们非常希望做一个能用在很多领域的产品,但实际上还不存在通用的解决方案。所以,无论竞争是否激烈,必须得在某一个细小的领域扎根下来,再拓展更容易一些。”

    目前,远形时空基于这种解决方案,做出了一个嵌入式的硬件产品,并将首先在 VR 领域进行落地,国内外各有一家 VR 厂商已在洽谈合作,预计在年内会有进一步消息。现在公司共有10人左右的技术团队,已完成数百万的天使轮融资,即将开始下一轮的融资计划,大概千万量级。新一轮融资将会用于产品量产、新品研发、团队扩充三个方面。