- 04/05
- 2017
-
QQ扫一扫
-
Vision小助手
(CMVU)
两会将人工智能写进政府报告,人工智能在国内的发展达到了前所未有的热度。无论是BAT这样的巨头,还是众多创业公司,都试图在人工智能上找到能落地的应用场景。优必选CEO周剑认为,机器人是人工智能落地最好的平台。
寻找人形机器人商业化突破口
机器人的最终形态应该是能适应人类生活环境的双足人形机器人,比如它能像人类一样,在多种环境中行走,比如上下楼梯,这其中的核心问题就是驱动,只有解决这个问题,机器人才能真正意义上进入家庭环境。周剑说。目前国际上名气较大的人形机器人产品并不多,比如软银收购的AldebaranRobotics公司研发的人形机器人NAO、以及本田的ASIMO机器人和波士顿动力的轮式、腿式机器人等。
在周剑看来,目前市面上很多机器人产品都是过渡型产物,比如现在的一些音箱产品。如果实现商业化,是没有人愿意跟一个音箱对话的。因为智能家居最终无法满足人类的情感需求,它代替不了类似于《太空旅客》真正的人形机器人。
然而,目前人形机器人在驱动,包括关节驱动、运动技术、控制运动算法上面,还没有实现真正突破,尤其是可商业化的驱动技术。据周剑介绍,在驱动方面,波士顿动力用的是液压技术,本田的阿西莫(ASIMO)机器人用的是电机伺服的控制方式,这两种技术都能实现不错的驱动,但是问题在于成本太高,阿西莫(ASIMO)一台机器人搭出来需要200多万美金。
除了高昂的成本外,使用中繁琐的技术方式也让一些机器人很难真正走进市场,比如ASIMO机器人的传动中用了20多根皮带,在使用过程中,每隔一段时间都需要重新打开机器人内部来调整皮带的松紧度。这种技术方式导致ASIMO很难实现商业化量产,而且本田在这条技术道路上耕耘了几十年,某种程度上有些积重难返,即便他们的核心算法和机器人躯干部分都搭建的很好。
因此,用高性价比的技术方式,让人形机器人价格降下来,被一般家庭所接受,是优必选的目标。周剑说,优必选一直在朝着一个能够真正让驱动关节模块化、商业化的方向去努力,所以我们现在做的伺服舵机,包括在腿部的一些舵机,某种意义上就是在朝着商业化目标努力。
人形机器人的市场才刚刚开始,优必选需要做一些比较前沿性、引导性的工作。未来他们希望在某种意义上建立一套全球化的机器人标准,比如人形机器人的标准是什么、规格是什么、它的曲轴运动,包括人工智能的一些基本的需求。
不过,虽然轮式机器人不是人形机器人的最终形式,但周剑也坦言,目前技术平台下面,轮式机器人还有一些优势,包括在2B的一些场所。因此,优必选在今年年初的CES上推出了首款商用服务机器人Cruzr。Cruzr是首款提供企业级商用服务的机器人,可为客户提供定制的人工智能商务服务。
全面布局人工智能战略
优必选的机器人研发从舵机开始,经过近10年的研发,舵机已经成为优必选的核心技术,并由此开拓了多个产品线。在舵机这条技术产品线上,优必选一直专注于核心零部件的供应,硬件开发逐渐成为优必选的优势。
而机器人商业化所需要的语音识别、机器视觉以及算法平台等软件技术能力,则是优必选明显存在的劣势。周剑也坦言,优必选是硬件起家,舵机一直是其引以为豪的核心技术,而软件是最薄弱的地方,这也是优必选决定大力布局人工智能的原因。
据周剑介绍,优必选在北京、硅谷分别设有研发中心,研发方向侧重在机器视觉、语音识别、语义理解、算法平台等人工智能领域,博士背景的核心研发人员达到数十人,公司在人工智能方面投入的资金比重也大大提升,占总营收的45%。
除了大型的伺服舵机关键驱动技术外,算法平台和人工智能,将成为优必选最为重要的发展阵地。
周剑希望能够自助搭建出一个类似于比波士顿动力更好的平台的一个算法。在此之前,优必选对谷歌、波士顿动力、本田等全球所有大型人形机器人公司的技术都进行了长期研究。在周剑看来,与优必选在驱动产品上下功夫不同,这些机构不算纯商业化的公司,也根本没有打算很快推出商业化的产品。他接着补充道:我们现正在研发中的伺服舵机,跟波士顿他们的完全不一样。此外优必选把能耗看的很重,在运动算法上投入了很大力量。
在人工智能方面,优必选主要力量放在机器视觉和数据上。周剑解释称:因为信息来源大部分还是来自机器视觉,另外由于机器视觉技术需要更大量的数据,数据是其要推动的技术。比如光线的细微变化都能影响到机器对物体的判断。这一点周剑印象颇深,他举了一个例子,在家庭厨房场景中,炒菜时的油烟会导致机器人的视觉判断模糊,针对这个问题就需要做雾化、去白、去油烟的技术。
事实上,优必选去年年底就开始为人工智能布局招揽人才,前IEEE主席霍华德博士、清华大学赵明国教授、欧洲科学院院士陶大程博士,先后加入并分别担任其教育CTO、人形机器人首席科学家。
去年科大讯飞入股优必选,也给了后者在语音识别上得到了强有力的支撑,周剑称,讯飞的技术能用的他们都会拿来用。
在视觉和语音之外,另一个无法回避的问题是语义理解。这是一个全球性难题,周剑说,单纯的自然语言理解(NLU)解决不了所有的机器人问题,未来的识别理解是多模态的,是基于视觉、语音、语意的多模态的理解。包括识别人体的姿态,人类的动作有很多,机器人会做很多动作,到底这个动作的目的、意义是什么?比如,当两人第一次见面时,举手就意味着是握手打招呼,在离别的时候,举手的含义就是道别,这些都需要机器人能够准确的识别。