汤晓鸥：人工智能在中国有点过热了，我想泼泼冷水--机器视觉网

近日，商汤科技创始人汤晓鸥在基石资本2017年投资人年会上发表演讲，为过热的人工智能“泼泼冷水”的同时，也针对于投资人认为包括商汤在内的人工智能的“高估值”进行了分析。下文是根据其演讲做出不改变原意的编辑：

大家中午好！非常荣幸能够与这么多业界精英同台演讲。

三年前，我常常跟投资人、跟一些企业家讲人工智能、讲深度学习，但那个时候大家还不理解，也都不太关心。后来，谷歌推出了阿尔法狗，人工智能就火了。除了受阿尔法狗事件的影响之外，也得益于美国五大人工智能巨头形成的联盟。中国在双创活动中也选择了两家人工智能的领军企业，一家是百度，另外一家是商汤，这是两家中国智能的代表。所以，张维总提到了高估值的商汤，我认为并不高，应该是低估值的商汤。

但是，现在大家都在讲人工智能，给我的感觉是，人工智能在中国有点过热了，所以我今天想为大家泼泼冷水。

一、人工智能的作用是有限的

人工智能是什么呢？应该说，它跟A股很像。如果说上海是中国的A股市场所在地，那么三年前，人工智能相当于A股市场的三千点以下，没有人买。而今年，这个指数飙到了六千点。在这种情况下，大家是买还是不买呢？

有的时候，我们会把一些事看得太过神奇。这与彭剑锋教授所讲到互联网的发展是同样的道理，人工智能也不过是一个辅助性的工具，并不是事情的全部。这个工具本身并不能产生独立的价值，而一定是在跟各个行业相结合以后，为各个行业生产效率的提升来服务的。我认为，饭要自己亲自吃，厕所也要自己亲自上，锻炼身体也一定要亲自去。我们不能过于依赖人工智能，不能把什么事都交给它，它的作用毕竟还是很有限的。

十年前，我的实验室（中国视觉网注：即微软亚洲研究院视觉计算组，汤晓鸥为时任负责人）做出了人脸识别系统，里面涉及到一些图像处理、特效处理、自动分割以及交互等内容，也越来越好玩。

图像处理源于2008年的北京雾霾。当时正在召开奥运会，因为雾霾的原因，新闻图片发出去会令人感到尴尬。所以，我们定制了一些功能，用了一些算法，可以把图像里的雾去掉。我们这次会议的地点在三亚，在这样的碧海蓝天之间，这个技术是用不到的。但今天的题目是迷雾航行，虽然我们不再需要去除新闻图片中的雾霾了，但就目前大家对人工智能的认识来看，我觉得还是把认识的“雾”去掉，然后航向才能明确。

那么，在人工智能方面怎么去雾，怎样才能真正踏踏实实地做点事呢？

我们知道，雾的浓度和距离是成比的。所以在新闻图片中，我们先是把三维算出来，然后把雾去掉，并且还能把背景模糊化。最后，一张非常糟糕的照片被我们做出了单反的效果。这一技术所形成的文章得到了2009年的最佳论文奖，我还是蛮骄傲的。但是，这一技术的产生，是在2011年以前，有我们十几年的积累做基础，也是在深度学习这个算法产生之前的事。我想说的是，和所谓的人工智能一样，这些技术都不是一夜之间发生的，而是一个长期艰苦积累的过程。并且是我们所积累的几百项工作中比较出色的部分。

二、人工智能与深度学习是一个长期积累的过程

1、人工智能发展“简史”

目前，人工智能目前发展到了什么程度呢？根据我二十年来做的工作，我总结一下人工智能发展的简单历程。

在国际范围内，人工智能最早诞生于1956年。从那以后，人工智能的发展势头不断起起落落，也曾喧嚣，但最终都归于平静，并没有真正发掘出对人类社会生活有益的功能。但是在2011年，诞生于2006年的“深度学习”的算法产生了效用。从那时开始，人工智能开始具体应用于很多的单向领域或者说具体的行业，并且开始超越了人的水平。

对于人工智能的发展，几个主要的“玩家”起到了决定性的推动作用。在软件方面，谷歌和Facebook进行了大量的投入，很多创新都是从这两家公司产生的。为什么是它们？因为它们有大量的数据要处理，它们有刚性的需求。同时，它们也有大量的资金投入。谷歌去年一年在人工智能领域的研发投入是120亿美金。阿尔法狗几次挑战李世石，还有相应的宣传，都是大量投入的结果，并不是简单的炒作就能够达成的。同时，Facebook也在这一领域做出了大量的投入。

在硬件方面，包括深度学习的算法、计算平台几乎都是GPU上做起来的。

如果说人工智能是一条红线，那么，深度学习在某种意义上来说就是这个红线的引擎，而大数据就是它的原料。目前，人工智能的大部分技术，都是由深度学习算法来支撑的。

2、深度学习的突破：在垂直领域落地

深度学习发展出来的时间很短。在2011年，它跟微软进行了合作，在语音识别技术上取得了重大突破。当时，微软首先推出的是应用方面的驱动。在那以后，因为有了多年大数据的积累，又组织了更多在语音识别方面有相当实力的人，所以就有了更加重大的突破，相当于在一年之内做了十年的事。

我们从原来人脑设计参数的人工智能转变为由大数据驱动的人工智能，实际上是在某些领域取得的技术突破，主要是在某个特定的领域超过了人。比如说，最早用深度学习做出来的语音识别系统大获成功。在人脸识别、图像分类、阿尔法狗、自动驾驶、医疗技术等几个方面都有着很大程度的突破。这些学术方面的突破，使计算机超越了人类以后，就相当于在垂直领域迈过了一道槛。而这道槛之后，人工智能技术终于可以落地了，终于可以替换一些人工成本，来帮助产业提高效率了。

所以，我们看到的人工智能涉及到了很多具体的领域，有的与产业结合得很好，有的则刚刚开始，当然也有一些完全是出于炒作。总之是参差不齐，或者说是各有千秋。

3、人工智能开始值钱了

目前，人工智能主要有三个战场：一个是语音识别，相对来说比较成熟；它之后是自然语言，在这个领域还有很多事要继续研究，非常难；现在的主战场是图像，就是眼睛的智能。怎样用眼睛识别出环境与物体，这也是非常困难的事。

2012年，Hinton在图像识别方面也取得了重大突破。在此之前，Viewdle拥有这个领域最大的订单，但Hinton的成果一下把前人甩出了10年的距离，并在当时引起了很大的轰动。

在此之后，仅仅过了4个月，谷歌花了5千万美金收购了它。这个惊人的举措令我们认识到，人工智能开始值钱了。接着，谷歌又花了6.6亿美金收购了一家公司。这家公司只有12个人，没有什么特别的产品，主要是研究如何用深度学习来下棋。当时我们觉得它的价格过于昂贵了，但实际上这个公司诞生了很多算法，所以仅仅过了一年多以后，他们用阿尔法狗下了一盘举世震惊的棋，一下子就把投入的钱赚回来了。

2013年，Facebook聘请了另外的团队，在纽约建立了人工智能实验室。后来，通用、因特尔等大企业也纷纷进入到这一领域，并且也开始收购一些公司。

三、我们在做什么？

在这期间，我们做了几件比较有影响力的事。2014年，我们首次突破了人脸识别技术（ImageNet，一个计算机视觉系统识别项目，是目前世界上图像识别最大的数据库），在2015年的时候取得了全球第一的成绩，2016年在五项里取得了三项世界冠军。与Alphago一样，我们也做到了机器的算法超过了人类，在某个特定的领域可以把人打败。

这其实并不神奇，因为汽车早已在赛跑的领域打败了人类。可以说，在某个特定领域打败人类不是什么了不起的事。但是人们普遍认为，人工智能就是机器人，它可以超越人脑并控制人类。但事实上，这是非常遥远的事情。我们真正在一线做人工智能研发的人是不敢这么想的，只是致力于让机器做事先设计好的特定任务，绝不会有另外的任务附加给它。我们经常开玩笑说，李世石在跟阿尔法狗下棋之前，也许早已在赌博公司下了赌注，赌自己输。但是，阿尔法狗想不到这一点，所以尽管它以为自己赢了，但实际上它输了（笑）。

深度学习有三个大核心要素：一是深度学习的算法设计；二是高性能的计算平台；三是大数据。

2011年，我们实验室的几十个博士、教师开始研究深度学习。这是学术界最早涉猎深度学习的华人团队。2014年，我们又打败了Facebook，在人脸识别技术方面超过了人眼识别。当时，一般人眼识别的准确率是75%强，但Facebook做到了97.3%。但我们的团队连续做了四五个算法，最后从97.4%一路做到了99.55%，在与Facebook和谷歌的竞争中取得了好成绩。

2014年9月份，我们又参加了一个世界级的大赛，与包括百度、谷歌、牛津、微软在内的37个世界顶级团队竞争，取得了全球第二的成绩，谷歌是第一。2015年，组委会在比赛中加入了视频。在视频的检测中，我们取得了全球第一的成绩。2016年，我们在五项比赛里取得了三项第一名。

1、人工智能的误区：做“APP”不是真正的人工智能

这个时候，我们其实在做一个“大脑”，这是一个非常困难的任务。深度学习跟人的大脑有相似之处，越难的任务会做得越好。比如说，我们要从几千个瓶子里识别出其中的一个，这个算法肯定做不好。但如果能做出一千类物体的识别技术，把它做成最好的大脑，这时再回来识别瓶子，就可以做得很好。ImageNet就是对一千个问题进行了分类。跟人脑的相似之处在于，如果一个人希望在未来搞投资，那他肯定不会从幼儿园到小学只学投资这件事。人在小的时候，数学、物理、化学、历史都要学习，只有读到博士的时候再去做具体的任务。所以，一定要有把大脑训练聪明的过程。

大脑的核心就像是一套操作系统，它是一个开源系统。谷歌和Facebook都有它自己的开源系统用来做基础应用，而且有一些还是免费的。现在人工智能、深度学习的门槛变得比较低，就是因为它有了开源系统。有了这个系统，随便找几个懂点技术的人，利用这套系统就可以训练出一个模型，可以做一些应用。

但是，这里存在一个问题。比如你要做的是安卓系统还是在安卓系统上写一个APP？我们经常会把这两件事混为一谈。比如有的人能做几个APP，演示出来就被说成是人工智能，但事实上它们是不同的。而且，我们做出来的东西是不是好，都是要受这套开源系统的控制。

我们在2011年的时候还没有开源系统，所以要努力学习，从头做起。这些年来，我们成功开发了自己的这套系统，虽然没有完全对外开放，但我们自己和一些合作伙伴都在用。

今年开始，我们开始用这套系统训练ImageNet。它是一个神经网络，有点像DNA的结构。在2012年，我们做到了5层，谷歌打赢我们的那场比赛用的是22层，去年微软做的是152层，而用我们的系统训练出来的是1207层。

在2013年的时候，我们训练网络的检测准确率只有22%，2014年做到了53%，后来又发展到了62%，现在我们的最好成绩是66%。可以看到，以前，我们最好的进展情况大概是一年一个点，这样的速度就完全可以发论文了。但是经过了这三四年，从22到66，我们已经翻了三倍，这就是进展的速度。跟以前不一样的是，我们在单向任务上也是突飞猛进的。

自己的超算平台
训练这么复杂的一个网络需要一个大的平台。谷歌和Facebook的开源系统并不支持这个大平台的运算，所以我们要做自己的超算平台，并且要与谷歌的机器连起来。我们在香港有一个超算集群，在北京有三个，只有在这样的大集群上才能真正的训练出核心的大脑和核心的网络。

在这方面，我们主要的合作伙伴有两家，一家是NVDIA。我们几乎所有的智能学习都是基于它的GPU在进行运算。很荣幸，这家公司把我们当成了跟谷歌、Facebook一样级别的战略伙伴。另一家是用一些高速的网络把这些机器连起来，和我们也形成了战略合作伙伴关系。目前，我们正与这两家公司共同研究下一代产品。

大数据库
最后一个是大数据。有了模型，有了平台，还需要海量的数据。在这方面我们与300多家企业进行了合作，有18类、十几亿的各种图像和多媒体的数据。同时，我们也在建立一些大型的学术方面的数据库，定义了很多新的研究方向和新的课题，包括人脸数据库、车型数据库等等。

比如车型数据库，在我们进入这一领域之前，学术界只有10几种车型，而我们定义了上千种。对人群定义了94种特性。还有各种服装的数据库也是我们定义出来的。以前，我们看别人的文章，跟着别人的文章做，现在我们自己做文章，做专利，也在参与做标准。并且我们又在开辟新的方向，提出新的问题，定义新的数据库，定义新的玩法，这实际上是在引领新的学术研究方向。

人工智能到底有多难？
在这些辉煌的战绩背后，是实验团队的艰苦付出。以图像放大，并处理清晰这件事为例，大家不妨感受一下，人工智能这件事到底有多难。

比如，我们在机场拍到的罪犯的照片很模糊，经过超分辨率处理变成清晰了以后，可以辅助警方把他给抓住。我们不但要把图片放大，并且还要使模糊的照片变得清晰、漂亮。在已经做十几年之后，我们仍然觉得做不到。因为已经有人做得很先进了，但他们也没有做到。最初，我们用当时的算法得到的结果是令人失望的，放大了以后效果很差。但是，我们仍然在人脸检测、高分辨率、人脸的特性分布等所有方面进行了大量的研究，每一项都有专门的文章。最近两年，我们有多篇文章从这一方向阐述，并拿到了世界顶级的学术会议上。从学术的角度来讲，这些都是很大的进步，但是花了这么大的功夫，也仍然有太多太多的空间有待我们去进步，还有很多的技术沉淀，有很多工作要做。

刚刚我们又投出了几篇把一张小图变成高清大图的文章，因为这里面的应用前景非常广阔。我们知道，传输一张高清大图的速度很慢，那么我可以把它压缩得非常小，传过去以后，可以由接收端自行放大，并且得到非常高清的效果。日本有人用我们的技术做了一个很好玩的应用，叫做WAIFU2x，翻译过来就是放大两倍，就是把普通照片放大两倍的意思，并且变得更加清晰。

但更重要的是，诸如遥感卫星监控，还有一些军事上的侦查，都可以应用这一技术。

在没有高分辨率技术之前，一般系统的分辩率都非常差，但用了人脸定位信息以后，我们可以实时并且非常准确地把人脸上的点定位出来，然后进行多集放大，每一集放大一点后再定位，然后放大一点，再定位，最后取得了非常好的效果。最初，我们在全球第一个做到了5点深度学习，后来做到了106点定位。现在，业界有用很多人脸跟踪的应用，据说直播软件背后都是这一技术。同时，我们在实际侦查图像上进行了应用，基本可以把人看清楚了。这在以前是完全做不到的。

人工智能不可能横空出世，说出来人们也不会相信。我们之所以能够做这些事，是因为我们有一定的积累。我们在深度学习之前已经有了很长时间的积累。比如，从2004到2008年间，我们在两个顶级学术会议上的文章数量，其中的一个实验室就做了57篇，而MIT一共有91篇，剑桥是30篇，可以说我们跟这些学校打了一个平手。去年我们在这两次会议发表了的文章已经超过了谷歌前年的水平，按照这个标准，我们顶多落后于谷歌一年。

在人工智能领域，全世界有600个国际会议。在其中排名前五的会议上，从我们实验室毕业的学生拿到了54个最佳论文奖，包括刚才讲到的去雾的算法。要知道，这些会议每次从一千多篇文章里只会选出一篇，而且是双盲选择，与人无关，只与文章本身有关。这跟中国的一些奖项的评选完全是不同的运作方式。

我们的这些成绩，也得到了国际上的承认。NVDIA去年评选出了人工智能的十大先驱，我们很荣幸地位列其中，也是亚洲区唯一入选的实验室。跟我们同时入选的另外9家都是计算机视角鼎鼎有名的机构，包括NIT、斯坦福等等世界级的百年名校，还有深度学习的“四大天王”、Facebook、谷歌的一些元老等等。与之相比，香港中文大学只是一所有着50年历史的学校，而作为唯一一个比较年轻的实验室，我们也不是靠学校的名气入选的。

四、人脸识别技术在产品中的应用

以上是我们的一些学术成绩。但是，如果这些成果不能落地，最终不能进入到产品阶段，不能够让大家用起来，那就成了纸上谈兵。那么，我们的成果怎样落地，怎样能够在产品中得到应用呢？

1、人脸识别的应用方向

➤平安城市与智慧商业

首先是平安城市。我们的人群监控系统能够时实分析出整个场景中有多少人，每一点上人的密度，每个进出口的人的数量，或者是各种逆向流动等特殊情况，都能够监控。大家都知道上海外滩发生过大规模的践踏事件，假如外滩有我们这套系统，那次悲剧完全是可以避免的。

还有人脸识别技术，在各种场景下，比如地铁口、火车站等，完全不需要指令就可以进行高精度的人脸识别，这是“静场景”的人脸识别。除此之外，我们还可以“抓人”，在百米之外看到目标，能够把他拉近以后进行识别。也能够从百米之外将车辆拉近，识别出它的车牌、车型等等。这是对人群的远距离监控。

在对视频结构化以后，我们在每个城市都可以有上百万的监控摄相头，但没有那么多的人力来筛选。那么，我们可以通过视频对人、车和非机动车进行监测和标注，包括对人的性别、体貌特征、车型、车牌、颜色等等进行监测。它可以自动监测出在什么时段，在什么位置，一个有着什么样具体特征的人出现等等信息。

智慧商业与此类似，就是商场各个角落的情况，都可以做到实时监控。

➤自动驾驶与人脸检测定位系统

我们的另一个方向是自动驾驶。现在自动驾驶炒得非常热。但是，做出一个能在路上跑的车，这是汽车厂商一百年前就做的事，不属于人工智能范畴。我们要做的，是支撑这些新功能背后的核心技术。在自动驾驶里，有30项基本技术，每一项都是有一定的门槛，需要很多人付出卓绝的努力。

比如说物体检测功能，对任何物体进行跟踪检测，是我们在2015年取得最好成绩的那次竞赛的参赛项目。这个技术能够让我们对街道上所有的机动车、非机动车和行人进行时实跟踪监测。同时，我们可以监测出马路上的人在往哪个方向看，有没有注意到车来的方向。还可以监测车道线，并且不受大雾、大雨等极端天气的影响。

还有场景的感知。空间在什么地方，所有物体的分割、分类都可以进行实时感知。包括对司机的监测等等。当然，这不是全自动驾驶，而是辅助驾驶。是将人的行为表现反馈回来，通过人与汽车面板的交互、协同来完成驾驶任务。

➤在手机中的应用

i.手机相册

如果用户手机中有一张模糊的照片，用我们的深度算法，可以把暗光增强，把非常小的图像放大，使它变成一张很清晰的图像，甚至可以识别出图片所中一些细小又模糊的文字。包括图像的颜色恢复、先拍照后聚焦等等功能。这是一件很神奇的事，用户可以先拍一张照片，然后再选择在哪一个点聚焦。还可以用滤镜把图片变成各种各样风格的画面。这是我们两年前就做出的技术。同时，我们也是第一个用深度学习做图像处理，并且第一个把它真正产品化的机构。

可以说，所有客户端的相册都有我们公司所提供的相册管理服务。比如小米手机里就有我们的相册管理软件——宝宝相册，这是小米的一个亮点。

ii.换脸术

在华为的相册管理里，人脸和40类场景也是我们提供的。这是一个很好玩的应用特效，可以将照片上的人脸换成另一张脸。

iii.特效技术

与换脸相类似的技术是做各种各样的特效。facv和各种直播的特效，以及韩国的cno的背后，都有我们的支持，秒拍、花椒、猎豹、移动都是我们的客户，加起来大概有上百家。在大家经常看到的特效软件背后，也是我们的。

在VR游戏、电视遥控等领域，都有我们的应用。远程教育也是我们的应用之一。在远程教学中，教师可以观察到学生的听课状态。

➤线上空间与手机软件

在线上我们也有用武之地。比如应用于借贷宝，还有跟中国移动的独家合作。目前，在中国移动买一个手机卡需要进行身份的识别和认证，这方面我们在联合开发其它产品。

乐视上网也采用了人脸识别系统。手机也可以嵌入我们的系统。

还有一些技术未必马上就能够应用于产品，但是未来必然会用到，它们也是我们开辟的新的研发方向。比如说，我们用两个人上传到网络的照片可以分析出这两个人的表情、距离、方向，彼此之间的关系是信任的，还是依赖的。这些技术的用处是什么呢？其中的一个应用是大数据征信。比如我发现你跟一个非常高端的人士有一张合影，你的信誉值就有可能会提高。而如果你跟罪犯有着密切的关系，那么如果我是银行，是不会把钱借给你的。

我们也可以用VDIA做这件事，用每一帧图像分析出两个人的关系。当然了，不是所有的问题都能够得到解决，比如说，我儿子跟这个玩具小娃娃的关系，我们怎么分析？对6个月大的婴儿怎样去分析？我想人工智能还不能完全理解这其中的奥秘。但是，通过对视频的分析，我们可以分析出某一个情景是不是灾难，从而对其进行预警。

2、一个技术核心

所有这一切，听起来有十几个方向，但其背后的技术都是相通的，都是整个人体的交互。它主要还是在用一个核心的大脑在与各个行业进行结合，这是一个高门槛的技术。

如果你玩过微软的Kinect，就知道可以用人控制这个游戏。但是，Kinect是一个深度摄像头，两个摄像头加上一个VC，价格大概在几百美元。我们现在做的是用一个一、二百美元的单向摄像头就可以实现这个功能，并且有着广泛的应用场景。比如在智能家居、游戏等领域，我们都是第一个做出时实效果的机构。

3、与2B企业的合作空间

目前，有好几家厂商，包括OPPO、360、微博相册等等已经采用了我们的技术。前段时间，有一个公司做的to C产品跟我们的技术有些类似，但实际上，我们并不做C端，而是跟to B的企业合作。

我们自己并不做手机，也不会亲自做摄像头，而是与这些产业的领袖、产业中最优秀的企业进行战略合作，然后把我们的技术植入到对方的产品中去。