从历史角度谈谈如今炒得火热的计算机视觉、人工智能、机器学习--机器视觉网

中国有句很有名的话：“一个民族如果忘记了历史，她也注定将失去未来。”我认为这句话对一个学科来讲，同样发人深省。我们先来看看现实的状况吧。

首先，假设你当前是一个刚刚进入计算机视觉领域的研究生，很快你会有一种错觉，觉得这个领域好像就是5年前诞生的。跟踪最新发表的视觉的论文，很少有文章能够引用到5年之前的文献，大部分文献只是2-3年前的，甚至是1年之内的。现在的信息交换比较快，大家都在比一些Benchmarks，把结果挂到arXiv网上发布。很少有一些认真的讨论追溯到10年前、20年前或30年前的一些论文，提及当时的一些思想和框架性的东西。现在大家都用同样的方法，只是比拼，你昨天是18.3%的记录（错误率），我今天搞到17.9%了。大家都相当短视，比如研究生毕业以后变成了博士，可能也会带学生做研究，而他如果只知道这几年的历史和流行的方法的话，怎么可能去传承这个学科，让其长期健康发展呢？特别是等当前这一波方法退潮之后，这批人就慢慢失去了根基和源创力。这是一个客观的现象。

其次，还有一个现象是，随着视觉与机器学习结合，再混合到人工智能这么一个社会关注度很高的领域去以后，目前各种工业界、资本、投资界都往这里面来炒作。所以，你可以在互联网上看到各种推送的文字，什么这个大师，那个什么牛人、达人说得有声有色，一大堆封号。中国是有出“大师”的肥沃的土壤的，特别是在这个万众创新、浮躁的年代。这些文字在混淆公众的视听。也有的是一些中国的研究人员、研究生，半懂不懂，写出来一些，某某梳理机器学习、神经网络和人工智能的历史大事。说得神乎其神。我的大学同学把这种帖子转发给我，让我担忧。我甚至不排除有些教授，比如与硅谷结合很紧密的、在IT公司或者风投公司兼职的，有意识地参与、引领这种炒作。

这对我们的年轻学生其实是很致命的，因为他们不了解这背后的动机，缺乏免疫力。而且现在年轻人和公众都依赖短平快的社交媒体，很少去读专业文献。当公众的思想被这些文字占领了，得出错误的社会性的共识，变成了false common sense，对整个社会，甚至对学术界，都会产生长久的负面冲击。这就形成了新时代的皇帝的新装。我们需要对这种现象发声，做一些严肃的探讨。所以，正本清源有着重要的现实意义。

视觉之于人工智能
人工智能是在60年代中后期起步的。一直到80年代，翻开它的教科书，就是一些启发式搜索，研究最多的是下棋，从国际象棋一直到最近的围棋，都是比较抽象的表达。棋盘的位置是有限的、下棋的动作也是有限的，没有感知和动作执行的不确定性。所有的问题都变成一个图搜索的问题，教科书上甚至出现了一个通用图搜索算法号称可以解决任何人工智能问题。当时视觉问题还没引起大家重视。我这里有一份1966年7月的MIT AI实验室的第100号报告（备忘录memo 100），很短，题目叫做 “The Summer Vision Project”。这个备忘录的基本意思就是暑假的时候找几个学生构造一个视觉系统。他们当时可能就觉得这个问题基本上是不需要做什么研究的。所以你就一个暑假找几个人一起写个程序，就把它干掉算了。现在说起来，当然是个笑话。

人的大脑皮层的活动，大约70%是在处理视觉相关信息。视觉就相当于人脑的大门，其它如听觉、触觉、味觉那都是带宽较窄的通道。视觉相当于八车道的高速，其它感觉是两旁的人行道。如果不能处理视觉信息的话，整个人工智能系统是个空架子，只能做符号推理，比如下棋、定理证明，没法进入现实世界。所以你刚才问到的人工智能和计算机视觉的关系，视觉就相当于说芝麻开门。大门就在这里面，这个门打不开，就没法研究真实世界的人工智能。

到80年代，人工智能，连带机器人研究就跌入了低谷。那时候，很多实验室都改名字了，因为拿不到经费了。客观来说，80年代，一个微型计算机的内存只有640K字节，还不到一兆（1MB一百万字节；我们现在一张图像，随便就是几个兆的大小），根本无法读入一张图像，还谈什么理解呢？等到我做博士论文的时候（1992-1996 年），我导师把当时哈佛机器人实验室最好的SUN工作站给我用，也就是32兆字节。我们实验室花了25万美元构建了一个图像采集系统，因为当时没有数字照相机——可以这么说，一直到90年代中期，我们基本上不具备研究视觉这个问题的硬件条件和数据基础。只能用一些特征点的对应关系做射影几何，用一些线条做形状分析。因为图像做不了，所以80年代计算机视觉的研究，很大部分是做几何。在90年代的末期，发生了一个叫做感知器的革命，带动了大数据和机器学习的蓬勃发展。

机器学习与计算机视觉的关系
计算机视觉是一个domain，它有很多问题要研究，就像物理学。而机器学习基本是一个方法和工具，就像数学和统计学。这个名词的兴起应该还是最近的事情，在我看来，是来自于两股人马。一是80年代人工智能走入低谷后，迎来了人工神经网络的一个高潮，所谓的从符号主义到连接主义的过渡。在中国80年代与气功、人体科学一起走红，但这基本是昙花一现。到了90年代初退潮之后就开始搞NIPS这个会议，引入统计的方法来做。二是做模式识别的一些工程人员EECS背景的。按道理来说，这个领域应该叫做统计学习（Statistical Learning），因为它的方法都是由概率统计领域拿来的。这些人中的领军人物很有商业头脑，把统计和物理的数理模型，改名叫做机器，比如**模型（model）就叫**机（machine），把一些层次模型（hierarchical model）说成是“网”（net）。这样，搞出了几个“机”和“网”之后，这个领域就有了地盘。另一方面，我那些做统计的同事们也都老实、图个清静，不与他们去争论，也大多无力去争。当然，统计学领域也有不少人参与了机器学习的浪潮。简单说，机器学习中的 “机器”就是统计模型，“学习”就是用数据来拟合模型，是由做计算机的人抢占了统计人的理论和方法，然后应用到视觉、语音语言等domains。我在计算机和统计两个系当教授，看得一清二楚。这个问题我以后可以专门讨论。

这个机器学习的群体在2000年之后，加上大量数据的到来，很快就成长了，商业上取得很大的成功。机器学习和计算机视觉大概有百分之六七十是重合的。

正因为我们这个领域很多历史、框架性的东西，没有搞清楚，培养出来的博士就缺乏分析能力。大家被一些工程的任务和数据驱动，被一些性能的指标牵制，对科学的发展比较迷茫。

一个学科要健康发展，需要研究人员、研究生们理解自己领域的历史和大的发展方向。否则，自己家的东西被别人偷取而浑然不知。就像日本打入中国，想把我们的地名改掉，大家开始说日语，把名字都改做山本太郎之类，感觉很酷吗？或者是韩国人把中国的文化拿去申报世界文化遗产，这都是要制止的。否则，过了一代人，还真说不清楚了。我记得刚来美国的时候，美国同事把汉字叫做“Kang-ji”，说是日本字。我们领域很多人对保护这个领域的文化和传统缺乏清醒认识。皮之不存，毛将焉附？