大数据：人工智能的基石--机器视觉网

　　目前的深度学习主要是建立在大数据的基础上，即对大数据进行训练，并从中归纳出可以被计算机运用在类似数据上的知识或规律。那么，到底什么是大数据呢？
　　人们经常笼统地说，大数据就是大规模的数据。
这个说法并不准确。“大规模”只是指数据的量而言。数据量大，并不代表着数据一定有可以被深度学习算法利用的价值。例如，地球绕太阳运转的过程中，每一秒钟记录一次地球相对太阳的运动速度、位置，可以得到大量数据。可如果只有这样的数据，其实并没有太多可以挖掘的价值，因为地球围绕太阳运转的物理规律，人们已经研究得比较清楚了。
　　那么，大数据到底是什么？大数据是如何产生的？什么样的数据才最有价值，最适合作为计算机的学习对象呢？
　　根据马丁·希尔伯特的总结，今天我们常说的大数据其实是在2000年后，因为信息交换、信息存储、信息处理三个方面能力的大幅增长而产生的数据：
　　信息交换：据估算，从1986年到2007年这20年间，地球上每天可以通过既有信息通道交换的信息数量增长了约217倍，这些信息的数字化程度，则从1986年的约20%增长到2007年的约99.9%。在数字化信息爆炸式增长的过程里，每个参与信息交换的节点都可以在短时间内接收并存储大量数据。
　　信息存储：全球信息存储能力大约每3年翻一番。从1986年到2007年这20年间，全球信息存储能力增加了约120倍，所存储信息的数字化程度也从1986年的约1%增长到2007年的约94%。1986年时，即便用上我们所有的信息载体、存储手段，我们也不过能存储全世界所交换信息的大约1%，而2007年这个数字已经增长到大约16%。信息存储能力的增加为我们利用大数据提供了近乎无限的想象空间。
　　信息处理：有了海量的信息获取能力和信息存储能力，我们也必须有对这些信息进行整理、加工和分析的能力。谷歌、Facebook等公司在数据量逐渐增大的同时，也相应建立了灵活、强大的分布式数据处理集群。
从应用角度来说，今天的大数据越来越多地呈现出以下一种或几种特性：
　　大数据越来越多地来源于生产或服务过程的副产品，但在价值上却往往超过了为了特定目的专门采集的数据。例如，谷歌曾利用全球用户查询中，涉及流行性感冒的关键词的出现频率变化情况，对2003年到2008年全球季节性流感的分布和传播进行跟踪与预测。这一预测的覆盖规模和价值甚至超出了各国卫生部门专门收集相关数据所做的预测。
　　大数据往往可以取代传统意义上的抽样调查。例如，按照传统方式，电视台某个节目的收视率往往要由专业调查公司通过抽样调查的方式获得数据后估算出来。现在，有了微博或类似的社交网络，我们可以直接利用微博上每时每刻产生的大数据对节目热度进行分析，其准确性往往超过传统的抽样调查方式。
　　许多大数据都可以实时获取。例如，每年双十一，在各类电子商务平台上，每时每刻都有成千上万笔交易正在进行，所有这些交易数据在阿里交易平台的内部，都可以实时汇总，供人们对双十一当天的交易情况进行监控、管理或分析、汇总。大数据的实时性为大数据的应用提供了更多的选择，为大数据更快产生应用价值提供了基础。
　　大数据往往混合了来自多个数据源的多维度信息。假如能利用用户ID，将用户在微博上的社交行为，和用户在电子商务平台的购买行为关联起来，就可以向微博用户更准确地推荐他最喜欢的商品。聚合更多数据源，增加数据维度，这是提高大数据价值的好办法。
　　大数据的价值在于数据分析以及分析基础上的数据挖掘和智能决策。大数据的拥有者只有基于大数据建立有效的模型和工具，才能充分发挥大数据的价值。例如利用谷歌趋势对过去5年全球地震分布进行分析汇总。根据用户查询地震相关关键词的频率，看出过去5年内主要地震的发生时间和地点。在这里，谷歌趋势就是一个利用已有大数据建模、分析、汇总的有效工具。