机器学习如何帮助解决大数据转换和管理问题 --机器视觉网

尽管大数据分析技术取得了惊人的进步，但我们在很大程度上仍需要手动来完成重要任务，例如数据转换和数据管理。随着数据量的增长，手动完成任务与自动化产生的生产力差距越来越大，这使得以人工智能和机器学习为基础的自动化趋势越来越有市场。机器学习可以帮助缩小这一差距吗？

坦率地说，数据转换和数据管理问题颇具挑战性。各行各业的公司都渴望将机器学习与他们的数据库结合使用，以获得竞争优势。但是，数据不干净、数据未集成、不可比较和不匹配的数据问题层出不穷，使公司的大数据计划陷入困境。

许多从事机器学习的数据科学家花费了90％的时间来查找、集成、修复和清理其输入数据。人们似乎没有意识到数据科学家不再是数据科学家，而是成为了数据集成商。

不过也有一个好消息，机器学习本身可以帮助机器学习。这个想法是利用算法的预测能力来模拟人类数据处理。这不是100％完美的解决方案，但它可以帮助缓解工作强度，让数据科学家转向真正的创新工作。

转换和管理数据

虽然它们在某些方面是相似的，但是数据管理和数据转换之间有重要的区别。数据转换是数据集成过程中的第一步，其目标是将异类数据转换为通用的全局模式，组织可以提前制定该模式。自动脚本通常用于将美元转换成欧元，或将英镑转换成公斤。

转换阶段之后，分析人员开始管理和分析数据。第一步通常涉及运行“match／merge”函数来创建与相同实体对应的记录集群，例如将不同但拼写相似的名称分组在一起。像“编辑距离”这样的概念可以用来确定两个不同实体之间的距离。

然后使用更多的规则来比较各种实体，以确定给定记录的最佳值。公司可以声明最后一项是最好的，或者使用一组值中的公共值，这样就可以产生最佳数据。

几十年来，这种通用的两步过程已在许多数据仓库中使用，并且在现代的数据湖中继续使用。但是，ETL和数据管理在很大程度上未能跟上今天的数据量以及企业面临的挑战规模。

例如，这需要预先定义一个全局模式，这阻碍了许多ETL的进行，这些工作试图集成更多的数据源。在有些时候，程序员无法跟上必须设置的数据转换规则的数量。

如果您有10个数据源，您还可以这样做，但是，如果您有10，000个，那就不太可能了。

显然，这需要一种不同的方法。

在小型企业中，您可能可以提前创建全局数据模式，然后在整个组织中强制使用它，从而省去了昂贵的ETL和数据管理项目的成本，一起放在数据仓库中。但是，在大型组织中，这种自上而下的方法不可避免地会失败。

即使大型企业中的业务部门彼此非常相似，它们记录数据的方式也会有微小的差异。这些微小差异需要加以考虑，然后才能对其进行有意义的分析，这只是企业数据性质的反映。

因此业务灵活性需要一定程度的独立性，这意味着每个业务部门都建立自己的数据中心。

例如，以丰田汽车欧洲公司（Toyota Motor Europe）为例，该公司在每个业务国家都有独立的客户支持组织。该公司希望为250个数据库中的所有实体创建一个主记录，其中包含40种不同语言的3000万条记录。

丰田汽车欧洲公司面临的问题是，ETL和数据管理项目的规模是巨大的，如果按照传统方式进行，将消耗大量的资源。该公司决定使用Tamr来帮助解决机器学习的挑战，而不是数据转换和使用数据管理过程。

ETL最大的问题是已经预先定义了全局模式，如何大规模地做到这一点是个问题。需要使用机器学习进行自下向上的匹配、自下而上地构造目标模式，从规模上看，这是唯一可行的方式。

这并不意味着机器学习提供了非常简单的方法来解决这些棘手的数据集成问题。它仍然需要大量的数据和处理能力，您通常需要一个最优秀的员工来帮助指导软件获得正确的数据分析结果与决策见解。

这样来看的话，成本并不便宜，但这不是最重要的。但还有一个问题是，不同的供应商之间该如何选择。不同国家或地区的供应商提供的解决方案不同，而且出于一些宏观因素，会出现不同的选择。

出于安全考虑，这些数据问题不能完全外包给其他公司，所以不要指望完全用机器学习来处理数据，人在其中的作用还是非常重要的。人与机器学习合作才能够使您的数据集成和管理效率最大化。