- 10/13
- 2020
-
QQ扫一扫
-
Vision小助手
(CMVU)
在开发人工智能系统的公司中,无论是面部识别,物体检测还是问题解答中,您经常听到这些术语:人员水平的表现。人员水平的准确性。近年来,许多产品都采用了AI算法,这主要归功于机器学习和深度学习的进步。
但是许多比较只考虑了在有限的数据集上测试深度学习算法。当委托关键任务时,这种方法可能会产生对AI系统的错误期望并产生危险的结果。
在最近的一项研究中,来自德国各个组织和大学的一组研究人员强调了评估深度学习在处理视觉数据方面的性能所面临的挑战。研究人员在题为“人机感知比较的臭名昭著的难题”的论文中着重指出了目前比较深层神经网络和人类视觉系统的方法中存在的问题。
在他们的研究中,这位科学家进行了一系列实验,深入挖掘了深度学习结果的深层内容,并将其与人类视觉系统的功能进行了比较。他们的发现提醒我们,即使将AI与人类进行比较,我们在将AI与人类进行比较时也必须谨慎。
计算机视觉的复杂性
在似乎无休止的寻求重建人类感知的探索中,迄今为止被称为计算机视觉,深度学习的领域产生了最有利的结果。卷积神经网络(CNN)是计算机视觉深度学习算法中经常使用的体系结构,正在完成传统软件极其困难的任务。
然而,将神经网络与人类感知进行比较仍然是一个挑战。这部分是因为我们对人类的视觉系统和整个人类的大脑还有很多了解。深度学习系统的复杂运作也使问题变得复杂。深度神经网络以非常复杂的方式工作,常常使自己的创造者感到困惑。
近年来,大量研究试图评估神经网络的内部功能及其在处理现实情况中的区别。德国研究人员在论文中写道:“尽管进行了大量研究,但比较人机感知和机器感知并非易事。”
在他们的研究中,科学家专注于三个领域,以评估人类和深度神经网络如何处理视觉数据。
神经网络如何感知轮廓?
第一个测试涉及轮廓检测。在此实验中,人类和AI参与者都必须说出图像是否包含闭合轮廓。这里的目标是了解深度学习算法是否可以学习封闭和开放形状的概念,以及它们是否可以在各种条件下检测到它们。
您能分辨出以上哪个图像包含闭合形状吗?
“对于人类来说,一个封闭的轮廓在许多开放轮廓的两侧都显得突出。相比之下,对于DNN来说,检测闭合轮廓可能很困难,因为它们可能需要进行远程轮廓集成。”研究人员写道。
在实验中,科学家使用了ResNet-50,这是由Microsoft的AI研究人员开发的一种流行的卷积神经网络。他们使用转移学习在14,000个闭合和开放轮廓的图像上微调AI模型。
然后,他们在各种类似于训练数据并逐渐转向其他方向的示例上测试了AI。最初的发现表明,训练有素的神经网络似乎掌握了闭合轮廓的概念。即使在仅包含直线形状的数据集上训练了网络,也可以在曲线上表现良好。
科学家写道:“这些结果表明,我们的模型确实了解了开放轮廓和闭合轮廓的概念,并且它执行了与人类相似的轮廓整合过程。”
尽管仅在直线示例上进行了训练,但是ResNet神经网络仍能够检测各种打开和关闭的轮廓图像。
但是,进一步的调查表明,其他不会影响人类绩效的变化降低了AI模型结果的准确性。例如,更改线条的颜色和宽度会导致深度学习模型的准确性突然下降。当形状变得大于特定大小时,该模型似乎还难以检测形状。
resnet-50轮廓检测失败
当使用包含颜色和粗细不同且形状大于训练集的图像的图像呈现时,ResNet-50神经网络很难解决。
神经网络对对抗性扰动也非常敏感,它们是精心设计的变化,这些变化是人眼无法察觉的,但会导致机器学习系统的行为中断。
右侧的图像已被对抗性干扰(人类无法察觉的噪声)修改。对人眼来说,两个图像是相同的。但是对于神经网络,它们是不同的图像。
为了进一步研究AI的决策过程,科学家使用了功能包网络,该技术试图定位有助于深度学习模型决策的数据位。研究人员发现,分析证明:“确实存在局部特征,例如端点和短边,通常可以给出正确的类别标签。”
机器学习可以对图像进行推理吗?
第二个实验测试了深度学习算法在抽象视觉推理中的能力。用于实验的数据基于合成视觉推理测试(SVRT),其中AI必须回答需要理解图片中不同形状之间的关系的问题。测试包括不同任务(例如,图片中的两个形状是否相同?)和空间任务(例如,较小的形状是否位于较大形状的中心?)。观察者将很容易解决这些问题。
对于他们的实验,研究人员使用ResNet-50并测试了其在不同大小的训练数据集下的表现。结果表明,对28,000个样本进行微调的预训练模型在相同差异和空间任务上均表现良好。(以前的实验在一百万张图像上训练了一个非常小的神经网络。)随着研究人员减少训练示例的数量,AI的性能下降,但是在相同任务中的降级速度更快。
研究人员写道:“相同的任务比空间推理任务需要更多的训练样本,这不能作为前馈神经网络和人类视觉系统之间系统差异的证据。”
研究人员指出,人类视觉系统自然会接受大量抽象视觉推理任务的训练。这使得在低数据机制下测试深度学习模型不公平,并且几乎不可能就人类和AI内部信息处理的差异得出可靠的结论。
研究人员写道:“很可能是从头开始训练这两种任务的人类视觉系统将在样品效率方面表现出与ResNet-50类似的差异。”
识别间隙是视觉系统最有趣的测试之一。考虑下图。您能不向下滚动就能知道它是什么吗?
以下是同一图像的缩小视图。毫无疑问,它是一只猫。如果我向您展示了图像另一部分(也许是耳朵)的特写镜头,则您可能更有可能预测图像中的内容。我们人类需要看到一定数量的整体形状和图案才能识别图像中的物体。放大得越多,您要删除的功能就越多,就越难区分图像中的内容。
根据它们包含的功能,猫图像不同部分的特写视图对我们的感知有不同的影响。
深度学习系统也可以在功能上运行,但是它们以更巧妙的方式工作。神经网络有时会发现肉眼无法察觉的微小特征,但是即使您放大得非常近,这些特征仍然可以被检测到。
在他们的最终实验中,研究人员试图通过逐渐放大图像直到AI模型的精度开始显着下降来测量深度神经网络的识别间隙。
先前的实验表明,人的图像识别间隙与深度神经网络之间存在很大差异。但是研究人员在他们的论文中指出,以前有关神经网络识别差距的大多数测试都是基于人类选择的图像补丁。这些补丁有利于人类视觉系统。
当他们在“机器选择的”补丁上测试深度学习模型时,研究人员获得的结果表明,人类和AI的差距相似。
识别差距测试评估图像的放大如何影响AI的精度
研究人员写道:“这些结果突出了在完全相同的基础上测试人和机器以及避免人为设计偏差的重要性。” “人与机器之间的所有条件,指令和程序都应尽可能接近,以确保观察到的所有差异都是由于固有的决策策略而不是测试程序的差异而引起的。”
缩小AI与人类智能之间的鸿沟
随着我们的AI系统变得越来越复杂,我们将不得不开发更复杂的方法来对其进行测试。该领域的先前工作表明,许多用于衡量计算机视觉系统准确性的流行基准都具有误导性。德国研究人员的工作是尝试测量人工智能并更好地量化AI与人类智能之间差异的众多努力之一。他们得出结论,可以为未来的AI研究提供方向。
研究人员写道:“人与机器之间的比较研究中的总体挑战似乎是内部人类解释的强烈偏见。” “适当的分析工具和广泛的交叉检查(例如,网络体系结构的变化,实验程序的对齐,泛化测试,对抗性示例以及受约束的网络的测试)有助于合理化对结果的解释,并将这种内部偏见视为现实。总而言之,在比较人与机器的感知时,必须注意不要强加我们的人为系统性偏见。”
- 上一条:如何防止机器视觉线扫描相机热引起的图像变形
- 下一条:光源在外观缺陷检测中的应用