- 03/29
- 2023
-
QQ扫一扫
-
Vision小助手
(CMVU)
你的物体检测器足够鲁棒吗,可以试试下面的6中场景。你的物体探测器能检测出下图中的人和马吗?
如果同样的图像旋转90度会怎样?还能探测到人和马吗?
这些图片里的猫可以检测出来吗?
我们在计算机视觉方面已经取得了长足的进步。在某些任务中,使用人工智能的目标检测算法已经超过了人类。但是,为什么当图像旋转90度时,仍然很难检测出一个人,如果它以一个不寻常的姿势躺着,那么就检测出一只猫,或者如果一个物体只有部分可见,那么就检测出它。
从2012年AlexNet开始,针对目标检测和分类建立了很多模型,并且在准确性和效率方面都在不断提高。然而,大多数模型都是在理想的场景中训练和测试的。但在现实中,使用这些模型的场景并不总是理想的:背景可能杂乱,对象可能变形,或者可能被遮挡。以下面猫的图片为例。任何经过训练可以检测猫的物体检测器都会检测到左边图像中的猫,无一例外。但对于右边的图像,大多数检测器可能无法检测到猫。
对人类来说微不足道的任务对计算机视觉来说无疑是一个挑战。我们人类很容易识别出一个人,无论是在任何方向的图像,或不同姿势的猫,或从任何角度看一个杯子。让我们来看看稳定地检测物体的6个这样的障碍。
1. 视角变化
一个物体从不同的角度看可能会完全不同。举一个简单的杯子的例子(参考下面的图片),第一张图片显示的是一个黑咖啡的杯子的俯视图与第二张图片显示的有卡布奇诺的杯子的侧视图和俯视图完全不同,第三张图片显示的是杯子的侧视图。这是目标检测的挑战之一,因为大多数检测器只接受特定视角的图像训练。
2. 变形
许多物体都不是刚体,而且会以极端的方式变形。举个例子,让我们看看下面练习瑜伽修的人的不同姿势的图片。如果目标检测器被训练来检测一个人的训练,只包括人坐,站,或行走,它可能无法检测这些图像中的人,因为这些图像中的特征可能不匹配它在训练期间了解到的人。
3. 遮挡
目标可能被遮挡。有时只有一个物体的一小部分,只有很少的像素是可见的。
例如,在上图中,物体(杯子)被手持杯子的人挡住了。在大多数情况下,当我们只看到一个物体的一部分时,我们可以立即辨认出它是什么。然而,物体检测器却不一样。遮挡的另一个例子是一个人拿着手机的图像。在这些图像中检测手机是一个挑战:
4. 光照条件
光照在像素级上的影响是剧烈的。物体在不同的光照条件下表现出不同的颜色。例如,一个室外监控摄像头全天暴露在不同的照明条件下,明亮的日光,夜晚和夜间的光。行人的图像在这些变化的照明看起来不同。这影响了检测器对目标的鲁棒检测能力。
5. 杂乱和相似纹理的背景
感兴趣的目标可能会混入背景中,使他们难以识别。例如,下面图片中的猫和狗是和地毯混在了一起。在这种情况下,物体检测器将面临检测猫和狗的挑战。
6. 类内多样性
感兴趣的目标通常可以是比较宽泛的,比如一座房子。这些目标有许多不同类型,每一种都有自己的外观。下面所有的图片都是不同类型的房子。一个好的检测器必须足够健壮,能够检测到所有这些变化,同时还能保持对类间差异的敏感性。
解决方案
为了创建一个鲁棒的目标检测器,确保对于不同的视角、光照条件和不同背景的目标,训练数据有良好的变化。如果你无法找到所有变化的真实训练数据,请使用数据增强技术来合成你需要的数据。
(文章来源于网络,如有侵权,请联系删文)