若干背景建模方法的分析和比较--专业论文--论文--机器视觉网

摘要：前景检测是视频监控系统的一个基本要求，也是进一步进行目标分析的基础。视频监控系统中前景检测常用的方法是背景相减，而背景相减的关键是如何从视频序列中建立背景模型。针对不同的应用环境，人们已提出了多种背景建模的方法，常用的如基于单高斯模型的方法，基于混合高斯模型的方法，基于统计的背景建模方法，基于码本的方法等。本文借助开放的微软通用视频库[1]，对若干现有的背景建模方法进行了实现和实验比较。在此基础上，对各种方法的相对性能和适用性进行了分析和讨论。

关键词：前景检测；背景建模；背景相减；视频监控

1 引　言

随着社会对安全要求的日益重视和提高，视频监控成为了一个热点话题。视频监控系统中的一个基本要求就是前景目标提取（有时也称运动目标检测）。由于视频监控中的摄像机通常是固定不动的，所以通用的方法是首先对进行背景的建模，然后利用帧间背景相减的方法完成对视频序列中的运动物体的检测。背景相减法的基本思路是从当前图像中减去参考图像。这个参考图像是通过训练和学习视频序列而获得的背景模型。基于背景建模来提取视频序列中运动前景的主要步骤有三个：

(1)　训练阶段，进行背景建模

背景建模的过程是对训练视频序列的学习过程。在训练阶段，通过学习一段训练图像序列来提取这个视频序列中的背景特征，从而建立一个数学模型来描述这个背景。

(2)　检测阶段，将检测图像和背景模型进行相减运算，得到运动前景。

检测阶段，用背景模型对需要检测的视频序列进行处理（一般采用背景相减法），提取出当前图像中与背景模型中性质不同的像素点，这些像素点组成的图像是运动前景。

(3)　更新阶段，更新背景模型参数

由于视频监控通常是全天候的工作，监控场景的光照会随着时间而发生变化，有时摄像头会受到外界因素的影响（如风，人为的调整等）。这些因素都促使对背景模型进行更新，使其参数能够反映当时实际的情况。

本文对一些典型的背景建模方法，利用开放的微软通用视频库[1]进行了测试，对了解各种方法的检测性能和适用性提供了第一手的材料。下面先对所用方法进行介绍，然后给出实验结果并讨论。

2方法分类分析

具体的应用场景中一般包括前景和背景，考虑到前景和背景的运动与否，可将需要背景建模的情况分成以下4类：

(1)　背景静止，无运动前景；

(2)　背景运动，无运动前景；

(3)　背景静止，含运动前景；

(4)　背景运动，含运动前景。

背景建模的方法很多，常用的比较典型的有：

(1)　基于单高斯模型的方法

该模型认为像素点的值在视频序列中服从高斯分布。这种模型适用于较长时间内光照强度无明显变化，同时检测期间运动前景在背景中的阴影较小的情况。它对光照强度的变化比较敏感；在场景中有运动前景时，由于只有一个模型，所以不能将其与静止背景分离开，有可能造成较大的虚警率。

该模型具体说来，就是针对每个固定的像素点 (x0, y0)，计算N帧训练图像序列中该点的像素值的N个样本的均值和方差。用计算出来的均值I和方差就可以唯一确定该单高斯背景模型，也就是说这个均值I和方差是该单高斯模型的全部参数。背景相减后的值与阈值（取3倍的方差）比较，即根据|It – I| 3就可以判断前景或者是背景。

(2)　基于统计的背景相减方法

该方法（简称S-BGS）采用将颜色分解为亮度和色度的模型，克服了单高斯模型对光照强度敏感带来的问题，提高了检测率[2]。它可以解决局部照明变化（如影子和高亮部分）带来的问题，也可以处理全局照明变化带来的问题。但它也只适用于静止背景下无运动前景的背景建模。

(3)　基于图像序列初始化的方法

该方法通过提取图像序列中各像素点上的稳定子序列将背景数据提取出来，然后可以采用单高斯模型或者基于统计的背景相减方法对背景建模，从而将含运动前景时的背景建模问题转化为静止背景下无运动前景的背景建模问题[3]。

对N帧含运动前景的训练图像，设定一个最小长度Lw，对每个像素点的长度为N的序列进行截取，得到像素值相对稳定的子序列{Lk}，设第k个子序列Lk的像素值在时刻t的值为Lk(t)，第k个子序列应满足：

其中Tf是设定的门限，一般常取为0。

然后就可以利用单高斯模型或者基于统计的背景相减方法对背景进行建模

(4)　基于混合高斯模型的方法

为克服单高斯模型不能处理背景中有运动目标的问题，可引入混合高斯模型（MOG）。对背景的多个状态分别建模，根据数据属于哪个状态来更新该状态的模型参数，这样就解决了运动背景下的背景建模问题[4]。不过，当背景的状态较多时，该模型在对背景建模时还会遇到一些问题。

基于混合高斯模型的基本方法是依次读取N帧训练图像，每次对每个像素点进行迭代建模。下面设K为每个像素允许的最大模型个数，开始时设一个初始标准差。当读入一幅训练图像时，将用它的像素值来更新原有的背景模型。对一个特定的像素，如果它的像素值与某个高斯模型的均值的差小于2.5倍的标准差，那么认为这个像素与该模型相适应，则用它的像素值更新该模型的均值和方差。如果当前像素点模型个数小于K，则对这个像素点建立一个新的模型。如果已经判断了K个模型并且它们都不符合条件，则将权重最小的模型替换为新的模型，新模型均值即为该像素点的值，这时再设定一个初始标准差。如此进行，直到N帧训练图像都训练过。

(5)　基于码本的建模方法

在基于码本的建模方法中，每个码字代表一个状态[2]。通过一个时域滤波器滤除代表运动前景的码字，再通过一个空域滤波器恢复那些被时域滤波器错误滤除的代表较少出现的背景的码字，这样就可以处理静止背景下含有运动前景的背景建模问题和运动背景下的背景建模问题。

它建模的基本思想是，先根据视频序列产生最初的码本（codebook），借助码字（codeword）中的一个参数“最长未出现时间”进行时域滤波处理。这样做的目的是滤除码书中可能代表前景图像的那些码字。最后再经过空域滤波，将上一步错误删除的代表较少出现的背景状态的码字恢复到码本中。

根据上面的介绍和讨论，可将各种情况下的背景建模方法归纳在表1中。

3 实验结果和讨论

实验数据采用了微软通用图像数据库中的Movedobject和WavingTrees里三个序列[1]，共150帧，每幅彩色图像的尺寸为160×120。

实验时，对每幅测试图像，用图像编辑软件检测出参考结果。用测试的各种背景建模方法对测试图像进行目标检测，得到二值检测结果。将检测结果与参考结果比较，分别统计检测率（检测出的实际前景的像素数占真实前景的像素总数的比）和虚警率（检测出的本不属于前景的像素数占所有检测为前景的像素数的比），以它们作为指标进行评测。

下面分别介绍针对三个序列进行的三组实验的结果：

(1)　静止背景下无运动前景时的背景建模

图1给出三幅测试图像，初始场景中只有静止背景，要检测的是进入场景的人。图2给出对应的参考检测结果。

图3给出用基于单高斯模型的方法对图1建模检测的结果。图4给出用基于统计的背景相减方法对图1建模检测的结果。对比两图看，基于统计的背景相减方法给出较好的结果。

表2给出对两种方法检测率和虚警率的统计结果。可见两者的虚警率比较接近，但基于统计的背景相减法的检测率比基于单高斯模型的方法的检测率有明显提高，这主要是由于前者将亮度和色度分离开分别计算，并利用色度的背景相减的结果。

(2)　静止背景下含运动前景时的背景建模

图5给出三幅测试图像，初始场景中原有人，后来离去，要检测的是进入场景的人。图6给出对应的参考检测结果。

图7给出用基于图像序列初始化方法对图5建模检测的结果。图8给出用基于码本的建模方法对图5建模检测的结果。

表3给出对两种方法检测率和虚警率的统计结果。可见基于码本的建模方法比基于图像序列初始化的方法的检测率要高而虚警率要低（这从将图7和图8分别与图6对比也可看出）。由于视频序列的初始化方法将视频序列初始化后仍然采用基于单高斯模型的方法或者基于统计的背景相减法建模，因此和这两种方法用于静止背景下无运动前景时进行背景建模的检测率和虚警率大致相同。而基于码本的建模方法针对每个像素点建立多个码字，从而提高了检测率。同时，检测过程中所用的空域滤波器又降低了虚警率。

图11给出用基于混合高斯模型的方法对图9建模检测的结果。图12给出用基于码本的建模方法对图9建模检测的结果。对比两图并与图10进行对照可见，两种方法的检测结果相当接近，且与参考检测结果大体相同。

表4给出对两种方法检测率和虚警率的统计结果。基于混合高斯模型的法和基于码本的建模方法的相同点都是针对背景运动设计了较多的模型，因而都有较高的检测率。不过前者没有与后者的空域滤波器相对应的处理步骤，因此前者的虚警率比后者稍高。

4 结　语

本文通过对一些典型背景建模方法的分析比较和实验比较，对它们的优缺点以及适用条件有了

一定的把握，为正确使用它们打下了基础。其中，基于码本的统计建模方法既可以处理静止背景下含有运动前景的情况也可以处理运动背景下无运动前景的情况。而且该方法除有较高的检测率外虚警率也较低，有很好的应用前景。

在本文在所比较的方法中，基于单高斯模型的方法是各种方法中最简单的，但其适用条件比较苛刻。不过基于单高斯模型方法的提出是很有意义的，它将前景提取的问题划分为了两个阶段，即训练阶段和检测阶段，通过训练阶段对背景建立数学模型，而在检测过程中，利用所建模型中的参数消除检测图像中的背景，获得运动前景。其他方法都是为了克服其局限性而进行的改进。不过这些方法除了单高斯模型外，其他方法的共同的缺点是如果需要更新背景则需要重新计算整个背景模型，而不是简单的参数迭代更新。能否在更新背景后避免或部分避免重新计算整个背景模型是一个需要进一步研究的问题。

参考文献

[1]Toyama K, Krumm J, Brumitt B, et al. “Wallflower: Principles and practice of background maintenance”. Proc.ICCV, 1:255-261, 1999.

[2]Chalidabhongse T H. “A real-time system for detecting and tracking people in video”. Ph.D. thesis, University of Maryland, 2001

[3]Wang H Z and Suter D. “A Novel Robust Statistical Method for Background Initialization and Visual Surveillance”. Proc. 7ACCV, 328~337, 2006

[4]Stauffer C, Grimson W E L. “Adaptive background mixture models for real-time tracking”. Proc. CVPR, 2: 246-252, 1999.