首页>论文>正文
日期
05/04
2010
咨询
  • QQ扫一扫

  • Vision小助手
    (CMVU)

基于Gabor特征的线性降维人脸识别算法的实验比较
收藏
2010-05-04 12:03:06来源: 王树徽,李乐,章毓晋

摘  要:本文借助ORL人脸数据库和PIE人脸数据库设计并进行了大量的实验,以此比较了基于Gabor特征的线性降维算法各模块的不同构成方式间的差异,讨论了光照变化和人脸姿态变化对基于Gabor特征的线性降维算法的影响。实验结果表明:1、对人脸识别来讲,Gabor特征能够比纯灰度信息更好的表示人脸图像特性;2、在训练样本较多时,Gabor+PCA+LDA算法比Gabor+PCA算法性能要好;3、如图像间光照变化不大,在用Gabor特征作为线性降维算法的输入情况下,预处理中采用直方图均衡化对提高识别率并无益处;4、如图像间光照变化很大,预处理中采用直方图均衡化对于提高基于Gabor特征的线性降维人脸识别算法的性能非常重要;5、无论是应用最近中心分类器还是应用最近特征线分类器,采用城区距离都比采用欧几里德距离更利于分类;6、测试图像的背景亮度和训练图像的背景亮度是否一致对基于Gabor+PCA的算法性能影响很大;7、姿态的变化对基于Gabor特征的线性降维算法性能影响很大。
关键词:Gabor特征,ORL,PIE,PCA,LDA

1 引言
   
人脸识别技术现在指通过计算机或其他人工系统, 对某个人的脸部图像进行识别,从而判定这个脸部图像代表的个体是不是数据库当中特定的某个人或者是否属于某类人。人脸识别属于机器智能,最近几年这个技术正在受到越来越多的关注。一方面,召开了众多相关的国际学术会议,发表了许多研究文章;另一方面,市场上也出现了各种商业化的人脸识别系统。这些都说明人脸识别技术正在从发展期走向成熟期。
   人脸识别算法大致分为三类:全局匹配方法;局部特征以及结构匹配;混合方法[1]。全局匹配方法是应用比较广泛的一类[1]。基于Gabor特征的线性降维算法属于全局匹配方法。
   Gabor小波在图像分析和计算机视觉方面有着广泛的应用。它提供了一种有效的图像分析途径。它的主要优势在于其无限的平滑能力以及频域响应的指数衰减特性。当被用于提取人脸特征时,它不但能够很好的提取人脸部的不同尺度和不同方向的细节,而且它对光照变化、人脸图像的平移和微小形变等不利因素也有一定的适应能力[2],所以Gabor小波变换在人脸识别技术领域被广泛使用。
   基于PCA和LDA的线性降维方法以其数学基础的成熟和实现上的简单而被深入地研究。PCA通过对训练样本集合的相关矩阵进行特征值分解实现,它旨在针对所有图像提取出最能够表现所有图像特征的特征向量集[3]。LDA利用样本当中的类信息,试图“重塑”样本集合的分布,从而使其更加有利于分类[4]。LDA算法提取出的是最能体现不同人脸类的特征向量。
    基于Gabor特征的PCA和LDA方法目前已被广泛使用,因为相比在纯灰度人脸图像上进行PCA和LDA,在Gabor“小波脸”上进行PCA和LDA的性能更好[2]。
   有很多文献已经对基于Gabor特征的PCA和LDA算法进行了比较[2,5,8,9]。但是,他们采用的评价准则并不十分客观。本文采用了一个不同于以往的评价准则对基于Gabor特征的线性降维算法的性能进行了分析和实验比较,具体的工作包括:比较了基于Gabor 特征的PCA和基于Gabor特征的LDA算法性能间的差异;比较了采用不同的预处理方式时算法性能间的差异;比较了采用不同分类器时算法性能间的差异和采用不同距离度量时算法性能间的差异。此外,光照变化和姿态变化对基于Gabor特征的线性降维算法的影响在以往文献中并没有被深入讨论过,本文分别建立了三个控制型实验以揭示算法对这两种变化的适应性特点。
2 实验设计
   本文在实验中用到三种分类器:最近邻法分类器(Nearest Neighbor Classifier,NN)[3],它找出特征空间与测试样本点距离最近的训练样本点;最近中心法分类器(Nearest Center Classifier,NC)[5],它找出特征空间中与测试样本最近的训练样本集合的中心;最近特征线法分类器(Nearest Feature Line Classifier,NFL)[5],它找出与测试样本距离最近的特征线属于的类,特征线由每个类的训练样本两两连接而成。
  在分类过程中,本文实验将涉及到两个距离度量,它们分别是城区距离(简记为L1)和欧几里德距离(简记为L2)。
   本文所用数据库分别为ORL数据库和PIE数据库,下面分别介绍。
2.1  基于ORL数据库的实验
   ORL数据库包含了40个人的400幅大小为92112的PGM格式灰度图,每个人都被收集了10幅不同的图像,标号从1到10。所有的图像都有着相似的暗背景,同一人的不同图像是在不同的时间、不同的光照、不同的头部姿态(上倾、下倾、左偏和右偏)、不同的人脸表情(睁/闭眼,笑/严肃)和不同的人脸细节(有/无眼镜)下拍摄而得的,但通常上述的几种变化并不会同时出现在同一个人的10幅图像中。
   基于ORL数据库的实验主要包括两部分。
   第一部分测试Gabor + PCA在主成分保留数量从少到多的情况下采用NFL和NC分类器的识别率变化,比较NFL分类器和NC分类器的分类效果,并通过变化曲线确定Gabor+PCA应保留的主成分数目的合理值,这将作为第二部分比较型实验中主成分数目选取的标准。
第二部分测试基于Gabor特征的线性降维算法中各个模块的不同构成方式间的差异:Gabor特征结合PCA和Gabor特征结合LDA的识别率比较;采用与不采用光照均衡化对识别率的影响;采用NFL分类器和NC分类器时分别结合L1距离度量和L2距离度量的算法识别率比较。
   在ORL库上,本文采用的评价准则和以往的有所不同。如按以往的文献中的训练样本选择方式,每次选择训练集时,所有的人被选入人脸训练集合的5幅图的标号都相同,则训练集合的选择方式总共只有种。事实上,如果每个人都随机选5张图进行训练,那么可能的选择情况应该有种。可见以往文献提出的训练样本的选择方式其实只是所有可能情况的一种子集。本文认为,由这样一个子集获得的实验结果虽有一定意义,但还不能全面反映一个算法在任意训练输入下的一般性能。不过如果选择所有的组合,那实际选择的图数目又会非常大,接近无限,计算量不能容忍。所以,采用穷举法对所有情况都进行测试的方法是不现实的。一种替代方法就是对算法识别率进行基于多次实验的无偏估计。
   本文提出的准则是,对属于性能评价的算法实验,要随机选择训练样本,使得类和类之间样本选择没有任何关联,并做足够多次数的实验,获得的结果求平均作为对算法识别率的估计(本文基于ORL的实验中每一个结果的获得都经过了300次随机实验)。实验的次数越多,估计的置信度就越高。
2.2  基于PIE数据库的实验
   PIE(CMU pose Illumination, and Expression face database)[7]总共有68个人脸类,4万多幅图,每个人有600多幅图。该库的图都是彩色图像,以PPM格式存储,分辨率为640486,这个库的特点是人脸的大小不一,背景多样,光照(43种光照条件)和姿态(13种姿态)变化都很大。库中有两种背景光条件,一种是开室内灯,另一种是关室内灯。在每种背景灯光下,都用21种不同方向的闪光灯对人脸进行照射,所以有方向光的光照情况总共是42种,第43种则是在开室内灯背景下没有任何方向光的人脸图像,称之为中性光照。
 在本部分实验当中,采用了其中的25个人的部分图像。根据实验需要,这些图像被重新组合为三个子库。
  子库一有25个人,每个人43幅图,都是正脸图,包含所有的43种照明条件。本子库用于测试算法对光照变化的适应性实验。在该部分实验中用每个人的中性光照正面图像作训练(共25幅),用其他1050幅作测试。在这1050幅图中,有525幅开灯背景的图,有525幅关灯背景的图,实验将分别给出对不同背景光测试图的识别率。
   子库二有25个人,每个人7幅图,7种头部姿态,正脸,微抬,微低头,左右分别偏转22.5度和45度,光照条件为正面、无室内背景光,本子库用于测试算法对姿态变化的适应性实验。在该部分实验中,算法用正脸训练(共25幅),用其他姿态的共150幅图测试。
   子库三有25个人,每个人147幅图,7种头部姿态,正脸,微抬,微低头,左右分别偏转22.5度和45度,21种光照条件均属于无室内灯光背景下的21种方向光。每种照明条件都有上述7种姿态。本子库用于测试算法在多姿态训练下对光照的适应性实验。该实验对每一识别个算法需要重复训练和测试21次。每次实验都用某一种照明条件下的所有姿态图进行训练,所以每个人的训练图是7幅,其他所有照明条件下所有姿态的140幅图用来测试。每一种照明条件都被选作训练一次且仅测试一次。最后计算21次实验的平均识别率。
3 实验结果与分析
 下面分别对两个库的实验结果进行介绍。
3.1  基于ORL库的实验结果
   ① 图1给出的是用5幅图进行训练用另5幅图进行测试时识别率随特征向量数的变化曲线。其中,上面蓝线是NFL+L1结果,最高识别率为96.9%;下面红线是NC+L1结果,最高识别率为96.29%。
图1表明:对比纯PCA方法在同等实验条件下的实验结果(最高识别率89.5%)[2],Gabor特征结合PCA的方法不论用哪种分类器性能都更好(最高识别率都达到了96%以上);在主分量数相等的情况下,NFL结合Gabor+PCA的效果要好于NC结合Gabor+PCA的效果;为达到较高的识别率,用NC时要保留约70%左右的主分量,而用NFL时一般只要保留约60%左右的主分量。所以,使用Gabor+PCA算法无论是用NC还是NFL作为分类器,保留80%的主成分是能保证算法有较高性能的。

  ② 用5幅图进行训练用另5幅图进行测试得到的各算法组识别率结果见表1。这里依照实验一的结果,采用PCA时主成分都保留80%;而进行LDA之前应先用PCA进行降维,主成分也保留80%,以解决LDA可能出现的病态问题。
表1 Gabor+PCA和Gabor+PCA+LDA结合不同分类器和距离度量时的识别率

    表1中的对比实验结果表明:如图像间光照变化不大(如ORL库中的图像),在用Gabor特征作为线性降维的输入情况下,采用直方图均衡化预处理方法对算法识别率提高不能产生积极的影响;在训练样本比较多的情况下,Gabor+PCA+LDA能获得比Gabor+PCA更高的识别率。在分类器选择上,采用NFL的结果要好一些,这应是因为NFL扩展了利用训练样本表征人脸类的能力[5];在距离度量的选择上,L1距离要比L2距离更有利于分类。
3.2  基于PIE数据库的实验结果
 ① 测试算法对光照变化的适应性实验
 实验结果见表2。由表2可见:光照变化很大时,采用光照均衡化预处理能得到很好的效果;测试图像的背景亮度和训练图像是否一致对Gabor+PCA的性能影响很大。
表2  测试算法对光照变化的适应性的实验(Gabor+PCA+NN)
   

预处理

方式

识别率

有背景光

无背景光

平均

未均衡化

79.24%

10.10%

44.67%

均衡化

100%

27.81%

63.90%


② 测试算法对姿态变化的适应性实验
 实验结果见表3。由表3可见:在单姿态(正面脸)训练输入的情况下,Gabor+PCA对姿态变化的适应能力比较差。
表3  测试算法对姿态变化的适应性的实验(Gabor+PCA+NN)

预处理方式

未均衡化

均衡化

识别率

30%

  32.67%

③ 测试算法在多姿态训练下对光照的适应性实验
表4  测试算法在多姿态训练下对光照适应性实验(NFL+ L1)

预处理方式

识别率

Gabor+PCA

Gabor+ PCA+ LDA

无均衡化

64.99%

54.10%

有均衡化

77.11%

71.26%


   实验结果见表4。由表4可见:在训练样本的姿态变化非常大的时候,Gabor+PCA+LDA算法性能不如Gabor+PCA。可能的原因是因为样本在特征空间的分布太分散,LDA无法找到最优的分类投影子空间。
4  总 结
    本文比较了基于Gabor特征的线性降维算法中各模块的不同构成方式间的差异,讨论了光照变化和人脸姿态变化对基于Gabor特征的线性降维算法的影响,并借助ORL人脸数据库和PIE人脸数据库进行了大量的实验。
    通过对上述实验结果的综合分析可以得到如下的结论:1、对人脸识别来讲,Gabor特征能够比纯灰度值信息更好的表示人脸图像的特性;2、在训练样本较多时,Gabor+PCA+LDA算法比Gabor+PCA算法性能要好;3、如图像间光照变化不大,在用Gabor特征作为线性降维算法的输入情况下,预处理中采用直方图均衡化对提高识别率并无益处;4、如图象间光照变化很大,预处理中采用直方图均衡化对于提高基于Gabor特征的线性降维人脸识别算法的性能非常重要;5、无论是应用最近中心分类器还是应用最近特征线分类器,采用城区距离都比采用欧几里德距离更利于分类;6、测试图像的背景亮度和训练图像的背景亮度是否一致对基于Gabor+PCA的算法性能影响很大;7、姿态变化对基于Gabor特征的线性降维算法性能影响很大。
另外还有几点可以指出:
    通过实验可见,人脸识别中最重要的任务可看成是采用一种特定方式将人脸图像表示成最便于识别和分类的空间坐标集合。
    相对于灰度特征表示法,Gabor小波变化能够将人脸图像的不同尺度和不同方向的细节表示出来,并对个别像素值的突变和图像噪声有很好的过滤作用,这被认为是对人的生物认知过程的一种近似。因此,在理论上Gabor小波特征这种比灰度特征更高一级的特征更能够表示出人脸的特点[2],即将人脸图像表示在特征空间中的不同位置,从而更明显地体现出不同人脸间的差异,以上实验结果证明了这一点。
    PCA旨在最大程度的描述所有人脸图像的变化,而LDA旨在最大程度的体现不同人脸类之间的差异[10]。当每个人的训练图像越多,对于PCA而言是增加了所有人脸图像间的变化信息,不同人脸类间的差异信息并没有显性增多;而对于LDA而言,这的确增强了提取类特征的能力,因此获得的特征坐标更有利于分类。
    最后,城区距离比欧几里德距离对一些细节差异更敏感。本文实验的人脸数据库似乎人脸细节差异较多些,所以采用城区距离更加有利于分类。

参 考 文 献
 1.W. Zhao, R. Chellappa, P. J. Phillips and A. Rosenfeld. “Face Recognition: A Literature Survey”. ACM Computing Surveys, 35(4): 399~458, 2003,.
 2.Jianke Zhu, Mang I Vai and Peng Un Mak. ”Gabor Wavelets Transform and Extended Nearest Feature Space Classifier for Face Recognition”. Proceedings of ICIG, 246~249, 2004
 3.M. Turk and A. Pentland. “Eigenfaces for Recognition”. J. Cognitive Neuroscience, 3(1): 71~86, 1991
 4.P. N. Belhumeur, J. P. Hespanha, and D. J. Kriegman. “Eigenfaces vs. Fisherfaces: Recognition Using Class Specific Linear Projection”. IEEE-PAMI 19(7): 711~720, 1997
 5.S. Z. Li and J. Lu. ”Face Recognition Using the Nearest Feature Line Method”. IEEE-NN, 10(2): 439~443, 1999
 6.Chengjun Liu. “Gabor-Based Kernel PCA with Fractional Power Polynomial Models for Face Recognition”. IEEE-PAMI, 26(5): 572~581, 2004
 7.Terence Sim, Simon Baker, and Maan Bsat. “The CMU Pose, Illumination, and Expression Database”. IEEE-PAMI, 25(12): 1615~1618, 2003
 8.K. I. Kim, K. Jung, and H. J. Kim. “Face Recognition Using Kernel Principal Component Analysis”. IEEE Signal Processing Letters, 9(2): 40~42, 2002
 9.J.-T. Chien and C.-C. Wu. “Discriminant Waveletfaces and Nearest Feature Classifiers for Face Recognition”. IEEE-PAMI, 24(12): 1644~1649, 2002
 10.A. M. Martinez and A. C. Kak. “PCA Versus LDA”. IEEE-PAMI, 23(2): 228~233, 2001