结合视差补偿与3D数据处理的盲光场图像质量评价--专家综述--论文--机器视觉网

摘要：与传统的2D图像相比，光场图像记录了场景中光线的强度和方向信息，在多媒体技术应用领域中占据着重要的地位。但在光场图像的产生、传输等处理过程中会不可避免地引入失真，影响用户视觉体验，因而需构建有效、准确的光场图像质量评价方法对其进行评估。本文基于光场图像的伪视频和极平面图像提出了结合视差补偿与3D数据处理的盲光场图像质量评价方法。首先，采用视差补偿模块处理光场图像伪视频序列，然后对经过视差补偿后的伪视频序列进行三维离散小波变换以及三维去均值对比度归一化处理，并提取频域和空域特征。同时，在极平面图像上提取方向梯度直方图特征表征其角度信息的失真。最后，运用支持向量机建立图像质量评价指标到主观质量得分的回归模型。所提算法在公开数据库NBU-LF1.0，Win5-LID和SHU上的PLCC分别达到0.8861，0.9287和0.9769，实验结果表明，与经典的二维图像质量评价方法以及先进的光场图像质量评价方法相比，本文方法与主观质量评价结果的一致性更高。

关键词：光场图像质量评价；伪视频序列；视差补偿；角度一致性

引言

光线作为人们感知世界的重要媒介，携带着3D环境中丰富的信息。光场图像（LightFieldImage，LFI）不仅记录了场景的空间信息，更记录了场景中光线的强度信息和方向信息［1］，可为终端用户提供沉浸式的观看体验［2］，因而在渲染［3］、重聚焦［4］、3D重建［5］等方面都有广泛的应用。

光场图像作为一种重要数字媒体显示方式，在其采集、传输、显示等各个处理环节都会引入不同程度的失真［6］，从而影响系统性能和用户的主观感知体验。根据原始图像信息的使用情况，客观图像质量评价方法（ImageQualityAssess⁃ment，IQA）通常被分为全参考（FullReference，FR）、半参考（ReducedReference，RR）以及盲/无参考（Blind/NoReference，NR）三类。全参考和半参考质量评价方法需要全部或部分原始图像的信息，因而其应用受到一定的限制；而无参考质量评价方法不需要原始参考信息，有更为广泛的应用。传统的盲/无参考图像空间质量评估器［7］、基于局部二进制模式梯度加权直方图的多失真盲评估模型［8］、梯度幅度和高斯拉普拉斯的联合统计模型［9］等方法对于传统二维图像有较好的评价效果。但光场图像不仅是更高维的数据，还有角度一致性约束，因此针对传统二维图像所设计的图像质量评价方法并不适合于评价光场图像质量。

针对于光场图像设计的全参考质量评价算法不断被提出，并取得了不错的效果。例如，Tian等人［10］提出了多阶导数特征模型，该模型测量原始和失真光场图像中各子孔径图像（Sub-ApertureImage，SAI）的导数特征的相似度，并将各失真SAI分数的平均值作为失真光场图像的分数。Min等人［11］从全局空间质量、局部空间质量以及角度质量三个方面量化失真光场图像质量，利用SAIs的结构匹配度和计算近边缘区域的均方误差评估光场图像的全局和局部空间质量，结合视图密度和视图质量变化信息来估计光场图像的角度质量。Huang等人［12］基于LFI的空间和几何特征提出算法模型，采用轮廓波变换对SAIs处理提取空间特征，结合3D-Gabor滤波器处理SAIs序列作为几何特征，联合空间特征和几何特征进行光场图像质量的评估。

光场图像的无参考质量评价方法也得到快速发展。Shi等人提出了一种光场图像盲质量评估器［13］，将失真SAIs生成中央眼图，然后提取张量第一成分空间特征来度量光场图像的空间失真，并分析第一成分与光场图像中央眼图的结构相似性来度量光场图像的角度一致性退化。考虑到人类视觉感知特性，Shi等又提出了基于中央眼图阵列和光场极平面图像（E-bipolarPlaneImage，EPI）提取全局和局部特征的无参考方法［14］，采用自然度分布衡量SAIs质量，并在极平面图像中提取方向梯度分布特征和加权局部二值模式特征来度量光场图像的角度一致性。Zhou等提出基于张量分解的无参考质量评价方法［15］，利用Tucker分解得到水平、垂直、主副对角四个方向上SAIs阵列的主成分，提取主成分的自然度和频率特征来表征光场图像的空间信息。然后，利用第一主成分与各SAI之间的结构相似度分布来度量光场图像的角度一致性。Pan等提出了将张量切片与奇异值相结合的盲光场图像质量评价方法［16］，在第一成分提取了清晰度特征，在张量其他成分提取了信息分布和角度奇异值特征来衡量光场图像失真。Xiang等采用四维离散余弦变换（4DDiscreteCosineTransform，4D-DCT）对高维光场数据进行频域处理，并在4D-DCT域进行特征提取以进行光场图像失真质量评价［17］。

上述方法虽然从不同角度进行光场图像质量评估，但对于光场图像的独特显示方式及其特点并未完全利用。考虑到SAIs可以反映特定角度下的场景纹理信息，EPIs反映场景的深度信息并且对角度一致性有很好的表述作用［18］，不同程度和不同类型的失真引入都会影响这两种表示方式，本文提出了结合视差补偿与3D数据处理的盲光场图像质量评价算法。对由SAIs按照特定顺序组成的光场图像伪视频序列（PseudoVid⁃eo，PV）进行频域分解和空域数据处理以提取能表征光场图像质量的特征，并在EPIs上提取角度域特征作为补充。特别地，考虑到光场图像伪视频序列中伪运动的存在，增加了视差补偿模块对伪视频帧间的像素偏移进行补偿，以更好地消除伪视频序列的冗余，提高特征提取的有效性。

提出方法

光场图像可表示为4D函数L={L(u，v，x，y)}，其中，（u，v）和（x，y）分别描述视点的角度位置和空间位置，U×V为其角度分辨率，X×Y为其空间分辨率。光场图像可视为一组2D的图像阵列，每个视图称为SAI，如图1（a）所示。角度坐标上的SAI可表示为Iu，v={L(u*，v*，x，y)}，即固定某一角度下的视图信息。EPI是光场图像的另一种表示形式，如图1（b）所示，EPI通过截取SAIs的某行或某列得到，包含光场图像的角度信息。令Eu，x={L(u*，v，x*，y)}表示水平EPI，可简化为Eu，x={E(u*，x*)}，类似地，垂直EPI表示为Ev，y={L(u，v*，x，y*)}。

伪视频序列PV是光场图像的一种可视化形式。如图1（c）所示，将单幅SAI视为一帧可构建光场图像PV，表示为P={P(x，y，v)}，其中v为PV的伪时间轴。PV反映了每个特定角度对应的SAI的场景信息，充分体现了光场图像的角度和空间信息。

微信图片_20240801130327.png

考虑到PV可以反映光场图像的角度和空间信息，EPIs反映场景的深度信息并且对角度一致性有很好的体现，本文从光场图像的PV和EPIs两种表示形式出发，提出结合视差补偿与3D数据处理的盲光场图像质量评价方法。图2为所提方法的框架，主要包括三个部分：（1）对视差补偿后的光场图像伪视频序列进行三维离散小波变换（3D-DiscreteWaveletTransform，3D-DWT）并提取频域特征；（2）对视差补偿后的光场图像伪视频序列进行三维去均值对比度归一化（3D-MeanSubtractedContrastNormalized，3D-MSCN）处理并提取空域特征；（3）对EPIs进行方向梯度直方图特征的提取。具体来说，首先将u相同的子孔径图像Iu，v组成伪视频，构建U个伪视频序列P，然后对每个伪视频序列进行视差补偿处理得到PDC，再对其进行3D-DWT分解以提取频域特征，同时进行空域的3D-MSCN处理以提取自然统计特征。另一方面，在EPIs的方向梯度直方图上提取描述光场图像角度一致性的特征。最后，运用支持向量机（SupportVectorRegression，SVR）对所有特征进行回归预测得到光场图像主观质量得分。

微信图片_20240801130332.png

2.1基于3D-DWT的PV频域特征提取

PV中SAI之间的视差信息可视为其伪时间维度上的运动信息。3D-DWT能够考虑连续视频帧中随时间变化的运动，可同时表示空间和时间运动信息［19］。但是，PV相邻SAIs之间不仅包含大量的冗余信息，而且SAIs之间存在视差，导致沿伪时间轴进行3D-DWT并不能彻底完成光场图像伪视频序列的时域分解。视差补偿计算参考帧与当前帧之间的关系映射，可减少视频帧间冗余并提高频域分解的有效性［20］，因此本文采用视差补偿模块对光场图像PV进行预处理。

令Iu，v为光场图像第u行第v列的SAI，u=1，2，…，U，v=1，2，…，V。这里，u为光场图像PV的组别，V为每组PV包含的帧数。对于每组伪视频序列，以Iu，1为参考帧，采用光流法估计出待补偿帧Iu，v的伪运动矢量（即视差矢量），将Iu，v向Iu，1反向绘制以得到Iu，v在伪时间轴v上的运动补偿，进而得到经过视差补偿后的U组光场图像伪视频序列，记为PDC={PUDC(x，y，v)|u=1，2，d，U}。对PDC中的每组经过视差补偿后的伪视频序列进行3D-DWT变换［21］，得到可以表征光场图像PV信息内容的八个频率子带，记为φ =｛ξ（i）|i=1，2，…，8｝。i=1时代表反映低频近似信息的LLL子带，可表示为ξL，｛ξ（i）|i=2，…，8｝代表反映高频信息的HLL，LHL，HHL，LLH，HLH，LHH，HHH子带，可表示为ξH。

图3给出了Win5-LID数据库中“Flowers”的原始光场图像和HEVC压缩失真以及角度域最邻近插值（Nearest Neighbor interpolation，NN）失真光场图像经视差补偿后的第5组伪视频序列对应的频域子带系数直方图。相较于失真光场图像，原始光场图像的PDC的HLL和HHH子带频率分布区间相对较为分散，峰值较低。由于HEVC失真影响视差估计的准确性，使得视差补偿效果欠佳，导致HEVC失真光场图像PDC的HLL和HHH子带频率分布区间较为集中。对于引入NN失真的光场图像，其频率分布区间相较于原始光场图像也存在差异变化，其原因是NN失真破坏了光场图像的角度一致性，可能引入新的高频成分，导致其高频子带HHH相较于原始光场图像的差异尤为明显。而对于一幅光场图像其不同子带的频率分布情况也存在明显差异，由图3可见HHH子带相较于HLL子带频率分布更为集中。上述分析说明不同的失真会导致频域子带呈现差异性分布，因此采取统计频域子带特征的方式以对光场图像质量进行评价。

微信图片_20240801130336.png

考虑到PDC在伪时间轴上不同子带表示不同的图像信息内容，在伪时间轴维度上将PDC分解为时域低频子序列Ψ L=｛ξ（i）|i=1，2，3，4｝和时域高频子序列Ψ H=｛ξ（i）|i=5，6，7，8｝，分别对应LLL，HLL，LHL，HHL子带和LLH，HLH，LHH，HHH子带。

失真的引入会改变图像的原始自然信息结构，进而导致频域内的子带系数发生变化，使得Ψ L和ΨH的子带关联程度会因此改变。分别求取时域高、低频子序列的关联信息作为失真对于高、低频序列内子带系数影响的视觉特征。采用ФLi和ФHi表示关联信息特征（Associated Information Features，AIF），表示为FAIF={ФLi，ФHi｝，

微信图片_20240801130339.png

其中：H(·)表示无条件熵，H（Z｛x｝，Z｛y｝）表示联合熵，ξ（i）表示第i子带。

失真对图像的不自然影响会改变图像的像素幅值分布，并且对图像高频信息影响尤为明显。因此采用变异特征（VariationFeatures，VF）作为对频域高频子带受到失真影响的表示，记为FVF=｛FVFi｝。另一方面，采用高频子带与低频子带的比例特征（Proportional Features，PF）衡量失真对图像中高频成分和低频成分分布的影响，记为FPF=｛FPFi｝。FVF和FPF的计算公式如下：

微信图片_20240801130343.png

其中：V(·)和M(·)为方差和均值运算，τ1取值为1×10-8以保证分母不为0。

图4为“Flowers”场景下U组伪视频序列提取的FAIF（第一行）、FVF（第二行）和FPF（第三行）的平均值。横坐标为子带编号，纵坐标表示特征对应的幅值。图4（a）为原始光场图像以及HEVC和NN失真光场图像的平均FAIF，FVF和FPF，图4（b）和图4（c）分别为不同失真程度下的HEVC和NN失真光场图像的平均FAIF，FVF和FPF，图中也给出了相关失真光场图像的MOS值。对于FAIF特征，子带编号2-4和5-7分别对应ФLi和ФHi。由图4（b）和图4（c）可见，对于失真程度不同的相同失真类型的光场图像，其FAIF和FPF值的变化总体上随MOS值的变化呈现单调性：FAIF随着失真程度的增加呈单调上升的趋势，而FPF则为单调下降的趋势；FVF的分布存在突变，如HEVC失真的光场图像其FVF特征在HHH子带存在明显突变。此外，由图4（a）可见，不同失真类型的光场图像即使MOS值接近其三个特征的幅值分布也存在明显差异。这说明提取的特征可以表征不同类型失真、不同失真等级对光场图像的影响。本文方法中，取U组伪视频序列特征的均值作为最终特征描述失真对光场图像的破坏。

为探究视差补偿处理对算法设计的影响，图4（d）也展示了不同NN失真等级光场图像伪视频序列未进行视差补偿时获取的特征折线图。从图4（d）可见，未进行视差补偿时所得到的频域特征对不同失真程度的区分度低于图4（c）所示的采用视差补偿的情况。这说明进行视差补偿处理所捕获的特征具有更好的失真辨别能力。

微信图片_20240801130347.png

2.2基于3D-MSCN的PV空域特征提取

去均值对比度归一化（MeanSubtractedCon⁃trastNormalized，MSCN）是二维图像常用的特征统计方法，失真的引入对MSCN系数分布影响显著［22］，因而其在以往的图像质量评价中已得到成熟的应用。3D-MSCN在MSCN的基础上不仅可以处理二维图像的空间信息，还可以对视频时间维度上的信息进行处理。由于光场图像伪视频序列在空间和伪时间维度上具有极高的相关性，因此考虑采用3D—MSCN去除伪视频序列的空间和时间上的相关性。采用3D—MSCN对PDC进行处理获取3D—MSCN系数图MDC={MLiDC（x，y，v）}，其计算如下：

微信图片_20240801130351.png

其中：PuDC(x，y，v)为第u组伪视频序列中第v帧中（x，y）处的像素值，μ和σ分别为该组伪视频序列中所有V帧的均值和方差，T1取值为1×10-8以保证分母不为0。μ和σ可用如下公式计算：

微信图片_20240801130355.png

其中，w={wj，k，lj|=-J,d,J，k=-K,d,K，l=-L,d,L}是均值为零对称归一化三维高斯滤波器。

微信图片_20240801130359.png

图5展示了“Flowers”原始光场图像在u=5时对应的MDC和具有不同失真等级、不同类型失真的光场图像的MDC对应的3D-MSCN系数分布图。图5表明3D-MSCN系数可以较好地表征不同失真对光场图像的P的影响。尤其是对于HEVC失真的光场图像的P来说，其分布曲线的峰顶随着失真程度的加大而逐渐尖锐且拖尾减短。采取非对称广义高斯分布(Asymmetric Gen-eralized Gaussian Distribution，AGGD)对M系数进行拟合，将拟合得到的形状参数、左右方差参数作为对光场图像的质量评价特征，表示如下：

微信图片_20240801130403.png

其中：

微信图片_20240801130406.png

α , σl，σr 分别是形状参数、左方差和右方差参数。为了更好地描述MDC的分布曲线，采用λ=α/(βl+βr）作为一项特征对曲线进行描述。本文中将U组特征的平均值作为最终特征，共计得到4维空域自然统计特征FN={α,βl，βr，λ}。

2.3基于EPI的特征提取

光场图像的EPI表示可以反映出光线在不同视点的分布关联，而图像梯度可以反映图像的对比度和结构信息，且它对失真极为敏感［23］，因此采用EPI梯度图反映失真对光场图像角度一致性的破坏。图6为“Flowers”的原始光场图像和不同程度HEVC，NN失真的光场图像的EPI及其对应的梯度图。如图6所示，随着HEVC失真程度的增加（主观分数MOS值减小），其对应的EPI斜率发生改变且EPI图像整体偏向于模糊。而对于NN失真的EPI，随着失真程度的增加，对应的EPI斜率呈现锯齿状断裂加剧的现象。由于EPI中直线斜率表征了场景的深度信息，因而EPI中的直线斜率遭到破坏的现象可用来描述光场图像的失真情况。

微信图片_20240801130410.png

对于水平极平面图像Eu，x={E(u*，x*)}，采用Sobel算子计算其梯度幅值图Gf和梯度方向图Gθ。将梯度方向θ∈［0°，330°］均匀量化为O个方向，o=1，2，…，O，本文中O=11。然后循环累加相应梯度方向的梯度幅值，得到极平面图像的方向梯度直方图h。再对h进行归一化得到一个多维的特征向量H。

图7为光场图像“Flowers”固定u=5，x=300时Eu，x对应的归一化方向梯度直方图。图7显示，对于EPI梯度图像，其梯度方向主要集中在3，4，5，6，10，11方向上，即所对应的θ在60°~180°,270°~330°。原始光场图像和失真光场图像在方向5，6，10，即梯度方向为120°~150°,150°~180°以及270°~300°的区间内梯度叠加幅值存在明显的差异。图7中方向5的直方图幅值随着失真的引入减小，而方向6的幅值则出现增大的趋势，并且不同的失真类型其分布差异程度也不同。这说明失真的引入会影响方向梯度直方图的分布，因此考虑将方向梯度直方图作为特征对光场图像角度一致性进行衡量，在本文中取一幅光场图像对应的全部水平EPI方向梯度直方图向量的均值作为特征，最终得到11维的方向梯度特征向量。

微信图片_20240801130414.png

综上，所提方法考虑了光场图像的PV和EPI两种表示形式，基于PV和EPIs提取了针对光场图像空间信息和角度信息的不同种类特征。在经过视差补偿后的光场图像伪视频序列中提取了频域特征FAIF，FVF，FPF共计20维，记为FTD，并另有4维空域自然统计特征FN；对于EPIs，提取了11维的方向梯度特征，记为FEPI；最终组成35维特征。

3 实验结果与分析

为了验证所提方法的有效性，在3个光场图像数据库Win5-LID［24］，NBU-LF1.0［25］和SHU［26］上，将所提方法与14种方法进行了实验对比，包括3种FR2DIQA方法（SSIM［27］，FSIM［28］，VIF［29］）、3种NR2DIQA方法（BRISQUE［7］，GWH-GLBP［8］（简称GLBP）和GMLOG［9］）、3种FRLFIQA方法（MDFM［10］，Min［11］和SGFM［12］）和5种NRLFIQA方法（BELIF［13］，NR-LFQA［14］，Tensor-NLFQ［15］，TSSV-LFIQA［16］，4D_DCT-LFIQA［17］）。

3.1光场图像数据库

Win5-LID数据库：共有220张失真图像，包括6个真实场景和4个合成场景。失真类型包含HEVC、JPEG压缩失真，基于学习的重建失真（EPICNN）和空间超分辨率重建失真（USCD）以及基于最邻近插值（Nearest Neighbor interpolation，NN）和线性插值（Li Near interpolation，LN）的角度重建失真。

NBU-LF1.0数据库：共有210张失真图像，包含8个真实场景和6个失真场景。该数据库专为研究重建插值失真对光场图像质量的影响而建立，5种失真类型分别是NN、双三次插值失真（BicubicInterpolation，BI）、基于学习的EPICNN、基于深度图的重建插值（Zhang）以及基于空间超分辨率重建插值（VDSR）。

SHU数据库：共有240张失真光场图像，包含8个真实场景。数据库引入了JPEG2K、JPEG压缩失真、高斯模糊失真（GAUSS）、运动模糊、白噪声失真。

3.2总体性能比较

所有实验均在相同的测试条件下进行，用作对比的其他算法，源代码均从其作者或网站上获得，只有对比方法SGFM［12］的数据结果由于其源代码尚未公开故而摘录自参考文献［12］。

性能比较实验过程包括两部分：用于确定模型的训练阶段和用于验证性能的测试阶段。为了避免特定训练-测试划分的偏差，均按照其他基于训练的方法［13-16］将数据库随机划分为80% 训练子集和20%测试子集，并为了公平起见统一采用回归拟合方法进行感知映射，即以径向基函数（RadialBasisFunction，RBF）为内核的SVR作为映射函数将提取的感知特征映射到光场图像的人眼感知分数。采用Pearson线性相关系数（PearsonLinearCorrelationCoefficient，PLCC）、Spearman秩相关系数（SpearmanRankOrderCorrelationCoefficient，SROCC）和均方根误差（RootMeanSquareError，RMSE）三个指标比较不同客观质量评价方法的性能。为了实验数据的准确性，训练和测试将重复1000次，选取1000次重复中三个指标的中值作为最终指标。对于无需训练的FR2DIQA和FRLFIQA方法，直接使用随机划分的20%的测试集计算最终质量分数，并同样重复1000次以确保比较的公平性。表1展示了所提方法和对比方法在不同数据库上的实验结果，粗体标记了最好的结果。

微信图片_20240801130420.png

如表1所示，2DIQA方法的总体性能相对较低，因为这类方法没有考虑光场图像的角度一致性。MDFM虽然考虑了光场图像的特点，但它主要关注空间质量的退化。Min的方法具有局限性，它无法准确预测4D光场图像的质量。SGFM结合SAI以及SAI序列进行算法设计，有不错的质量评估性能，但对光场图像角度一致性的考虑有待完善，因此总体算法仍存在较大提升空间。而几种NRLFIQA方法的性能相对提高了很多，4D_DCT-LFIQA直接对四维光场数据进行高维稀疏变换，在频域提取特征，但对于光场图像的空间和角度特性并没有充分利用。BE⁃LIF，NR-LFQA，Tensor-NLFQ和TSSV-LFIQA则联合考虑了光场图像的角度和空间质量，总体性能有不同幅度的提升。其中，NR-LFQA同样结合SAIs和EPIs进行算法设计，总体性能很好。而本文从光场图像伪视频序列的角度出发，并采用视差补偿进一步减少视频帧间冗余、提高频域分解的有效性，再结合EPI进行算法设计，因此总体性能较NR-LFQA有明显的提升。所提方法联合空间和角度信息，在频域和空域对光场图像进行特征提取，达到了相对更好的性能。

表1显示，与NBU-LF1.0和Win5-LID数据库相比，几乎所有对比算法都可以在SHU数据库上获得不错的性能。分析原因是SHU数据库只包含压缩失真、高斯模糊失真、运动模糊、白噪声失真，现有的算法对这类失真已进行了深入研究，2DIQA方法对于这些类型的失真也具有良好的性能。相比之下，NBU-LF1.0和Win5-LID数据库还包含了在光场图像角度域引入的重建失真。重建失真是光场图像所特有的一类失真，会导致光场图像的角度一致性受到更严重的破坏。因此，后续实验仅在NBU-LF1.0和Win5-LID数据库上进行。

3.3性能显著性比较

t-检验适合对不同算法进行性能显著性评判，因而将对比方法与本文方法经过1000次训练测试得到的SROCC值进行t-检验，实验结果如表2所示，其中对比方法用其参考文献表示。实验设立0假设，认为行方法和列方法不存在显著差异，置信度为95%。表2中的符号‘1’表示行方法与列方法有显著差异且优于列方法，‘0’表示两者不可区分，‘-1’表示的意义与‘1’相反。如表2所示，所提算法在NBU-LF1.0数据库上的性能均优于对比算法。在Win5-LID数据库上，所提方法与Tensor-NLFQ和4D_DCT-LFIQA算法性能较为相近，而相对于其他算法，性能均较具优势。分析结果可知，本文所提方法整体上优于对比方法。

箱型图可以更直观地展示每种IQA方法的稳定性，图8展示了在Win5-LID和NBU-LF1.0数据库上的1000次训练-测试实验中SROCC分布的箱型图。箱型图中间的红线代表SROCC的中位数，箱的顶部和底部分别代表上四分位和下四分位的值。箱型图中心红线越高，箱的上下边界越窄，说明方法的总体性能和稳定性越好。从图8中红线和方框的高度可以看出，所提方法总体性能较佳，并且在两个数据库中都呈现稳定的趋势，表明所提方法的预测稳定性和性能较好。

微信图片_20240801130424.png

3.4消融实验

为了探究光场图像伪视频序列进行视差补偿的必要性，表3展示了视差补偿模块的加入对所提方法在Win5-LID和NBU-LF1.0数据库上总体性能影响的实验结果。如表3所示，进行视差补偿之后的算法在NBU-LF1.0数据库上性能有明显提升，在Win5-LID数据库的性能提升幅度低于NBU-LF1.0数据库，但总体性能也均为提升的状态。由此可见，对光场图像伪视频序列进行视差补偿可以提升算法性能。

微信图片_20240801130428.png

为探索所提方法中不同特征提取模块的有效性，对3D-DWT处理提取的频域特征FTD=｛FAIF，FVF，FPF｝，3D-MSCN处理提取的空域特征FN以及在EPI模块提取的特征FEPI进行了消融实验，表4展示了消融实验结果。由表4可见，单个特征具有一定的评价效果。EPI可以较好地反映光场图像角度一致性。但是对于提取的空域特征FN在仅有重建失真的NBU-LF1.0数据库上性能相对较差，分析原因是由于数据库中角度重建失真的引入主要破坏光场图像的角度一致性，而空域特征主要是对图像纹理内容信息进行描述，因此空域特征在NBU-LF1.0数据库上没有较好的性能。但对于总体性能，空域特征FN与其他特征互为补充，提升了算法总体性能。表中数据显示，将PV模块与EPIs模块组合之后，性能达到最佳。

微信图片_20240801130432.png

3.5不同失真类型的评价

为了验证所提方法对不同类型失真的有效性，将比较不同的IQA方法对不同类型失真的性能。实验在Win5-LID和NBU-LF1.0数据库上进行，这里Win5-LID数据库中所测试类型不包括基于卷积神经网络的角度超分辨率重建失真，因为其仅含有一个失真等级。表5列出了不同方法在各种失真类型上的SROCC结果，现有方法对于HEVC，JPEG2K失真都有不错的效果，但对于重建失真，2DIQA方法的有效性明显降低，LFIQA方法各有优劣。本文所提方法在HEVC，JPEG2K，NN失真上优于现有的方法，对于BI，LN，EPICNN和VDSR失真的性能也具有一定竞争能力。总体来看，所提方法在评估不同类型的失真时具有较强的鲁棒性。

微信图片_20240801130435.png

3.6 跨库验证

为了验证所提出方法的泛化性能，通过跨库验证的方法比较了几种无参考光场图像质量评价方法。具体来说，由于Win5-LID数据库既包含压缩失真也包含重建失真，因此采用Win5-LID数据库作为训练集去测试各方法在其他数据库上的性能，表6给出了跨库验证的SROCC结果，最好的两个结果采用粗体标注。作为训练集的Win5-LID数据库包含重建失真，但所提方法在未包含这类失真的SHU数据库上仍取得相对较好的泛化性能。Win5-LID数据库与NBU-LF1.0的共同失真类型只有NN失真，并且NN失真的失真程度也没有重叠，这些因素都会加剧使用Win5-LID作为训练集去测试NBU-LF1.0的泛化难度。因此，所提出的方法在NBU-LF1.0上的泛化性能不如在SHU上的泛化性能。但尽管如此，所提算法还是优于BELIF，Tensor-NLFQ和TSSV-LFIQA等算法，并且与4D_DCT-LFIQA的泛化性能相当。总的来说，相较于其他对比算法，所提方法在NBU-LF1.0和SHU数据库上的平均泛化性能具有一定的竞争优势。

微信图片_20240801130439.png

4 结论

本文提出了一种结合视差补偿与3D-DWT/3D-MSCN的盲参考光场图像质量评价方法，在视差补偿后的光场图像伪视频序列上进行空域和频域特征提取，同时在EPIs上提取表征光场图像角度一致性的特征作为补充。本文方法考虑了光场图像的高维特性，结合光场图像的PV和EPIs表示形式，以更好地符合人眼感知特性。对于光场图像的PV，采用视差补偿模块进一步消除PV的帧间冗余，以实现频域彻底分解。实验结果表明，与先进的光场图像质量评价方法相比，所提方法具有更好的性能。

（文章来源于《光学精密工程》，如有侵权，请联系删文）