首页>论文>正文
日期
06/20
2024
咨询
  • QQ扫一扫

  • Vision小助手
    (CMVU)

基于上下文感知跨层特征融合的光场图像显著性检测
收藏
2024-06-20 16:38:06来源: 中国机器视觉网

摘要:光场图像的显著性检测是视觉跟踪、目标检测、图像压缩等应用中的关键技术。然而,现有深度学习方法在处理特征时,忽略特征差异和全局上下文信息,导致显著图模糊,甚至在前景与背景颜色、纹理相似或者背景杂乱的场景中,存在检测对象不完整以及背景难抑制的问题,因此该文提出一种基于上下文感知跨层特征融合的光场图像显著性检测网络。首先,构建跨层特征融合模块自适应地从输入特征中选择互补分量,减少特征差异,避免特征不准确整合,以更有效地融合相邻层特征和信息性系数;同时利用跨层特征融合模块构建了并行级联反馈解码器(PCFD),采用多级反馈机制重复迭代细化特征,避免特征丢失及高层上下文特征被稀释;最后构建全局上下文模块(GCM)产生多尺度特征以利用丰富的全局上下文信息,以此获取不同显著区域之间的关联并减轻高级特征的稀释。在最新光场数据集上的实验结果表明,该文方法在定量和定性上均优于所比较的方法,并且能够精确地从前/背景相似的场景中检测出完整的显著对象、获得清晰的显著图。

关键词:光场图像;显著性检测;跨层特征融合;上下文感知

1 引言

显著性目标检测是一项旨在分割最吸引人注意力目标的任务[1]。它在学习人类视觉机制和各种计算机视觉应用中起重要作用,准确有效的显著性检测可以为视觉跟踪[2]、目标检测与识别[3]等任务提供可靠的先验信息。显著对象与图像结构、上下文信息和对象语义含义等方面相关,准确检测出显著对象具有挑战性。早期显著性检测方法主要依靠颜色、纹理和对比度等先验知识来获取显著对象的局部和全局信息。然而,这些基于启发式的方法在前/背景相似的挑战性场景中捕获对象的高级上下文信息的能力有限,难以获取完整和边界清晰的特征图。

随着光场相机的发展以及LFSD[4],HFUT[5],DUTMV[6],DUT-LF[7]等各种光场基准数据集引入,光场数据除了提供上下文信息的全聚焦图像外,还提供焦点堆栈、多视图图像和深度图。光场显著性检测将全聚焦图像和焦点堆栈作为输入,不增加网络的复杂性,借助聚焦区域线索,为显著性检测提供了颜色、纹理、空间布局以及聚焦度信息,从而在前/背景相似的复杂场景中能更完整地检测出显著目标。此外,随着深度学习卷积神经网络(CNN)的发展,在一定程度上提升了光场显著性检测的精度。

尽管基于深度学习的光场图像显著性检测方法有着特殊优势,但目前仍面临巨大挑战。首先,由于不同卷积层的感受野不同,高低层特征具有不同的特征分布,导致不同的卷积层产生的特征之间存在着较大的差异。常见的直接添加或拼接等特征融合策略[7,8],仅利用了特征映射的线性组合,忽略了特征间的差异,往往会导致有用特征被淹没或丢失,传播背景噪声进而降低检测性能。Dai等人[9]提出一种基于注意力特征融合方案,解决了融合不同尺度特征时出现的问题。通过分析发现,除空间注意力外,通道注意力也可以通过改变空间池化大小而具有多尺度特性。考虑以尺度感知的方式动态和自适应地融合接收到的特征,本文设计了一个多尺度通道卷积注意力机制模块(Multi-scaleChan-nelConvolutionAttention,MCCA),利用卷积注意力模块加强重要特征,沿通道维度聚合多尺度上下文信息,同时强调全局分布的大对象和突出局部分布的小对象,便于网络识别和检测极端尺度变化下的对象。基于MCCA,本文提出了跨层特征融合模块(Cross-levelFeatureFusionModule,CFFM),利用多尺度通道卷积注意力机制引导特征融合,有效地解决特征差异问题。通过进一步的分析发现,现有显著性检测方法直接组合融合后的特征生成显著图,未对模型中的特征信息流进行精细控制,会导致特征丢失以及高层上下文特征信息被稀释。即信息从顶层流向较低层时,高层特征比低层包含更多的上下文语义信息会大量减少,其完整性无法保持,所以无法充分利用丰富的上下文信息准确定位显著区域,不同显著区域的关联也会降低。因此,为了避免特征丢失以及高层上下文特征被稀释,本文基于CFFM构建了并行级联反馈解码器(ParallelCascadedFeedbackDecoder,PCFD),采用多级反馈机制重复迭代细化特征。

前/背景相似场景中检测也是显著性检测的一个巨大挑战,充分利用全局上下文信息是解决问题的一个重要策略。为了应对复杂场景,王安志等人[10]提出一种多模态多级特征聚合方法。冯洁等人[11]提出了结合相机阵列的选择性光场重聚焦方法,重聚焦多目标场景中的某一深度层,模糊其他层来检测显著目标。Piao等人[12]开发了一种非对称双通道网络,虽提升了计算效率,但没有充分利用上下文信息,在复杂场景中检测不准确。Zhang等人[13]提出了一种光场融合网络,学习焦切片之间的空间相关性来预测显著图,但没有充分挖掘出丰富的上下文信息,因此在复杂场景中也未达到满意的结果。Zhang等人[14]为了有效挖掘利用上下文信息,提出了一种面向记忆的光场显著性解码器,一定程度上提高了检测的准确性,但是集成到的上下文信息有限,不能很好地指导低层空间细节的选择,同时网络复杂度高计算量较大。本文提出了一个全局上下文模块(GlobalContextModule,GCM),充分利用融合特征中丰富的上下文信息。

本文从特征差异的有效融合以及全局上下文信息出发,提出了一个基于上下文感知跨层特征融合的光场显著性检测网络,通过设计包含多尺度通道卷积注意力机制在内的跨层特征融合策略,有效解决融合不同尺度特征时出现特征差异的问题;同时考虑利用丰富的上下文信息,帮助获取不同显著区域的关联,为前/背景相似区域提供更多细节。实验结果表明,本文方法能取得更好的性能,并且能从前/背景相似的场景中准确检测出完整的显著图。本文贡献总结如下:

(1)设计了多尺度通道卷积注意模块MCCA,并在此基础上提出了跨层特征融合模块CFFM,融合顶层到较低层的相邻层的多层特征。该模块将特征与MCCA组件相结合,从多层特征中计算注意力系数来细化特征,然后将得到的特征进行融合。该模块不仅能有效解决特征差异问题,并且可以良好替代传统特征融合方式,同时也探索了特征的跨层次连续性。

(2)针对前/背景相似的问题,丰富的上下文信息能够获取不同显著区域之间的关联并减轻高级特征的稀释,增强特征表示以提高显著性检测的准确性。为此,本文提出了一个全局上下文模块GCM,充分利用融合特征中丰富的上下文信息。GCM将输入特征转化为具有两个并行分支的多尺度特征,使用多尺度通道卷积注意力组件MCCA计算注意力系数,并通过考虑注意力系数来整合特征。

(3)为防止多层特征信息丢失失真以及产生冗余部分,本文基于CFFM提出了并行级联反馈解码器PCFD,将得到的高分辨率特征反馈给以前的特征,作为下一个CFFM的共同输入,以此来纠正和细化特征。PCFD有效防止多层特征细节丢失,确保其完整性,避免高级上下文信息在传导过程中被稀释淡化。

2 基于上下文感知跨层特征融合的光场图像显著性检测

2.1整体架构

本文网络的整体架构如图1所示。首先将所有输入的全聚焦图像I0和相应的焦点切片Ii(i=1,2,...,12)调整为256×256×3的尺寸,然后利用常用的VGG19作为编码器提取原始的RGB特征和具有丰富高级语义信息的光场特征,其空间分辨率是原始图像的1/4并且包含64个通道,表示为{f,j=2,3,4,5}0,当i=0时,f表示全聚焦图像生成的特征,当i=1,2,...,12时,f表示从焦点切片生成的特征。为了避免计算冗余复杂度,本文在Block2-Block5上执行解码器。

微信图片_20240620164016.png

在解码器之前,首先将编码器的每层特征输入有效通道注意力机制[15] (EfficientChannelAtten-tion,ECA),以轻量级的方式获取跨通道交互信息,降低模型复杂度并保持一定的性能增益。不同层矛盾响应会引起预测的显著对象存在一些洞,为此本文利用卷积操作以及乘法和加法运算作为特征细化机制(FeatureRefinement,FR),进一步细化和增强特征图。得到细化特征F后输入解码器PCFD,PCFD中的CFFM避免引入冗余信息,抑制模糊噪声,锐化跳频边界,PCFD充分利用其特性,将最后一个卷积层的特征传回先前特征,以校正和细化它们。然后将解码器每层输出特征和全局上下文模块GCM级联,以挖掘特征中的全局上下文信息,最后整合GCM输出的结果作为最终的显著图,整体网络架构如图1所示。

2.2跨层特征融合模块

由于感受野的限制,低层特征保留了丰富的细节和背景噪声,具有清晰的边界。相反,经过多次下采样,高层特征在边界上是粗糙的,丢失了太多的细节信息,但具有一致的语义信息和清晰的背景,这两种特征之间存在很大的特征差异。常见的特征融合策略往往会忽略这种差异,有效的融合策略对于从前/背景相似的挑战性场景中检测出完整准确的显著对象至关重要。

为了应对这些挑战,本文提出了跨层特征融合模块CFFM,使高层特征Fh2RH根W根C和低层特征Fl2RH根W根C相互补充,得到全面的特征表达。与现有研究中直接相加或拼接方法相比,CFFM避免引入Fh和Fl中的冗余信息,以免“污染”原始特征,同时能有效抑制模糊噪声,锐化跳频边界。CFFM首先通过多尺度通道卷积注意力机制MCCA利用多尺度信息来缓解尺度变换,适应不同尺度目标。其中MCCA由一个双分支结构组成,在两个分支沿通道维度压缩和恢复特征,下分支使用全局平均池化获取全局上下文信息,强调全局分布的大对象,上分支通过卷积注意力获取通道关注,保持原始特征大小以获得局部上下文信息,避免忽略小对象,如图2所示。

微信图片_20240620164027.png

之后将MCCA得到的特征Fs输入到3×3卷积层,进行批量归一化和激活函数得到融合特征Fc,具体来说,跨层融合过程可描述为:

微信图片_20240620164030.png

其中,M表示多尺度通道卷积注意力机制MCCA,代表Fh和Fl的初始融合,即逐元素相加。M(Fh Fl)表示由MCCA生成的注意力权重,由0~1之间的实数组成,1-M(FhFl)也是如此,1-M(Fh Fl)和图3中虚线部分相对应,M(FhFl)Fl和(1-M(FhFl))Fh是基于完全上下文感知和选择性的融合策略利用得到的注意力权重系数分别对特征Fl和Fh进行细化,使网络能够在Fl和Fh之间进行加权平均化,以此使网络达到更好的性能。CFFM详细结构如图3所示。

微信图片_20240620164035.png

2.3全局上下文模块

对于前/背景相似、背景杂乱、多个显著目标等复杂的显著性检测环境,由于显著目标的不同元素或多个显著目标之间的全局语义关联极小,仅利用跨层特征融合策略不充分考虑全局上下文信息,不足以发现所有显著部分,难以检测出完整准确的显著图。此外,自顶向较低层传导的信息流建立在自底向上的基线层上,高层上下文信息从顶层传向较低层时可能会被稀释。因此,本文提出了一个全局上下文模块GCM充分利用融合特征中丰富的全局上下文信息,GCM级联在解码器PCFD后,将输入特征转化为具有两个并行分支的多尺度特征。同时可以增强融合特征,使得在训练模型时自适应地从特定层提取多尺度信息。

具体来说,CFFM输出的融合特征Fc2RH根W根C首先通过CBAM机制增强重要信息的同时抑制冗余信息,得到输出特征Fatt,然后将Fatt进行卷积和平均池化后输入到两个子分支,得到对应的Fv2RH根W根C和Fa学习基于注意力的多尺度特征表示,首先将子特征Fv和Fa输入到MCCA,将MCCA的输出M(Fv)和M(Fa)和两个子特征Fv和Fa分别采用逐元素乘法得到对应的融合特征Fvm2RH根W根C和Fam根根C,然后将Fam经过上采样后直接用加法运算和Fvm融合得到特征Fcvm。最后为了融合Fc和Fcvm,采用残差结构得到最终融合特征Fg。上述过程可以描述为:

微信图片_20240620164038.png

其中,CBAM,Conv,A,M和U分别表示卷积通道注意机制CBAM,卷积,平均池化,MCCA和上采样操作。GCM详细结构如图4所示。

微信图片_20240620164042.png

2.4 并行级联反馈解码器

经过CFFM得到融合特征后,大多数显著性检测方法会直接组合融合特征以生成最终的显著图。直接组合特征,高层特征由于下采样会遭受信息丢失并产生冗余,无法利用语义信息更好地指导显著对象的位置。此外,信息流从高层流向较低层时,会逐渐淡化自上而下过程中的高级上下文信息。本文基于CFFM构建了并行级联反馈解码器PCFD,充分利用CFFM特性,将最后一个CFFM输出的特征传回前一层作为输入特征,同时将每层CFFM级联,进一步纠正细化输入特征,使多层特征能够迭代的生成显著图。

如图1所示,PCFD有自上而下和自下而上两个过程。自下而上过程中,多层特征Fij通过CFFM从高层逐渐向低层融合,然后对融合的特征进行监督并产生一个初始预测Pi,自上而下的过程中,将初始预测Pi添加到前几层CFFM输出的融合特征,细化多层融合特征并作为级联CFFM的共同输入,然后进行相同的自下而上的融合操作。在PCFD内部,两个过程一一相连形成一个网格结构。最后将解码器PCFD每层输出的特征输入到级联的GCM中,这样使得多层融合特征在网络中流动和细化,利用丰富的全局上下文信息完整地生成更精细的显著图。最后,将每个支路GCM模块输出的特征进行整合作为网络的最终输出。

2.5损失函数

并行级联反馈解码器PCFD中第1个自下而上过程会生成一个初始预测图P,第2个自下而上过程中每个CFFM和解码器级联的GCM也会生成对应的预测图,分别表示为Ci和Gi,i2f2,3,4,5g。在Ci和Gi添加了几个中间监督,以促进网络收敛。交叉熵损失BCE和交并比损失IoU用于每个CFAM和GCM以及网络最终输出的显著图,初始预测图P仅使用交叉熵BCE损失。总损失函数可以为:

微信图片_20240620164046.png

其中,(i,j)表示像素大小,G(i,j)和S(i,j)分别表示像素(i,j)的标签值和预测值。

3 实验

3.1实验设置

本文实验是在两个公共光场基准数据集上进行的:LFSD,DUT-LF。其中DUT-LF是最大的数据集之一,包含了1462张光场图像,分别为1000张训练图像和462张测试图像。LFSD相对较小,只包含了100个样本。每个样本包含一个全聚焦图像、对应的12张焦点切片和对应的真值图。

本文方法在Pytorch框架上实现,使用GeForceRTX2080-TiGPU进行训练。在训练阶段,使用Adam优化器并将动量和权重衰减分别设置为0.99和0.0005,将学习率设置为3e-4,Batchsize设为2,最大迭代次数设置为400000。网络采用端到端的训练方式,使用随机梯度下降SGD优化。训练和测试图像统一调整为256×256,为了防止过拟合,本文通过随机翻转、裁剪和旋转来使训练数据增加到原来的11倍。本文模型总共训练了74个epoch,大约需要两天时间。评估指标分别有精确召回率(PredictionRecall,PR)曲线、F-measure、平均绝对误差(MeanAbsoluteError,MAE)、S-measure和E-measure。具体来说F-measure是平均精度和平均召回率的调和平均值,MAE在像素级别上定量地计算预测值与真值之间的平均差异,S-measure是一种结构化度量,可以同时评估区域感知和目标感知之间的结构相似性,E-measure可以联合捕获局部像素匹配信息和图像级统计。

3.2与最先进方法的比较

本文模型与13种先进的模型进行比较,包括基于深度学习和非深度学习的方法。包括两种2D显著性检测方法:EGNet[16],DSS[17],两种3D显著性检测方法:S2MA[18],ATSA[19],9种光场显著性检测方法:PANet[8],ERNet[12],LFNet[13],MAC[20],MoLF[14],DLFS[6],FPM[21],DILF[22]和RDFD[23]。为了公平起见,本文使用已有方法提供的显著图或设置的默认参数运行可行的代码,在现有实验设备和条件下,对部分对比实验的默认参数进行调优,以正常运行代码并训练数据。

3.2.1定量评估

根据表1所示的定量结果可以看出,本文的方法在DUT-LF数据集中3个指标获得了最高值,另外一个指标也获得了接近最高值的结果。同时,LFSD数据集中的两个指标分别达到了次高:Sα和Fβ。本文方法的指标优于大部分所对比的先进方法指标,表中下划线和加粗字体表示最优,仅加粗的字体表示次优。

微信图片_20240620164050.png

同时,本文还根据PR曲线比较了这些方法,从图5可以看出,本文方法的PR曲线在DUT-LF和LFSD数据集上都优于所对比的方法。由于LFSD数据集图像的分辨率为360×360,而本文网络输入图像的分辨率为256×256,图像下采样后分辨率减小,包含的特征信息也会减少,因此测试时,评估指标没有全部达到最优或次优。但本文方法在数据集中包含前/背景相似的挑战性场景中得到了比其他方法更完整准确的显著图,同时本文所提出的跨层特征融合可以良好替代传统特征融合方式。

微信图片_20240620164054.png

3.2.2定性评估

图6展示了本文以及现有方法可视化的结果。可以看出,在前/背景相似等场景中,本文方法可以预测比其他方法更准确完整的显著图。具体而言,诸如PANet,ERNet,MoLF和LFNet利用光场信息能够精确定位显著对象,但忽略了上下文信息无法预测出完整准确的显著对象。当提供高质量的深度图时,诸如S2MA的3D显著性检测方法能准确地检测显著对象,但容易受到低质量深度图的影响。2D显著性检测方法如EGNet,PoolNet,由于缺少空间信息而无法检测到准确的显著对象。实验结果表明,本文方法能准确整合定位聚焦的显著区域,突出显著区域抑制非显著区域。本文网络具有更少的假阳性和假阴性,给出了最接近真值图的预测,在前/背景相似的挑战性场景下可以实现比其他先进网络更完整和准确的预测。

微信图片_20240620164059.png

4 消融实验

为了验证每个关键模块的有效性,本文设计了7项消融实验。采用VGG19作为主干,在实验a中,保留主干和ECA共同作为Baseline网络,然后通过求和操作简单融合特征。在实验b中,保留了Baseline和FR模块,同样采用求和操作融合FR细化后的特征。

微信图片_20240620164103.png

为了验证MCCA机制的作用,实验c和实验e都去除了MCCA机制。实验c在实验b基础上加入并行级联反馈解码器PCFD,去除了PCFD中CFFM模块内部的MCCA机制,并用一个卷积块来代替。实验d在实验c的基础上,把MCCA机制重新加入CFFM模块中,以验证MCCA机制在跨层特征融合过程中的作用。实验e在实验d的基础上将GCM与PCFD进行级联,加入的GCM内部也去除了MCCA机制。实验f在实验e的基础上,再次把MCCA机制加入到GCM模块内部,验证MCCA对GCM模块的有效性。实验g加入损失函数是本文网络的完整模型,与图1的结构一致。

定量结果和视觉对比结果分别如表2和图7所示。结果表明,当使用FR机制(实验b)时,特征图被有效细化和增强,加入PCFD(实验d)时有效减少了特征之间的差异并且能有效融合特征,避免引入过多冗余信息的同时锐化了跳频边界;加入GCM(实验f)时,更多丰富的上下文信息被利用,引导网络更多地关注显著区域,很好地抑制了背景增强了复杂区域的特征提取能力。

表3定量结果验证了设计的MCCA机制的有效性,实验c中用卷积来代替PCFD中CFFM模块内部的MCCA机制,实验e中,直接去除了MCCA机制和双分支的残差结构,只用两个分支的卷积和平均池化进行特征处理。

微信图片_20240620164107.png

从图7可以看出,实验c和实验e检测结果要么部分缺失不完整,要么受到冗余信息的干扰,实验d和实验f加入MCCA机制后,表3可以看出,Fβ和MAE分别有了显著提升和下降,从图7可以看出,加入MCCA机制后不仅得到了完整的显著图,同时保留了相对精确的轮廓表示。实验g加入损失函数并融合所有模块得出了最好的性能指标,也可以从图6看出本文的方法得到了效果最好的显著图。

微信图片_20240620164111.png

5 复杂度评估

表4比较了几种先进方法的模型大小和每秒传输帧数(FramePerSecond,FPS),所对比方法的源代码和预训练模型是公开的。本文方法达到了29帧/s的实时速度,略优于所对比方法,模型尺寸却不如PANet和ERNet的60MB和93MB,但本文方法在DUT-LF和LFSD数据集上的Sα分别达到了90.0%和85.3%,优于PANet的89.9%和84.2%、ERNet的89.9%和83.4%。与基于RGB图像以及RGB图像和深度图两种模态的方法相比,例如S2MA和EGNet,本文在推理速度和性能方面都有所提升。与4种基于深度学习的光场方法相比,本文方法提高了执行速度。总体而言,表4的结果表明,本文模型在平均计算负载水平上实现了优于所对比方法的性能。

微信图片_20240620164116.png

6 结束语

针对光场显著性检测在前景与背景颜色、纹理相似或者背景杂乱的场景中存在检测对象不完整以及背景难抑制的问题,本文提出了一种基于上下文感知跨层特征融合的光场显著性检测网络,将跨层特征融合和目标检测任务自然地结合起来相互促进。提出了跨层特征融合模块,融合主干提取的特征,解决了不同卷积层产生不同差异的问题,避免特征不准确整合。其次,提出了全局上下文模块,将融合特征转化为多尺度特征以充分利用丰富的全局上下文信息,有效地从前/背景相似场景检测出更完整和清晰的显著对象。最后提出了一个由跨层特征融合模块构成的并行级联反馈解码器,代替直接组合多层特征的方式,更有效地处理多层特征。本文进行了大量实体消融研究以验证每个模块的有效性,实验结果验证了本文所提出每个模块的有效性,本文网络从前/背景相似等复杂的场景中检测出的显著图也都优于其他先进的方法,与现有的算法相比,本文的方法在显著图完整度方面有明显的改善,同时也表现出较高的准确性和泛化能力。光场视觉专注于光场视觉领域的信息交融平台,涵盖机器视觉行业资讯、市场动态、技术干货以及前沿paper资讯分享。

文章来源于《电子与信息学报》,如有侵权,请联系删文