首页>论文>正文
日期
09/29
2024
咨询
  • QQ扫一扫

  • Vision小助手
    (CMVU)

一种视差信息引导的光场特征匹配度量方法
收藏
2024-09-29 09:47:43来源: 中国机器视觉网

摘要:现有图像特征匹配方法在应对光照变化、几何形变等复杂场景时仍具有较大局限性,其原因在于特征匹配的度量缺乏深度信息与全局约束。本文针对该问题提出一种视差信息引导的光场特征匹配度量方法。该方法首先对光场数据应用傅里叶视差层分解以构建尺度-视差空间,从而提取包含视差信息的光场特征。依据不同视角光场特征的投影变换关系模型,本文构建了一种依赖光场深度线索的特征匹配度量模型。进而,本文采用人工神经网络学习投影变换模型参数的求解方法,该方法以重投影误差最小化为目标函数,采用迭代优化方式实现最优投影变换模型的高精度求解,并最终实现对特征点匹配的精确度量。在光场特征匹配数据集上的实验结果表明,相较于现有主流特征匹配方法,针对存在光照变化、几何变形、非朗伯反射表面、重复纹理且具有显著深度变化的场景,本文所提出视差信息引导的光场特征匹配度量模型取得了更优的匹配准确度与鲁棒性。

关键词:光场成像;傅里叶视差层;光场特征;匹配度量。

引言

图像特征匹配是计算机视觉领域的核心问题之一,其目标是建立不同视图特征点的准确对应关系。高精度的图像特征匹配技术是三维重建[1,2]、目标识别与追踪、同步定位与地图构建(Simultaneous Localization and Mapping,SLAM)[3]及由视角或目标运动重建三维场景结构(Structure from Motion,SfM)等视觉任务的重要基础[4,5]。图像特征匹配度量大多基于不同视图特征点的局部不变性,探寻应对光照变化、视角旋转、重复纹理、成像畸变、非朗伯表面等条件的特征点匹配度量仍极具挑战性。

经典二维图像特征匹配技术[5,6,7]是采用二维图像信息计算三维空间点在不同视角下的一致性,匹配求解过程常存在病态性和歧义性。该问题极具挑战的本质是场景深度信息及成像过程几何约束难以保留在二维图像中。光场成像技术[8,9]具有场景的多角度采样,其数据具有场景深度的高可计算性[10,11]。已有相关研究工作表明[12,13,14,15],光场特征提取及匹配方法在精度和鲁棒性方面均取得了优于二维图像特征的匹配性能。然而,现有研究光场特征匹配的工作中[12,13]仍普遍沿用二维图像特征的匹配度量方法,这限制了光场特征匹配性能的进一步提升。因此,亟待开展针对光场特征的匹配度量研究,探寻利用光场数据中隐含的场景深度及成像几何约束以降低匹配求解的病态性和歧义性。

相较于经典二维图像,不同的光场表达方式中均隐含了场景的深度线索。例如,不同视角的图像存在视差[16]线索、光场对极平面图像(Epipolar Plane Image,EPI)中线条斜率对应目标深度[13]、光场聚焦堆栈中像点的聚焦切片索引对应其所在的深度分层[14],故光场数据具有更优的场景深度可计算性。在此基础上,基于光场数据分析的FDL-HCGH[16]和FDL-HSIFT[15]特征,均在特征提取与描述阶段引入场景分层的深度线索,以建立更优的光场特征表达。针对上述最新的光场特征研究成果,本文侧重研究光场特征点的匹配度量问题,并探寻与场景深度及成像投影约束相关的特征匹配度量方法。

本文主要贡献可以总结为以下两点:1)本文提出一种针对光场图像特征的匹配度量模型,该模型刻画了不同视角下光场特征的投影变换关系,并采用简单的人工神经网络来求解模型参数。该方法以投影模型为约束,计算候选光场特征点对的重投影误差,最终取得了高精度的光场特征匹配结果。2)值得注意的是,本文所提出方法在特征匹配度量阶段并不依赖特征的语义信息。结合光场数据所隐含的视差线索,本文匹配度量模型引入了光场傅里叶变换[23]中视差层索引的作为深度维变量,将二维图像点的匹配计算由二维空间拓展至三维空间,从而降低了特征点匹配计算在深度方向的歧义性。

特征匹配方法研究现状

传统图像匹配任务大致可分解为四个关键步骤:特征检测,特征描述,特征匹配度量以及误匹配剔除[6,7]。特征匹配度量的核心在于构建合适的特征描述符距离度量方法,以准确评估特征之间的相似性。距离度量方法的准确性对特征匹配的精度和鲁棒性具有决定性作用。传统的距离度量方法,如欧氏距离、夹角余弦距离和汉明距离等,已被广泛应用于特征匹配度量任务中。然而,这些手工设计的距离度量方法通常缺乏对不同成像条件下特征变化的自适应能力。当图像因视角变化而导致颜色、纹理、几何形态和遮挡等方面的显著差异时,同一物理点的特征表达发生本质变化,这可能导致使用传统距离度量方法进行特征匹配的准确性显著降低。

深度学习技术在提升特征匹配方法的精度与适应性方面发挥着重要作用[15,16,17,18]。目 前,基于深度学习的图像匹配方法大致分为两类:一体化匹配方法[20,26]和分段式匹配方法 [18,19,23]。一体化匹配方法通过构建一个端到端的前向传播框架,将特征检测、描述和匹配 整合到一个统一的学习过程中。这种方法的优势在于提供了一个整体优化的图像匹配框架,能够实现图像特征匹配全过程的协同优化。然而,一体化模型通常结构复杂,且对训练数据的高度敏感性可能会限制其泛化能力。相比之下,分段式匹配方法则倾向于与现有的手工设计或基于学习的特征检测器相结合。这类方法专注于对已提取的特征进行自适应的匹配度量学习,从而实现对特征相似性更为精准和灵活的评估。但是分段式方法的性能在很大程度上依赖于所选用的特征提取器的性能,并且由于特征提取和匹配度量步骤是独立优化的,缺乏对整个匹配流程的全局优化机制,这可能会对匹配效果产生一定的影响。

在一体化图像匹配方法中,LoFTR[20]模型通过融合Transformer[25]架构中的自注意力和交叉注意力机制,有效地捕获了图像中的上下文信息和空间位置线索,实现了密集而精确的匹配。同时,DualRC-Net[26]运用了具有特征金字塔网络结构特点的双分辨率策略,从粗略特征图开始构建四维相关张量,并运用可学习的邻域共识模块进行精细化处理,显著提升了匹配的鲁棒性和定位精度。MatchNet[18]作为分段式匹配的典型代表,采用了全连接神经网络来学习自适应的距离度量,以准确量化特征描述符之间的相似度,并据此预测匹配得分。SuperGlue[19]则创新性地引入了具备注意力机制的图神经网络架构,对各类特征检测器(如SIFT[6]、SuperPoint[21])提取的特征描述符进行优化处理,并应用迭代优化的Sinkhorn算法[22]来计算匹配得分,有效地提高了匹配的准确性和稳定性。此外,NCNet[23]通过对图像潜在匹配点对在四维空间邻近一致性的分析实现匹配优化。

尽管深度学习技术的引入显著提升了特征匹配的精度与适应性,有效地弥补了传统距离度量方法在应对挑战性场景时的局限性,但目前基于学习的匹配方法普遍侧重于学习特征语义表达的优化与匹配度量,而缺乏对于深度信息约束与全局几何约束的考虑,难以弥合2D特征和3D空间点之间的差异。这导致依赖于二维图像信息学习推断三维空间点对应关系时,仍然存在一定的病态性和歧义性,尤其是在面对大视角变化、光照变化、非朗伯表面等复杂匹配任务时,特征匹配的性能易受显著影响。

在光场成像理论中,levoy[9]等提出了采用两个平行平面对光场进行参数化建模,将光场表述为一个四维函数LF(x,y,u,v),该函数详尽地描述了光线在三维空间中位置及方向的分布特性。其中,(x,y)和(u,v)分别代表光线与两个平行平面的交点位置,前者示示光线在空间中的分布位置,后者则编码了光线传播的方向信息。光场成像凭借其多角度采样和深度可计算特性,在特征检测与匹配领域备受关注。已有研究充分证明,光场特征相对于传统二维图像特征,在鲁棒性和匹配准确性方面展现出显著优势。例如,光场Lisad特征[13]在光场尺度-深度(Light field scale and depth,Lisad)空间中进行极值点检测,除二维位置信息之外,还通过对极平面图像中的线性结构斜率来间接地表达深度信息,从而提供了三维特征表达。光场LIFF[14]特征基于光场焦点堆栈构建了四维尺度-斜率空间,并在此空间内应用SIFT特征检测算法。LIFF特征可以看作是SIFT特征在尺度-斜率空间中的四维扩展,其深度信息直接来源于光场焦点堆栈的聚焦切片对应的层索引。

光场特征中包含的深度线索对于解析图像场景的三维空间结构至关重要。这些线索不仅能有效缓解由光照变化、几何形变、重复与相似纹理等因素所导致的匹配歧义,还能确保匹配特征之间空间关系的一致性,从而显著降低误匹配率。然而,目前光场特征匹配度量方法多依赖于传统二维图像特征的距离度量,未能充分利用光场提供的深度信息和隐含的几何结构线索。因此,本文从光场傅里叶视差分层空间中提取三维光场特征入手,并将视差信息引入匹配度量。本文方法构建了不同视角下光场特征间的投影变换模型,并通过求解模型参数来优化匹配过程,实现了对匹配关系的精准判断与识别。

光场特征匹配度量模型

360截图20240930095226274.jpg

本文光场特征提取与匹配度量流程如图1所示。首先,采用FDL分解技术对光场数据进行处理,并通过Harris算子进行光场特征提取。这一过程中,FDL分层视差信息被用作深度信息的有效替代,为光场特征提供了深度维度的近似表达。接下来,本文构建了一个不同视角间光场特征的投影变换模型,用于描述不同视角特征间的几何关联性。具体地,本文提出的光场特征匹配度量方法包含三个核心模块:基础变换模块、平移向量模块和自适应校准模块。这三个模块的协同学习构成了不同视角光场特征间的投影变换模型,并将其作为光场特征匹配度量的约束条件。

光场傅里叶视差分层特征提取

针对光场傅里叶视差层(Fourier disparity layer,FDL)[24]表示,本文提取的包含深度线索(视差)的光场特征集合和PR  = {pnRn ∈ (1, N)} ,分别由光场LFL 和LFR 得到,这里L和R分别示示左右视角的光场,M和N分别为左右光场提取的光场特征集合中的特征数量,m和n表示特征在光场特征集合中的具体索引。每个光场特征pi  = (x, y, zˆ) 不仅包含二维空间位置标标,还包含深度信息。值得注意的是,该特征中并非该点的准确深度,而仅代表其所在的光场傅里叶视差分层,该分层由在频域进行依赖视差的最小二乘回归得到。由此,本文所构建包含M*N个候选匹配点对的列表

360截图20240930134510546.jpg

傅里叶视差层表示是一种通过将场景分解为一系列离散的图层来对视差维度的光场进行采样的光场表示方法,并且FDL允许从不同类型的光场输入构建图层,包括子孔径图像序列,聚焦堆栈,或者二者的组合[24]。为了能够使光场FDL分层表示能够以尽可能少的平面图像覆盖场景所有目标所在的视差范围,假定四维光场LF(x,y,u,v),该场景目标物所在的视差范围被划分为K个子域域Ωk∈[1,K] ,每个子域域具有定定的视差值dk∈[1,K],光场FDL分解的原理如公式(1)所示,其中是光场频域形式,其可被分解为k个视差层分量,每个视差层由可简单频确确定的特定视角傅里叶变换得到,例如采用中心视角图像L(x,y,0,0)。

360截图20240930134517778.jpg

wx 和 wy 表示空间频率,wu 和 wv 表示角度频率,狄拉克函数δ(.)(Dirac delta function),代表无限小孔径的光圈函数。针对可以预设的视差分层数量,可采用最小二乘回归方式得到最满足目标分布的光场分层表达L(x, y, dk ) 。

360截图20240930134523832.jpg

为确保提取的光场特征对尺度变化具有鲁棒性,本文采用高斯核函数 G(.) 构建了光场尺度-视差空间[13],并采用 Harris[25]角点检测算子提取显著的特征点,如公式(3)所示,Ω为(xi, yj ) 所在的图像邻域。其中空间中真实的特征点p = (xi, yj,zk )由图像标标(xi, yj ) 深度信息zk 组成。由于有有准确的深度先验,本文光场特征点仅采用分层视差值 zˆk  = dk作为的近似。由上述方法分别提取光场LFL 和LFR 所有特征点pi ,j ,形成集合PL和PR。

360截图20240930134530506.jpg

视差引导的光场特征匹配

针对光场特征匹配度量问题,本文摒弃了依赖于传统基于特征语义信息构建的特征描述符的方法,转而重点关注光场特征所包含的深度信息(视差)以及其隐含的三维空间几何结构特性。本文基于三维光场特征构建了特征点投影变换模型,以描述不同视角下特征点的几何关联,并将其作为约束条件实现了高精度的匹配度量。

本文提出一种基于人工神经网络的光场特征匹配方法,该方法通过学习光场特征间的投影变换的参数化模型,以描述匹配特征点的几何关联。本文的投影变换模型可分解为两个关键组成部分:基础变换矩阵和平移向量。基础变换矩阵描述特征匹配过程中的相对旋转和尺度缩放。平移向量则描述不同视角标标系的相对位置关系,即因视点移动导致的特征点偏移。本文假设正确匹配的特征点对都遵循由基础变换矩阵和平移向量定义的投影变换模型的几何约束,其数学描述如公式(4)所示,

360截图20240930134537073.jpg

其中,矩阵E∈ R3×3 定义了不同视角特征点间的基础变换,T ∈ R3×1 为平移向量。由于并非准确深度信息,这导致投影变换将存在一定的导致匹配偏差,为了实现对该偏差量的自适应校准,本文设计了可逐特征点调整的偏移向量c ∈ 3×1 。此时,公式(4)的特征点投影过程则可改写如下。为计算偏移向量c,本文设计了一个自适应校准模块。该模块基于多层感知机(MultilayerPerceptron,MLP)网络架构,输入各候选匹配的特征位置,通过学习预测相应的偏移向量,从而实现对匹配偏差的校正。

基于上述分析,本文提出采用视差信息引导方式进行精准的光场特征匹配度量。该方法先通过最小化公式(6)的重投影误差,以求解最优投影模型参数。并将该模型作为特征匹配度量的约束条件,实现准确的匹配判别。为了提升匹配精度,本文采用了双向校验策略,分别从两个不同的方向上执行特征匹配,并对两次结果进行校验以提升匹配度量的可靠性。

360截图20240930134544538.jpg

光场特征匹配度量学习的网络架构和损失函数

针对光场特征间的投影变换,本文设计了一个可训练的3×3参数矩阵,用于学习公式(6)中描述的基础变换矩阵E。该矩阵在在编码不同视角图像间的基础几何关系,包括旋转和尺度变换。同时,平移向量模块通过一个可训练的3×1参数向量T,拟合不同视角间的空间位置偏移。在自适应校准模块中,本文构建了一个多层感知机网络架构,如图2所示。该网络以每个候选匹配对的特征位置作为输入,学习并预测其相应的偏移向量c ∈ 3×1 。这一模块的核心目的在于智能调整因深度信息不精确而导致的投影偏差。通过这种结构化投影变换建模,不仅能够模拟视角间的几何变换,还能够自适应地校准由视差信息不准确导致的匹配偏差,优化了光场特征匹配的性能。

360截图20240930095240973.jpg

损失函数:针对可监督的光场特征匹配数据集,其待匹配点对的真值yi  ∈ {0,1}已知,故可采用如公式(7)所示的监督损失函数,即最小化特征点总体重投影误差。

360截图20240930135638565.jpg

其中,di 表示第i个候选匹配点对的重投影误差,其具体计算如公式6中所示,τ为预设的可偏移阈值。对于正确匹配候选项,期待其重投影误差趋近于零。反之,对于错误匹配候选项,所对应的重投影误差则应当显著大于可偏移阈值,从而确保错误匹配得到有效的惩罚并推动模型优化。

光场特征匹配度量实验与分析

为了验证所提出的光场特征匹配度量模型的性能,本文在由Blender生成的合成光场匹配数据集上进行实验验证与量化分析[12,13]。实验采用PyTorch框架搭建深度学习网络,在单块NVIDIA 1080Ti图形处理器上进行模型训练和测试。训练阶段采用Adam优化器,初始学习率lr = 5×10−3,每个批次输入的特征点对数量设定为218 ,训练过程包括20000次迭代。同时,本文设定重投影误差的可接受偏移阈值为10个像素。

在简单几何变换数据集上的匹配实验

为全面评估本文光场特征匹配度量方法性能,本文选取了两种经典手工设计的图像匹配方法作为基准对比,分别为FDL-HCGH[11]和ORB与基于网格的运动统计(Grid-based Motion Statistics,GMS)的组合方案[7,21]。此外,本文还引入了两种基于学习机制的图像特征匹配方法作为对照组,包括SuperPoint与SuperGlue的组合方案[18,16],以及SuperPoint与LightGlue的组合算法[18,27]。为验证光场特征匹配度量方法在简单几何变换场景下的匹配性能,本文列举了四组经过简单几何变换的数据上的特征匹配效果,如图3所示,其中绿线表示正确匹配,红线代表错误匹配。表1列举了各图像特征匹配方法的定量评估,其中每个单元格均详细列出了匹配数量、错误匹配数量以及匹配准确率。

360截图20240930095254411.jpg

360截图20240930095305581.jpg

通过实验视觉效果及定量数值分析,本文得出如下结论:相较于传统手工构建的图像匹配度量方法,基于学习的图像匹配策略展现了显著的性能优势。传统方法受限于静态的算法框架和预设参数,难以适应数据的多样性和复杂性。此外,传统方法对噪声的敏感度较高,在实际应用中可能导致匹配精度下降。相比之下,基于学习的方法通过训练过程中的动态参数优化,能够更有效地适应不同的图像内容,展现出更高的性能灵活性。特别地,本文提出的光场特征匹配度量方法在处理简单几何变换场景时展现出了更高的匹配精度,这一优势归因于其专注于不同视角光场特征在三维空间中的几何一致性。相比之下,现有学习类方法大多更侧重于特征语义的相似度,然而,语义信息在视角变化和光照条件变化时易受影响,从而增加了匹配过程中的不确定性。

在光照变化、非朗伯表面及重复纹理等复杂场景数据集上的匹配实验

为深入分析本文提出的光场特征匹配度量方法在处理光照变化、非朗伯表面及重复纹理等复杂场景时的性能,本文选择了多个有代表性的测试场景来进行评估,如图4所示。例如,“Chess”和“Flower”场景用于测试重复和相似纹理的匹配问题,“Office”场景用于模拟在复杂视角翻转情况下的匹配困难,“Kettle”和“Toys”场景用于评估非朗伯效应对匹配性能的影响,而“Games”和“Toiletries”场景则用于考察暗光条件对匹配准确性的挑战。此外,表2中详尽地列出了这些测试场景的定量数值分析结果。

综合匹配结果和定量数值分析,本文揭示:在面对光照变化、非朗伯表面及重复纹理等复杂情景时,本文光场特征匹配度量方法在鲁棒性与精度上表现出明显优势。这一优势源于引入了光场傅里叶分解中的视差作为深度维度信息,并以特征的几何一致性作为匹配度量约束。在上述复杂场景下,特征的语义属性易受外界因素干扰,这增加了匹配过程的不确定性,而几何结构信息则展现出较强的稳健性,保持高度的几何保真性。因此,将特征间的几何关联性作为匹配度量的约束,可以显著提高方法的鲁棒性。基于此,本文提出的光场特征匹配度量模型能够有效应对各类复杂场景数据,保持高匹配精度和匹配鲁棒性。

360截图20240930095318178.jpg

360截图20240930095327011.jpg

为了直观地评估本文提出的光场特征匹配度量模型相较于其他经典距离度量方法的性能,本文利用FDL-HCGH方法提取了光场特征位置和语义描述符。在此基础上,通过应用多种经典距离度量方法对提取的光场特征进行匹配计算,本文系统地比较了不同方法的匹配效果。表3详细列出了在公开的光场匹配数据集[12,13]上,各种距离度量方法所得光场特征匹配的平均准确率。这些对比分析明确揭示了本文提出的匹配度量模型相比传统距离度量方法在光场特征匹配精度上的显著提升,从而验证了其在提高匹配度量精度方面的优越性和实际应用价值。

360截图20240930095337890.jpg

结论

本文提出一种视差信息引导的光场特征匹配度量方法。该方法引入不同视角光场特征之间的投影变换模型作为匹配度量的约束条件,并采用简单的人工神经网络求解投影变换模型的参数,通过最小化特征点总体重投影误差完成对人工神经网络的训练,最终实现了对特征点匹配与否的高精度判别。本文在光场特征中引入了傅里叶分层视差线索来近似替代特征点深度信息,并提出基于多层感知机的自适应校准模块,以逐特征点优化由深度不准确导致的投影偏差。在公开的光场特征匹配数据集上的实验结果表明,在处理平移、旋转、尺度变化等简单几何变换场景数据时,本文所提出的匹配度量方法取得了较高精度的匹配结果;对于存在重复纹理、非朗伯表面及较大光照变化的数据集,本文所提方法取得了显著优于主流方法的特征匹配精度。本文实验验证了采用人工神经网络进行匹配度量的可行性及准确性,并证明所提出的特征匹配与度量方法显著优于基于传统欧氏距离及向量夹角的距离度量方法。

(文章来源于《激光与光电子学进展》,如有侵权请联系删除)