基于多视角相机阵列的偏振图像重构方法--技术前沿--论文--机器视觉网

摘要：偏振成像技术相较于传统成像技术能够提高对比度和可视性，特别是在消除反射或散射光的情况下，同时还能揭示物体表面特定的属性和细节。多视角成像允许从不同角度捕捉场景，提供了更丰富的场景信息和深度感知，增强了图像的细节捕捉能力。然而传统多视角目标检测只专注于普通图像，忽略了场景中所包含的偏振信息。为解决这一问题，本研究运用自行研发的多视角偏振相机阵列系统，对场景中的被遮挡目标进行识别与恢复。首先，通过采集系统获取场景中的多视角偏振信息，信息包括不同距离、不同遮挡物和不同目标的纯遮挡物、目标真实值以及遮挡场景数据；然后将获取的偏振图像进行预处理，处理后的偏振度为0°、45°、90°、135°的偏振图像数据分别输入Polar-ReOccNet网络进行有监督训练，遮挡场景数据与目标真实值一一对应。最终，输入一组多视角偏振图像，可以得到去除遮挡后的目标偏振图像，并且计算出其偏振度、偏振角和偏振度偏振角融合图像。该方法实现了对被遮挡目标的偏振信息重构，有效获取了目标纹理、材料等性质中蕴含的偏振信息，更有利于目标检测。

关键词：偏振计算成像；偏振相机阵列；图像重构；目标检测

1.引言

在光学成像领域中，偏振成像技术通过捕捉光波经过物体表面反射、散射后偏振态的变化来获取目标信息。这种技术在复杂环境中尤为有用，它可以利用不同的偏振信息处理方法来提高目标检测和识别的准确性，从而提高整体成像质量。

低光照条件下，由于光线强度很弱，图像中的噪声会更加明显，运用偏振成像技术可以过滤掉环境中的非偏振光，减少环境中的影响和干扰。Hu等人[1]采用混合网络平衡图像强度与偏振信息的关系，增强图像的全局性能，该方法在低光照下展示出更多细节。Xun等人[2]利用偏振信息减少环境因素的影响来进行多目标检测，检测目标与周围环境的高对比度，提升目标检测进度。但该条件下去除噪声效果有限，在增强目标时同样会增强环境中的噪声。水下、雾霾等强散射介质中，光线会被散射和吸收，导致图像模糊和噪声增加，利用散射光的偏振特性，分离场景光和散射光，可以对目标进行清晰成像。当前主要方法包括主动偏振去散射模型[3-4]、反转图像过程算法[5-6]、小波变换技术[7-8]。偏振差分光学成像技术[9-10]等，这些偏振成像方法能抑制光的散射和反射，提高成像质量，对水下环境中的物体检测和识别有很大帮助。在伪装环境[11-12]中，偏振成像能反映目标的材质、形状和光滑程度，提高目标检测的准确性。当前偏振成像研究还存在一些局限性,单视角的偏振成像对光源的要求较高、无法获取物体表面的全方位偏振信息，导致难以区分出场景中目标的深度信息、空间关系。所以，单视角的偏振成像在一些特殊场景中可能无法完全胜任，采用多视角成像可以在一定程度上解决这些问题。

多视角成像技术通过整合多个不同视角捕获的图像信息，从不同的角度重构和理解场景种的目标。Gershun发表了关于光场的开创性论文[13]，Levoy和Hanrahan提出了光场渲染（LightFieldRendering）的概念，这标志着多视角成像技术的实际应用迈出了重要一步[14]。Levoy等人探索了光场与计算成像的深度结合[15-16],开辟了多视角成像技术新的应用领域。Favaro等人探讨了在多视图几何中利用遮挡现象的研究，这对于处理复杂场景中的多视角成像问题提供了新的视角[17]。Vaish等人进一步展示了如何通过大量相机构成的阵列实现对隐藏或部分遮挡目标的清晰成像[18,19]，在合成孔径图像中实现了一种透视的效果。Pei等人通过全聚焦合成孔径成像技术[20]生成了完整的背景图像以及清晰的被遮挡目标图像。在目标遮挡[21-23]情况下，使用多视角成像技术能够去除遮挡，但是忽略了场景中所蕴含的偏振信息，分析目标的偏振特性有助于对场景的理解更加全面，通过对不同深度的偏振信息进行重构，这种方法相比仅使用相机阵列去除遮挡的传统方法更为先进。

偏振相机阵列多视角探测方法涉及计算机视觉、光场多视角成像、目标探测和偏振光学特性等多个领域。这一领域的内容和研究方向非常广泛。尽管已有一些关于使用相机阵列进行多视角成像的研究案例，但利用偏振相机阵列进行成像的研究还相对较少，特别是在使用偏振阵列进行多视角成像方面，无论是国内还是国外，相关研究都非常有限。本研究将多视角成像技术和偏振成像技术相结合，重构被遮挡目标的偏振特性，体现运用偏振数据进行多视角成像来进行目标检测的优势。

2.理论和方法

2.1偏振基础理论

斯托克斯（Stokes）矢量法是一种描述光波强度信息和偏振信息的表示方法，他提供了光的完整偏振状态信息。

Stokes矢量通常表示为S=(I，Q，U，V)，其中，I表示实际的总光强度，Q表示水平方向与垂直方向偏振分量的差异，U表示两个对角线方向偏振分量的差异，V表示右旋偏振光和左旋偏振光偏振分量的差异。偏振相机采集到的对应方向的偏振图像分别标记为I0（x,y），I45（x,y），I90（x,y），I135（x,y），通过分析四个角度的偏振图像，可以推导出多样的偏振特征参数图像[24-25]。这组参数能够综合描述光的偏振特性，并被广泛运用于偏振成像领域。Stokes矢量可以简化为特定的表达形式：

微信图片_20240807111115.png

光的偏振特性主要用偏振度（DegreeofPolarization，DoP）和偏振角（AngleofPolarization，AoP）描述。偏振度是描述光线偏振程度的数值，完全偏振光的偏振度为1，非偏振光的偏振度为0，数值反映出目标表面的反射光和折射光的振动方向变化，故而可以清楚地表现目标的轮廓和边缘；偏振角是描述光线偏振状态的数值，指光线振动方向与一个参考方向之间的角度，这个角度在当光照射目标表面时会发生变化，从而产生显著的亮度对比。偏振度和偏振角可由Stokes矢量的前三个参数得出[26]，公式如下：

微信图片_20240807111135.png

经过上述计算，可以得到重构后图像的偏振度以及偏振角信息，该信息可以反映场景中的偏振特性，从而更有利于检测被遮挡目标。

2.2图像重构方法

在本研究中，我们提出了Polar-ReOccNet，这是一个为处理多视角偏振图像序列而设计的深度学习框架。该框架利用偏振光的独特特性，对传统成像方法无法捕捉到的场景的关键物理属性编码，揭示有关表面几何、反射和散射现象的细节，这些对于复杂视觉场景中准确的三维重建至关重要。Polar-ReOccNet能够识别微妙的表面变化，这些变化用其他方法可能无法辨识。网络处理偏振图像输入，系统地提取和利用数据中嵌入的偏振线索，实现对场景几何的更全面分析。

微信图片_20240807111138.png

图1 Polar-ReOccNet网络结构图

多通道输入适应性：Polar-ReOccNet以系统采集的多视角偏振图像序列作为输入，将所有视角的图像堆叠，偏振图像格式为tiff，图像通道数为4，相较于RGB图像格式增加了一个额外的数据层，从而包含了更多的信息。Polar-ReOccNet这种输入格式，体现了网络对于偏振光学特性的敏感性和处理能力，这对于提高表面偏振特性分析和目标检测至关重要。

特征提取策略：通过featureinitialization模块，网络利用1×1卷积核有效集成了高维特征信息，这种特征整合策略有助于在不损失偏振特异性信息的前提下，优化特征的初步表示。

深度和多尺度特征分析ResidualASPP模块：ResidualASPP模块通过一系列具有不同膨胀率的膨胀卷积层，以及通过以残差方式级联ASPP模块来扩大网络的接受域并提取多尺度特征[27,28]，引入权重，对不同层的特征语义进行再校正。这一设计在处理偏振图像时尤为关键，其允许网络在不同尺度上捕捉到偏振特性的细微变化。这种深度和多尺度的特征分析对于理解复杂场景中的光学和物理性质至关重要。

编码器-解码器结构[29]：Polar-ReOccNet采用逐步改变特征分辨率和深度的编码器-解码器结构，以捕获偏振图像中的层次化信息。这种结构特别适合处理高空间分辨率的图像，能够在保留关键细节的同时有效地提取和重构全局特征。

最终特征映射和输出：输出层的设计反映了将高维偏振特征映射回低维颜色空间的需求。需要综合偏振信息和颜色信息，以形成适合进一步分析和可视化的表示。

总的来说，Polar-ReOccNet在处理高分辨率偏振图像方面表现出了高度的适应性和复杂性，其结构和设计反映了对偏振图像特有属性的深刻理解。网络的设计能够去除目标前景遮挡物，重构出目标的偏振特性，为目标检测提供全面而准确的信息。

2.3训练详细数据

多视角偏振相机阵列系统的采集视角数量5×15，偏振图像序列为75张。其中每个视角的偏振图像尺寸为2448×2048，包含4个偏振方向（通道）图像。将该序列的每个视角的图像按偏振相机成像后像素的排列方式取出0°、45°、90°、135°偏振方向的图像，即得到该视角下的4组不同偏振方向的偏振图像，其中每幅图像大小为1224×1024。将取出的每个视角图像进一步缩放至与网络适配的尺寸，不同方向的偏振图像与其对应的真实值图像配对输入网络进行训练。

为了增强网络在不同场景下的适应性，我们从数据集中挑选不同距离、不同遮挡物的400组偏振图像，通过上述偏振图像预处理后送入网络进行训练，BatchSize设置为400，epoch设置为400，学习率为0.001，使用MSE（MeanSquareError）评估模型损失，优化器为Adam，采用PSNR（PeakSignaltoNoiseRatio）作为图像重建质量的指标。训练数据量540GB，CPU为Intel6320R，内存为8条三星DDR432GB3200MHz，在NVIDIAGeForceRTX4090上训练了6天。训练完成后loss降至4，PSNR为39.54。

3.实验与结果分析

3.1实验

为了采集场景的多视角偏振图像数据，我们开发了一套多视角偏振相机阵列系统，如图2（a）所示。该系统的核心是一个LUCID_TRI050S-Q偏振相机，配备了SONYIMX253MYR传感器。这个相机具有500万像素的分辨率和3.45μm的像素尺寸，能够一次性获取0°、45°、90°、135°四个方向的偏振光强图像，图像尺寸为1224×1024像素。为了优化成像质量，我们选用了MV-MF5028M-8MP相机镜头，焦距为16mm、35mm、50mm，光圈为F2.8，适用于2/3英寸的传感器，且畸变极小。

该相机安装在一个1.8米长的线性滚珠丝杆平移滑台上，这个滑台可以在水平方向上移动，同时配备了竖直滑台以实现上下运动，从而在两个方向上实现精确控制。相机通过GigE接口连接到工控机（IPC）以进行数据传输。我们的工控机配置包括：i7-10700K处理器、32GB内存、8T硬盘以及NVIDIAGeForceRTX3070显卡，满足了高效数据处理和图像采集的需求。

软件方面，我们基于VisualStudio2019集成开发环境，使用C#编程语言，开发了运动控制程序模块和图像集采模块，并最终联合开发出了运动控制图像采集软件系统，以实现系统的全面功能。

微信图片_20240807111141.png

图2 (a)多视角偏振相机阵列系统(b)遮挡场景示意图(c)外场实验数据采集过程示意图

遮挡场景如图2（b）所示，遮挡物与目标在不同深度平面与偏振相机的焦平面平行，目标分别记为A，B。A目标为身高180CM的塑料光面模特，身穿绿色尼龙材质伪装吉利服；B目标为身高170CM塑料光面模特，身穿黑色棉布材质运动衣。外场实验如图2（c），由于条件所限采用的虚拟相机阵列方法，拍摄过程需要一定时间，假设拍摄过程中户外实验场景中的偏振信息的变化忽略不计。拍摄的实验场景及场景参数如表1所示。

微信图片_20240807111143.png

微信图片_20240807111146.png

表中Ground Truth代表场景中的目标真实值，目标A、B来模拟不同目标在遮挡环境下的情况。_Occ代表只包含遮挡物，不包含目标真实值的场景，目的是提取前景遮挡。Fence代表包含遮挡物栅栏和目标的场景；Bamboo代表包含遮挡物竹子和目标的场景；Fence&Bamboo代表栅栏和竹子复合遮挡的场景；Vine代表包含遮挡物藤曼和目标的场景；willow代表包含遮挡物柳叶和目标的场景。

3.2结果分析

将多视角偏振相机阵列采集到的0°、45°、90°、135°图像，分别经过Polar-ReOccNet网络去除遮挡后，将输出的四个角度图像融合，得到其偏振度，偏振角以及偏振度偏振角融合图像。场景1（fence，8m）去除遮挡后的图像如图3所示并与原遮挡图像比较：

微信图片_20240807111148.png

图3 场景1(fence8m)(a)去除遮挡后的图像(b)去除遮挡后偏振度图像(c)去除遮挡后偏振角图像(d)去除遮挡后偏振度偏振角融合图像(e)原遮挡图像(f)原遮挡偏振度图像(g)原遮挡偏振角图像(h)原遮挡偏振度偏振角融合图像(i)真实值图像(j)真实值偏振度图像(k)真实值偏振角图像(l)真实值偏振度偏振角融合图像

通过图3(a)与图3(e)比较可以看出，该算法去除遮挡的效果比较明显，通过图3(a)与图3(i)比较可以看出，目标A与目标B基本显露出来。通过3(b)与3(f)图像比较可以看出，原遮挡图像中几乎不包含偏振信息，经过算法去遮挡后的图像，目标A基本轮廓可以显现，偏振信息主要提现在腿部及肩部，其原因为目标A身着迷彩服，且上半身与背景的植被融合，故分辨不明显；目标B的头部，身体及腿部偏振信息较为丰富，可以显现基本的轮廓。通过3(c)与3(g)比较，3(g)的偏振角图像基本只显现遮挡物，对后面的目标体现不明显，而3(c)图像体现出丰富的偏振角信息。目标B头部，衣服拉链处，左右臂及裤腿边缘均体现了不同的偏振度信息。可能的原因是，这些部位的材料为塑料、铁质等而与其身上衣服的布料材质不同。目标A的偏振度信息在没有与背景融合的身体中下部较为明显，包括目标A身体的右侧、裤腿及脚部。图3（d）和图3（h）为融合的偏振度偏振角图像，图3(h)中几乎没有任何信息，而图3(d)中可以明显看出目标B的轮廓及身上所带的偏振信息，而目标A的偏振信息，虽然被遮挡了一部分，但还是较为明显，可能识别出目标。

微信图片_20240807111151.png

图4 场景2(fence22m)(a)去除遮挡后的图像(b)去除遮挡后偏振度图像(c)去除遮挡后偏振角图像(d)去除遮挡后偏振度偏振角融合图像(e)原遮挡图像(f)原遮挡偏振度图像(g)原遮挡偏振角图像(h)原遮挡偏振度偏振角融合图像(i)真实值图像(j)真实值偏振度图像(k)真实值偏振角图像(l)真实值偏振度偏振角融合图像

通过图4(a)与图4(e)的比较可以观察到，目标的遮挡物基本被去除，通过图4(a)与图4(i)的比较可以观察到，目标A与目标B的轮廓基本上显现。通过图4(b)与图4(f)的对比，经过算法处理去除遮挡之后，目标A、B的偏振度图像轮廓较为明显，而目标B的头部、手臂的偏振信息较为丰富。通过图4(c)与图4(g)的比较，图4(g)的偏振角图像几乎看不到目标，而图4(c)中存在目标丰富的偏振角信息，长距离下，受相机分辨率的限制及噪声影响变大，会导致目标部分不够平滑。图4(d)与图4(h)展示了融合的偏振度和偏振角图像，其中图4(h)只能看到栅栏，而在图4(d)中，目标A、B的轮廓和偏振信息较为清晰。说明该算法在不同距离下有一定的适应性。

微信图片_20240807111153.png

图5 场景3(bamboo25m)(a)去除遮挡后的图像(b)去除遮挡后偏振度图像(c)去除遮挡后偏振角图像(d)去除遮挡后偏振度偏振角融合图像(e)原遮挡图像(f)原遮挡偏振度图像(g)原遮挡偏振角图像(h)原遮挡偏振度偏振角融合图像(i)真实值图像(j)真实值偏振度图像(k)真实值偏振角图像(l)真实值偏振度偏振角融合图像

通过图5(a)与图5(e)的比较可以观察到，目标的竹子遮挡物被基本去除，通过图5(a)与图5(i)的比较可以观察到，目标A与目标B的轮廓基本上显现。通过图5(b)(c)与图5(f)(g)的对比，原遮挡图像中几乎全为遮挡物的偏振信息。经过算法处理去除遮挡之后，目标A、B的腿部轮廓较为明显，上半身偏振信息较为模糊，造成这种现象的原因为：长距离拍摄下受相机像素的限制，目标像素数较低，受噪声的影响更大；且竹子的叶片较轻，在拍摄过程中受风的影响，会导致偏振图像序列中，不同视角中叶片的位置存在差异，使用多个相机同时拍摄的相机阵列可以解决这一问题。图5(d)与图5(h)展示了融合的偏振度和偏振角图像，尽管受诸多因素的限制，但图5(d)中，目标B及目标A腿部的轮廓偏振信息依旧明显。证明此方法在不同距离、不同遮挡物下有一定的适应性。

综上分析，通过图像可以直观看出，本文方法对重构目标的偏振信息起到了一定的作用，对不同遮挡物、目标、深度具有适应性，体现了目标的轮廓以及部分细节，这些信息有助于检测目标，体现出目标的偏振特性。

我们通过比较目标重构前后均方误差（MSE）、结构相似度指数（SSIM）、峰值信噪比（PSNR）等指标中数值的变化来分析重构的效果。去除遮挡前后具体数值如表2、表3所示：

微信图片_20240807111156.png

微信图片_20240807111158.png

由上表可以看出，重构后的各项数值普遍优于重构之前，去遮挡后的偏振度、偏振角和偏振度偏振角融合图像与真实值具有更高的相似性，说明该方法对恢复目标的偏振信息起到了一定效果。

此外，我们也使用了灰度共生矩阵（Gray-LevelCo-occurrenceMatrix,GLCM[30]）对重构的目标偏振度和偏振角图像进行了定量分析，以分析本文网络对不同场景或目标的适用性。利用GLCM的五个核心参数：对比度、均匀性、相关性、能量和熵值，综合评估了图像的纹理特性。这种基于统计的方法能够揭示图像中像素间的空间关系，为理解和量化图像的纹理信息提供了科学和全面的描述，进而详细描述了目标重构的效果。

对比度（Contrast）是一个度量图像中像素间灰度对比强度的参数。它计算了图像中对角线上元素的分布情况，反映了图像的纹理深浅程度，对比度高的图像具有较大的灰度级差异，表明图像纹理变化剧烈，反之则表示纹理较为平滑。对比度的数学表达式为：

微信图片_20240807111201.png

其中P(i,j)是归一化的共生矩阵，反映图像中像素对的相对出现频率，levels是图像的灰度级数。

均匀性（Homogeneity）是一个描述图像中灰度分布一致性的参数。它衡量了共生矩阵中对角线元素的累积值，反映了图像纹理的规律性和一致性。均匀性高的图像表明灰度值分布均匀，纹理平滑；低均匀性指图像纹理中存在较多的灰度跳变。均匀性的数学表达式为：

微信图片_20240807111203.png

相关性（Correlation）是一个度量图像中像素与其邻域像素间灰度值相似程度的参数。它反映了像素间灰度值的线性依赖关系。高相关性指示图像纹理中的灰度值变化是有规律的；低相关性则表示灰度值变化较为随机。相关性的数学表达式为：

微信图片_20240807111205.png

其中μi，μj是平均灰度值，σi，σj是灰度值的标准差。

能量（Energy）或称角二阶矩（AngularSecondMoment,ASM）是一个度量图像纹理一致性和重复性的参数。它计算了共生矩阵元素值的平方和，反映了纹理的规律性。能量值高表明图像纹理的重复性或规律性较高，纹理模式的一致性强；低能量值则表示图像纹理的变化较为复杂。能量的数学表达式为：

微信图片_20240807111208.png

熵（Entropy）是一个度量图像中纹理复杂度或信息量的参数。它基于信息论的概念，计算了共生矩阵中各元素的信息期望值。熵值高的图像表明纹理复杂，信息量大；低熵值则说明图像纹理较为简单或一致。熵的数学表达式为：

微信图片_20240807111210.png

针对目标所在区域，分别计算目标A和目标B的去除遮挡后及原遮挡图像的灰度共生矩阵数值，分别为对比度、均匀性、相关性、能量和熵值，具体数值如下表格：

微信图片_20240807111213.png

微信图片_20240807111215.png

在对比度上，去遮挡后图像的偏振度和融合图像都强于原遮挡图像，原遮挡图像的偏振度数值较低，去除遮挡后的偏振图像数值取得了显著提升，这表明去遮挡后偏振度图像具有较大的灰度值差异，目标轮廓更加清晰，图像纹理变化明显，显示了目标所携带的偏振信息，该数值与图片直观分析表现相符。而原遮挡偏振度图像对比度更高，这说明原遮挡物的纹理较为明显，去除遮挡取得了明显的效果。

在均匀性上，去遮挡后图像的偏振度和融合图像都弱于原遮挡图像，这说明偏振度图像纹理中存在较多灰度跳变，图像纹理不均匀，这表明在去遮挡后的图像上体现了目标的偏振度特性。而去遮挡后图像的偏振角均匀性数值较大，这表明其偏振角的纹理较为均匀一致，说明去除遮挡取得了很好的效果。

在相关性上，去遮挡后图像的偏振度、偏振角数值均高于去遮挡前，这表明去遮挡后的图像灰度级分布规律明显，去遮挡后的图像较为平滑。而原遮挡图像中遮挡物与目标相交边缘灰度级分布相关性较低，这与场景中的位置关系一致，说明去除遮挡取得了很好的效果。

在能量上，去遮挡后图像的偏振度和融合图像都弱于原遮挡图像，这说明去遮挡后的图像纹理变化多，一致性较差。这体现了目标区域存在明显的偏振度变化，可以获得目标的偏振特性。而原遮挡图像的偏振角能量数值较大，这与其遮挡物纹理变化一致，重复性较高相符。

在熵值上，去遮挡后图像的偏振度和融合图像都强于原遮挡图像，这说明去遮挡后图像的图像纹理复杂，体现了目标含有丰富的偏振度信息，与之前的数值情况相符。而原遮挡图像偏振角熵值更高，这说明遮挡物遮挡了目标，使目标区域纹理更加复杂，所蕴含的信息量强于去遮挡后，与事实相符，说明去除遮挡取得了很好的效果。

4.结论

由实验数据和结果分析可知，对场景中采集的多视角偏振图像序列经过该方法处理之后，实现了去除遮挡的效果，对目标进行了图像重构，利用重构后的四幅不同的偏振角图像进行融合，可以得到目标的偏振度、偏振角以及融合的偏振度偏振角图像。偏振图像更加清晰地体现了普通图像所忽略的目标偏振特性，更加丰富了从场景中所获得的信息，重构后的图像可以更全面地反映出目标的轮廓、纹理及其他属性，更好的表现目标所蕴含的细节。所以将多视角成像技术和偏振成像相结合是可行的，该方法是有效的。

我们的实验处于前期基础研究与探索阶段，因此，从原理方法、灵活性、经济性与实用性角度综合考虑，我们采用了移动偏振相机的阵列。灵活的偏振相机视点数有利于探索最优的视角数量和阵列排布方式、有利于研究相机阵列的标定方式并拓展为更广义的表示、有利于研究相机阵列不同排布方式对成像性能的影响。但该方法也存在一定的缺点，实验采集一组数据的消耗时间约为5分钟。在此期间，场景中的光照环境可能会发生较大变化，环境会导致遮挡物及目标的位置发生偏移，移动采集存在误差，一天内不同时间、环境中的偏振信息可能存在较大差异等等，这些不确定因素可能都会对最终结果造成影响。未来的工作可以通过改进实验条件，获得更加准确和优质的数据，减小不利因素影响，加大训练数据量，进行多环境多目标下的偏振图像重构。

（文章来源于《激光与光电子学进展》，如有侵权，请联系删文）