RGBT双模态加权相关滤波跟踪算法

视觉跟踪是计算机视觉领域的一个基础性但发展迅速的研究课题,在民用和军用领域都有大量的应用[1-2]。一般来说,视觉跟踪指的是短时单目标跟踪,它的定义是给定目标在视频第一帧中的矩形框,估计目标在整段视频中的运动轨迹。和目标检测相比,视觉跟踪没有目标类别和外观的先验信息。因此,在线跟踪过程中,跟踪算法容易受到畸变、局部遮挡、背景干扰和光照变化的影响,从而难以实现长时间持续的目标跟踪。

近年来,相关滤波器广泛应用于视觉跟踪任务,并在跟踪数据集上取得了很好的成绩[3-12]。相关滤波器利用大量循环移位的目标样本训练相关滤波器参数,并将空域中的耗时的相关操作转换为频域中便捷的点乘操作,从而实现高速的跟踪速度。相关滤波器是视觉跟踪领域的主流方法之一。MOSSE[3]是最早的基于相关滤波器的视觉跟踪算法,达到了大于600帧/秒的跟踪速度。之后,基于相关滤波器原理,不同的相关滤波器变种算法[4-12]被提出,不断提高了相关滤波器的跟踪性能。在实际跟踪场景中,这些算法会受到光照变化、局部遮挡、烟雾等因素的影响而发生漂移,从而导致跟踪失败。

传统的相关滤波器假设目标是一个严格的矩形刚体,可以用一个轴对齐矩形边界框表示。但是在实际跟踪场景中,基于相关滤波器的跟踪算法容易受到目标畸变、目标不规则形状和局部遮挡的影响,因为表示目标的矩形框中不仅有前景目标还有部分背景像素。这种前景/背景像素混淆的情况严重影响了相关滤波器的训练精度,从而导致跟踪漂移。

热红外成像技术因其独特的优势被广泛应用于军事和安防领域[13-17]。近些年来,热红外传感器也变得越来越廉价。热红外图像的灰度体现了目标的热辐射能力。和可见光传感器相比,热红外传感器能够穿透云雾、烟雾,并且不受光照变化的影响。一般来说,热红外图像能够将人、动物、车等前景目标从背景中凸显出来,并且能够帮助检测前景目标的遮挡情况。因此,当前景目标与背景颜色相似或光照条件较差时,热红外图像和可见光图像具有较强的互补性。研究者通过结合可见光和热红外的互补特性提高了视觉跟踪算法在复杂条件下的跟踪性能。Conaire等人[13]在一个人工标注的多模态监控视频数据集上验证了不同融合机制对多模态视觉跟踪算法性能的影响,并提出一种热红外和可见光信息的多特征融合方法[14]。Li等[15]提出了一种实时的在线多模态目标跟踪算法,在贝叶斯框架下通过拉普拉斯稀疏表达学习多模态的特征模型。在此基础上,Li等[16]进一步地提出一种协同稀疏表示模型,同步优化模态可靠性权重和稀疏系数。最近,Li等[17]提出了一种基于跨模态排序的RGB-T跟踪算法,该算法将跨模态一致性引入了排序模型并利用查询学习处理标签噪声。

本文提出了一种可见光-热红外(RGB-Thermal, RGBT)双模态加权相关滤波跟踪算法。该方法在RGBT234数据集上取得了state-of-the-art性能,证明了热红外信息的有效性。在本文中,为了充分利用可见光信息和热红外信息的互补特性,我们提出加权相关滤波器(Weighted Correlation Filters, WCF)并应用于RGBT跟踪。本文的创新点在于以下两个方面:

首先,为了充分利用RGBT图像的互补特性,WCF分别从可见光图像和热红外图像中提取多维特征图。相比热红外灰度图像,可见光图像具有更为丰富的信息。因此,WCF利用预训练的卷积神经网络(VGGNet)从可见光图像中提取深度特征,并从热红外图像中提取手工特征(Histogram of Gradient, HOG)[18]。提取的深度特征和手工特征被堆叠起来从而达到特征增强的目的,并用于RGBT跟踪。

其次,为了解决矩形框假设造成的问题,我们从热红外图像和可见光图像中求解一个权重图。权重图上的每个坐标代表了该像素属于前景目标的概率。在相关滤波器训练过程中,权重图对堆叠的组合特征进行加权从而达到空间加权的目的,并使得求得的相关滤波器更关注于前景像素从而忽略矩形框中背景像素的影响。

2 基准算法SRDCF

传统的基于标准相关滤波器的视觉跟踪算法具有较高的准确性和速度,但搜索区域较小且容易受到边界效应的影响而发生漂移。文献[11]提出了空间正则化相关滤波器(Spatially Regularized Discriminative Correlation Filters,SRDCF)从而解决了边界效应的影响并扩展了搜索区域。SRDCF算法在空间正则项上施加由二次函数构造的空间权重,空间权重对滤波器边界施加较大的惩罚,对滤波器中心区域施加较小的惩罚。因而,利用空间正则化约束的相关滤波器能量主要集中在滤波器中间位置。本章提出的基于加权相关滤波器(Weighted Correlation Filters,WCF)的RGBT跟踪算法是以SRDCF为基础的。给定前景目标样本得出的大量循环移位样本

和对应的标签

可以通过训练得到一个多通道相关滤波器f。假设xk是d通道特征,样本尺寸大小为M×N。假设

表示第k个样本xk的第l维特征。相关滤波器f可以通过最小化以下的公式获得

其中ak>0表示样本xk的权重,*为循环卷积运算,·为点积运算,yk为高斯标签,λ为正则化参数,用于避免参数训练过拟合,wp为正则化项权重,用于减轻边界效应。

3 加权相关滤波器

3.1 WCF算法流程

基于加权相关滤波器(Weighted Correlation Filters, WCF)的双模态可见光/热红外RGBT跟踪算法的总体流程如图1所示。跟踪目标可以在初始帧中手动标出或由检测器给出。在每个帧中,我们从可见光图像中提取深度卷积特征,从热红外图像中提取手工HOG特征。深度特征虽然对目标的表征能力强,泛化性好;HOG特征关注于目标细节,二者具有很好的互补性。为了突出前景目标,我们根据RGBT双模图像和目标位置的先验信息计算得到一个权重图(Weight Map)。权重图上的每个像素代表了该像素属于前景目标的概率。可见光图像提取的卷积特征和热红外图像中提取的手工特征被堆叠起来构成高维的组合特征,用以表征目标。组合特征和权重图一起用于相关滤波器的训练和更新过程。权重图可进一步用于指导相关滤波器的更新过程,当根据权重图判定目标处于遮挡状态时,停止相关滤波器系数的更新,反之对相关滤波器系数进行更新。

WCF算法是通过一系列的训练样本

和标签yk学习一个多维相关滤波器f。假设可见光图像提取的卷积特征用xrgb表示,热红外图像上提取的手工特征用xt表示,训练样本xk=[xrgb xt]通过串联卷积特征xrgb和手工特征xt得到。为了调整相关滤波器以更多地关注目标区域,将权重图w纳入相关滤波器学习中,那么f可以通过最小化以下的公式获得

其中ak表示每个训练样本的权重,*为循环卷积运算,·为点积运算,yk为高斯软标签,λ为正则化参数,用于避免过拟合,w为权重映射,用于突出目标区域。

3.2 权重图

为了将前景目标从背景区域区分出来,我们通过计算权重图得到每个像素属于前景目标的概率。权重图利用可见光图像和热红外图像的互补特性联合计算得到。对于每幅可见光图像,我们以前景目标为中心裁剪一块图像区域I,图像块I的大小为M×N 。我们可以从前景和背景像素中计算出相应的颜色直方图,分别用HO和HB表示。权重图上每个像素属于前景目标的概率可以从HO和HB导出,其公式如下:

其中bi, j代表像素I(i, j)在颜色直方图的bin,wrgb表示基于可见光图像得出的目标似然概率。类似地,根据热红外图像上前景和背景区域得出的直方图,我们可以计算出基于热红外图像的目标似然概率,用wt表示。

根据目标似然概率图wrgb和wt,我们可以求解出权重图w指导相关滤波器的训练过程。一般来讲,假设目标的运动轨迹较为平滑,相邻帧之间的目标位置比较接近。因此,搜索框的中心区域像素更有可能属于前景目标。基于这种假设,我们利用余弦窗口ws对目标的空间先验信息进行建模。空间权重图就由余弦窗口ws,可见光目标似然概率图wrgb和热红外目标似然概率图wt加权得到,公式如下所示

其中α和β是插值参数。在跟踪过程中,前景区域和背景区域的颜色直方图和热红外直方图通过线性差值的方式在线更新,以充分适应目标的外观变化。权重图w在抑制背景区域的同时可以突出前景目标区域。我们将权重w代入相关滤波器训练过程从而达到克服矩形形状假设的限制。

3.3 加权相关滤波器的训练

为了求解相关滤波器系数,我们对公式(2)进行向量化进而得到:

这里粗体字母

和yk分别是标量

和yk的向量化。fl是一个MN×1维向量,

是

的循环矩阵,

的每一行由

循环移位生成。

为求上式(5)的滤波器全向量解f=[(f1)T…(fd)T]T,定义矩阵

为d×d块对角矩阵,式(5)可以简化为

经推导,式(6)可以通过求解以下方程得到

其中,

是由训练样本构成的矩阵,Γ=[α1I⊕…⊕αtI]是对角权重系数矩阵,

是标签向量。和CCOT算法类似,本文采用预处理共轭梯度PCG优化方法对上式(7)进行迭代求解相关滤波器系数。

3.4 遮挡检测

计算得到的权重图w∈Rm×n可以反映当前帧中目标的遮挡情况。对权重图进行二值分割,我们可以得到前景和背景区域。当前景区域所占比例过低时,目标被局部遮挡的可能性极大。基于这种假设,我们可以根据前景区域所占搜索区域的比例推断目标的遮挡状态。如果前景目标像素数目占搜索区域尺寸的比例小于一个给定阈值,目标被判定为被遮挡。

由权重图得到二值分割图后,我们采用给定阈值对权重图二值化得到前景区域的掩模M∈Rm×n:

当目标被判定为遮挡时,前景目标像素数量占搜索区域尺寸的比例小于一个给定阈值T,如下:

当目标被遮挡时,我们停止加权相关滤波器的在线训练以及可见光图像直方图和热红外图像直方图的在线更新。

4 实验

为了验证本文提出跟踪算法的有效性,我们在可见光/热红外双模态视频跟踪数据集RGBT234[19]上进行了实验。我们的算法是在Matlab上基于MatConvNet[20]实现的,实验所采用的电脑配置是NVIDIA GeForce GTX Titan GPU和Intel Core i7- 6700K。可见光图像和热红外图像直方图的更新率均设置为0.1。采用较小的更新值是为了防止错误更新污染直方图模型。WCF算法的主要参数如表1所示,其中正则化系数、样本数目、尺度相关滤波器的特征金字塔数以及尺度因子沿用了SRDCF算法中的默认设置。公式(4)中的加权参数α和β 都被设置为0.3。一般来讲,我们假设当目标有一半以上像素被遮挡时,我们判定目标处于遮挡状态。因此,实验中我们设定判断遮挡状态的阈值T为0.5。在4.3节我们将详细讨论α、β和T参数的设置对WCF跟踪算法性能的影响。所有参数在实验过程中保持不变。

4.1 公开数据集和评价指标

在RGBT234数据集上,我们将本文提出的算法和其他算法做对比。RGBT234数据集上包含234段标注好的可见光/热红外双模态视频片段,每段视频包含一个RGB视频和一个精确对齐的热红外视频。数据集包含多种实验挑战,如阴雨、夜间、炎热和寒冷天气。视频帧数达到234000,最长的视频片段达到8000帧。所有的视频都被标注了12个属性,包括无遮挡(no occlusion, NO)、局部遮挡(partial occlusion, PO)、严重遮挡(heavy occlusion, HO)、低亮度(low illumination, LI)、低分辨率(low resolution, LR)、热交叉(thermal crossover, TC),畸变(deformation, DEF)、快速运动(fast motion, FM),尺度变化(scale variation, SV), 运动模糊(motion blur, MB),相机运动(camera moving, CM)和背景干扰(background clutter, BC)。

数据集上的评估基于两个准则:1)最大精确度(Maximum Precision Rate, MPR);2)最大成功率(Maximum Success Rate, MSR)。MPR定义为最大距离精度随不同平均中心位置误差(Average Center Location Error, ACLE)阈值的变化曲线,通常采用20 个像素对应的曲线值对算法进行排序。最大距离精度表示可见光与热红外双模态视频中最小的平均中心位置误差在给定阈值范围内的跟踪帧数占总帧数的百分比。MSR定义为最大重合率精度随不同交并比阈值的变化曲线,采用曲线的AUC 对跟踪算法进行排序。最大重合率精度表示两种模态视频中最大的交并比在给定阈值范围内的跟踪帧数占总帧数的百分比。

4.2 与主流跟踪方法的性能对比

4.2.1 总体性能对比

为了进一步验证算法的跟踪性能,我们对比了我们提出的算法WCF与RGBT234公开数据集上排名靠前的11个算法的跟踪性能,分别为SRDCF[11],MEEM+RGBT[21],CSR-DCF[22],CFnet+RGBT[23],CFnet[23],DSST[8],SAMF[10],KCF+RGBT[5],CSR[14],L1-PF[13]和JSR[15]。图2给出了所有对比算法在RGBT234数据集上的最大精确率图和最大成功率图。总体来看,我们提出的算法WCF在最大精确率图得分(68.8%)和最大成功率图得分(49.0%)上均排名第一,优于所有的对比算法。具体来看,我们的算法WCF较基准算法SRDCF在最大精确率图得分上高4.7%,在最大成功率图得分上高2.7%。实验结果表明我们提出的算法WCF可以有效地实现RGBT 视频中的目标跟踪。

4.2.2 各属性性能对比

图3进一步给出了所有对比算法在12 种视频属性(无遮挡、局部遮挡、严重遮挡、低光照、低分辨率、热交叉、变形、快速运动、尺度变化、运动模糊、相机运动和背景干扰)下的最大成功率图。从图中可以看出,我们的算法WCF在背景干扰、相机运动、变形、快速运动、严重遮挡、低光照、低分辨率、运动模糊、无遮挡、局部遮挡十种属性下取得了最好的跟踪性能,然而在图像目标有尺度变化和热交叉情况下跟踪性能会受到一定影响。我们的提出的算法WCF有效地结合了目标可见光深度特征的鲁棒性和热红外HOG特征的互补性,引入了权重图,能够将目标和背景有效区分开,此外采用了遮挡检测模块,有效防止了错误更新导致目标模型污染,因此在多种属性下均取得了很好的跟踪性能。在热交叉情况下,依据热红外图像计算得到的目标概率图精度受到影响,这也限制了我们提出的算法在这种视频属性下的跟踪性能。

为了验证WCF算法抗遮挡机制的有效性,我们将WCF算法和对比算法KCF+RGBT在RGBT234数据集中的bluebike视频上进行对比。如图4所示,在bluebike视频中,目标受到光照变化和遮挡的影响。可以看到,WCF对光照和树木的遮挡具有很强的鲁棒性,在整段视频中能够对目标进行持续稳定的跟踪。相比之下,KCF+RGBT受到光照变化和树木的遮挡而发生跟踪漂移。

4.3 参数性能分析

WCF算法中大部分的参数都沿用了基准算法SRDCF中默认的参数设置,其他关键的参数主要包括公式(4)中的加权参数α、β和公式(9)中的阈值T。

当分析不同参数设置的影响时,我们选取了WCF算法在RGBT234数据集上的最大成功率图得分作为评价标准。

4.3.1 参数α和β的影响

在讨论参数α和β的影响时,我们假设当目标被遮挡的像素面积比例大于目标面积的一半时,目标处于被遮挡状态,因此设定阈值T为0.5。我们将α和β的取值依次从0.1增加到0.9,每次增加0.2。WCF算法在RGBT234数据集上的最大成功率图得分随参数取值的变化如表2所示。可以看到,当α和β的取值分别为0.5和0.3时,WCF算法在RGBT234数据集上的最大成功率图得分最高。因此,我们可以推断出表示基于可见光图像得出的目标似然概率图wrgb对WCF的作用高于基于热红外图像的目标似然概率wt。这是因为和热红外图像相比,可见光图像包含更多的信息,因此生成的目标似然概率图更加准确。

4.3.2 参数T的影响

我们将α和β分别设置为最优参数0.5和0.3,将参数T的取值依次从0.1增加到0.9,每次增加0.2。WCF算法的在RGBT234数据集上的最大成功率图得分随参数取值的变化如表3所示。可以看到,当参数T的取值是0.5时,WCF算法在RGBT234数据集上的最大成功率图得分最高。当参数T的取值高于0.5时,WCF的遮挡检测模块的激活门限会提高。当目标受到小部分遮挡时,遮挡检测模块并不会被激活,从而导致跟踪算法的失败。当参数T的取值低于0.5时,WCF的遮挡检测模块的激活门限会降低。当目标受到小部分遮挡时,遮挡检测模块会被频繁激活,从而停止目标似然概率图的更新并导致算法漂移。

5 结论

针对传统相关滤波器的矩形框假设的缺点,本文提出了一个RGBT双模态加权相关滤波跟踪算法。该算法利用可见光图像和热红外图像联合求解一个权重图,对组合特征进行像素级加权。权重图的像素值代表了该位置属于前景目标的概率,可以突出前景目标并抑制矩形框内的背景像素。该算法将权重图引入SRDCF算法对其进行改进,并根据权重图的二值分割图推断目标的遮挡情况。RTBT234公共数据集上的实验表明本文提出的可见光/热红外双模态相关滤波视觉跟踪算法相对基准算法SRDCF具有较大的性能提升,并且在复杂跟踪场景中能够实现鲁棒跟踪。

[1] 管皓, 薛向阳, 安志勇. 在线单目标视频跟踪算法综述[J]. 小型微型计算机系统, 2017, 38(1): 147-153.

Guan Hao, Xue Xiangyang, An Zhiyong. Online Single Object Video Tracking: A Survey[J]. Mini-Micro Systems, 2017, 38(1): 147-153.(in Chinese)

[2] Yilmaz A, Javed O, Shah M. Object Tracking: A Survey[J]. ACM Computing Surveys, 2006, 38(4): 1- 45.

[3] Bolme D S, Beveridge J R, Draper B A, et al. Visual Object Tracking using Adaptive Correlation Filters[C]∥The Twenty-Third IEEE Conference on Computer Vision and Pattern Recognition, 2010: 281-302.

[4] Henriques J, Caseiro R, et al. Exploiting the Circulant Structure of Tracking-by-Detection with Kernels[C]∥European Conference on Computer Vision (ECCV). Springer Berlin Heidelberg, 2012: 702-715.

[5] Henriques J F, Caseiro R, Martins P, et al. High-Speed Tracking with Kernelized Correlation Filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 37(3): 583-596.

[6] Ma C, Yang X, Zhang C, et al. Long-term Correlation Tracking[C]∥Computer Vision and Pattern Recognition (CVPR). IEEE, 2015: 5388-5396.

[7] Danelljan M, Hager G, Khan F S, et al. Convolutional Features for Correlation Filter Based Visual Tracking[C]∥IEEE International Conference on Computer Vision Workshop. IEEE Computer Society, 2015: 621- 629.

[8] Danelljan M, Häger G, Khan F S, et al. Discriminative Scale Space Tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(8): 1561-1575.

[9] Ma C, Huang J B, Yang X, et al. Hierarchical Convolutional Features for Visual Tracking[C]∥IEEE International Conference on Computer Vision (ICCV). IEEE Computer Society, 2015: 3074-3082.

[10]Li Y, Zhu J. A Scale Adaptive Kernel Correlation Filter Tracker with Feature Integration[C]∥European Conference on Computer Vision, 2014: 254-265.

[11]Danelljan M, Hager G, Khan F S, et al. Learning Spatially Regularized Correlation Filters for Visual Tracking[C]∥IEEE International Conference on Computer Vision (ICCV). IEEE Computer Society, 2015: 4310- 4318.

[12]Danelljan M, Robinson A, Khan F S, et al. Beyond Correlation Filters: Learning Continuous Convolution Operators for Visual Tracking[C]∥European Conference on Computer Vision (ECCV). Springer, Cham, 2016: 472- 488.

[13]Conaire O C, Connor N E, Cooke E, et al. Comparison of fusion methods for thermo-visual surveillance tracking[C]∥International Conference on Information Fusion, 2006.

[14]Conaire O C, Connor N E, Cooke E, et al. Comparison of fusion methods for thermo-visual surveillance tracking[C]∥International Conference on Information Fusion, 2006.

[15]Li C, Cheng H, Hu S, et al. Learning collaborative sparse representation for grayscale-thermal tracking[J]. IEEE Transactions on Image Processing, 2016, 25(12): 5743-5756.

[16]Li C, Nan Z, Lu Y, et al. Weighted sparse representation regularized graph learning for rgb-t object tracking[C]∥ACM on Multimedia Conference, 2017.

[17]Li C, Zhu C, Huang Y, et al. Cross-Modal Ranking with Soft Consistency and Noisy Labels for Robust RGB-T Tracking[C]∥European Conference on Computer Vision, 2016: 824- 849.

[18]Dalal N, Triggs B. Histograms of Oriented Gradients for Human Detection[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2005, 20(12): 1198-1210.

[19]Li C, Liang X, Lu Y, et al. Rgb-t object tracking: benchmark and baseline. arXiv preprint arXiv: 1805.08982 (2018).

[20]Vedaldi A, Lenc K. Matconvnet: Convolutional neural networks for matlab[C]∥Association for Computing Machinery, 2015: 689- 692.

[21]Zhang J, Ma S, Sclaro S. Meem: Robust tracking via multiple experts using entropy minimization[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2014: 188-203.

[22]Lukezic A, Vojir T, Zajc C. Discriminative correlation filter with channel and spatial reliability[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2017: 4847- 4856.

[23]Valmadre J, Bertinetto L, Henriques J, et al. End-to-End Representation Learning for Correlation Filter Based Tracking[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2017: 4057- 4068.