张量低秩约束下的多帧图像去模糊

多帧图像去模糊是计算机视觉领域中的基本问题之一。模糊通常因拍摄过程中相机的抖动,场景深度的变化,物体的快速运动而产生。多帧图像去模糊的目标是通过模糊图像序列来恢复清晰帧。

图像去模糊也称为图像反卷积,根据模糊核是否已知分为盲去模糊和非盲去模糊。在真实场景中,模糊核通常未知,在解空间能找到多组符合条件的解,因此求解模糊核和清晰帧是一个病态问题。针对多帧图像去模糊,比较直接的方案是利用单帧图像去模糊的方法对连续帧图像逐帧进行去模糊。传统的单帧图像去模糊的方法主要通过对清晰图像进行统计和观察从而设计出与清晰图像相关的先验,求解模糊核,然后进一步利用反卷积方法得到清晰帧。文献[1]利用混合高斯模型来拟合自然图像的梯度分布规律,并通过变分贝叶斯的方式估计模糊核。文献[2]改进混合高斯模型,提出利用连续分段函数来模拟自然图像的梯度分布。文献[3]基于图像梯度的分布规律提出利用超拉普拉斯模型模拟自然图像的梯度分布,同时利用有效的边际近似方法来估计图像的模糊核实现去模糊。除了利用不同的模型来模拟图像的梯度分布作为先验,图像稀疏先验在去模糊中也有广泛运用。文献[4- 6]引入图像的l0范数作为稀疏先验约束,文献[6]将稀疏约束扩展到图像密度和图像的梯度,进一步提升去模糊效果。随着深度学习的兴起,一系列的基于卷积网络去模糊的方法也被提出[8-10]。但是对于多帧图像去模糊,直接利用单帧图像去模糊的方法则未充分考虑多帧图像间的关系,因此利用多帧协同去模糊的方法得到广泛关注。文献[11]将求取每一帧模糊图像的模糊核与清晰图像统一在一个优化框架中,提出一种改进的线性布雷格曼迭代算法,同时优化清晰图像和模糊核,从而达到多帧图像去模糊的效果。文献[12]探索运动模糊核和清晰图像的稀疏性,提出用l1范数对图像梯度约束,同时利用稀疏性和多张图像之间的连续性共同约束模糊核。文献[13]提出一种基于耦合自适应稀疏性的多帧图像去模糊方法,将多帧输入图像的信息融合得到一帧清晰图像。但文献[11-13]中的方法并没有显式的考虑多帧图像间的时序关系,对存在动态场景的多帧图像不能很好处理。文献[14]利用物体的运动路径模拟每一帧图像的模糊核,同时依据相邻帧间的对齐特性估计每一帧图像的模糊核,最后利用反卷积进行多帧去模糊。文献[15]利用每个像素前后帧的双向光流建立与模糊核的对应关系,对每个像素估计模糊核进行去模糊。文献[16]基于[15]改进了运动光流和模糊核间的对应函数关系。虽然结合时序光流的方法显式地考虑了多帧之间的时序关系,但是会使模型求解十分复杂。

近几年,基于低秩矩阵近似的方法被成功应用到各种图像恢复任务中[7,23-24]。在这些方法中,核范数最小化应用最为广泛,包括图像去噪[23-24],图像去模糊[7]等。文献[24]将加权核范数最小化的低秩矩阵方法用于图像去噪。文献[23]利用低秩约束能保留图像重要边缘信息的性质,提出基于低秩矩阵的非局部光谱先验的非盲去模糊方法。文献[7]利用清晰图像和模糊图像间秩的差异,提出基于图像密度和图像梯度的低秩约束,通过对奇异值加权的方法来达到保留大的奇异值并裁剪小的奇异值,达到保留主要结构信息的目的,最后利用中间结果求解模糊核和反卷积的方法得到清晰图像。随着传感技术和计算技术的不断进步,越来越多的高维数据被获取,例如HDR,视频图像,多光谱图像等,仅仅利用二维低秩矩阵模型只考虑了图像的局部空间二维信息,第三维信息在模型中并未充分利用,因此一系列将二维矩阵低秩延伸到三维张量低秩的方法被提出[21,25-27]。文献[29]利用张量环实现张量低秩。文献[30]提出张量低TT秩系数阵列估计的方法。文献[28]将张量BTD(Block Term Decompositon)分解用于高维图像解混中。文献[26-27]将张量低秩估计用于多光谱去噪中。文献[25]利用对高维张量的高维奇异值分解实现对多光谱图像的低秩约束,并将此模型运用到多光谱图像恢复任务中。

在本文中,我们将张量低秩方法用于多帧图像盲去模糊任务中。首先将多帧图像按照时序维堆叠为一个三维图像张量,整个去模糊模型基于此三维张量进行求解,同时在本模型中显式考虑了多帧图像间的时序和空间关系,避免了求解时序光流方程的复杂过程,利用张量各模态展开的低秩作为约束,有效保留图像的强边缘和纹理信息,通过反复迭代求解未知模糊核,最终反卷积实现多帧图像去模糊。实验表明本方法较对比方法在多帧去模糊能取得更好结果。

2 方法

2.1 多帧图像张量构成与张量的秩

本方法主要用于解决多帧图像去模糊,因多帧模糊图像每帧之间仍然存在差异,在最开始,对多帧图像利用[20]中方法进行对齐预处理操作,然后将多帧图像按照时序维堆叠为一个张量图像。张量实际上是一个N维的数组,在本文中,定义三维图像张量为

∈RM*N*P,其中M*N表示每帧图像矩阵Yi的大小,定义为张量的切片,P表示构成模糊张量图像的帧数。三维张量

∈RM*N*P有三个模态(mode),可以按照mode-1,mode-2,mode-3分别展开如下:

本方法中对应的张量低秩约束也是基于张量的mode展开进行。

给定张量

∈RM*N*P,在张量中,关于张量的秩的定义是不唯一的。基于CP分解的秩定义为最小秩-1张量分解的数目[32],即rank(

张量的CP秩的计算是一个NP问题。另一种基于Tucker分解的张量秩定义为张量各模态展开矩阵的秩度量[32],即rank(

)

={rank(

(1)),…，rank(

(K))},基于Tucker分解的张量的秩可以通过各模展开矩阵的核范数求解。相比于CP秩,Tucker秩可以精确的描述张量各维度的相关性。在本文去模糊模型中,我们采用的是基于Tucker 分解的张量秩。

2.2 张量低秩约束的多帧去模糊模型

本文提出的多帧去模糊模型是基于极大后验估计的方法,基于极大后验估计的方法通常是设计不同的图像先验和模糊核先验来约束解空间,进而求解清晰帧和模糊核,模型可概括写为:

其中第一项为数据保真项,第二项是模糊核的约束项,第三项为图像的先验约束,λ,γ为权重因子,⊗表示卷积,若为

分别为二维张量(矩阵),则⊗其为矩阵卷积,若为

分别为三维张量,则⊗表示

的每一个切片矩阵的卷积。

基于极大后验估计模型,我们提出了时序张量多帧低秩去模糊模型如下:

模型中关于张量低秩方式采用的是Tucker秩[32],具体如下公式:

在本模型中,

∈RM*N*P分别为清晰多帧图像张量,模糊多帧图像张量,

为模糊核张量,每一帧模糊图像对应模糊核张量的相应一个切片,Li表示的是构成张量的第i帧图像矩阵,γ,ηn为权重,εm是大于0的常量,表示每一个模态展开矩阵的权重,并且满足

表示张量基于Tucker分解的核范数约束,XM表示的是张量

按照不同的模态展开的矩阵的核范数,此张量的低秩实质上是张量各个模态展开矩阵核范数的组合,本模型中的张量公式的第一项为数据保真项,主要使得恢复的图像与观测的图像在约束条件下保持一致。第二项为对清晰图像的低秩先验约束,本方法中的低秩约束是张量图像各个模态展开下的低秩,利用此约束保留清晰的强边缘信息,同时一定程度上抑制部分模糊边缘和模糊纹理。第三项为相邻帧之间的时序约束,直接利用当前帧及其相邻前后N帧之间的像素值差作为约束,最后一项是关于模糊核的约束项,在本模型中对模糊核利用二范数平滑约束。在本模型中,不仅张量图像利用了多帧图像间的时序关系,本约束项进一步显式利用当前帧和其相邻帧时序关系,使得整个模型对时序关系的利用更加充分。当只有一帧图像时,本模型退化为单帧低秩去模糊模型,如下:

其中X,K,Y均表示二维图像矩阵,相当于只对单帧图像增加了低秩约束,没有了相邻帧之间的时序约束,模糊核也只是单帧图像对应的模糊核。

2.3 优化求解

对应以上的低秩模型最终的目标是求解

,利用交替迭代最小化方法[22]求解该问题,首先利用半二次分解将模型分别拆分为关于

的两个子模型分开求解:

对模糊核的求解模型利用傅里叶变换然后求导变换求解得到闭合解为:

其中

分别表示傅里叶变换和傅里叶变换的逆变换以及共轭傅里叶变换,∇表示张量图像的梯度。对参数γ的更新参照文献[25]按照γ=max{γ/1.1,10-4}策略进行更新。

对于公式(8)的求解,张量的低秩是张量沿着每一个模态展开矩阵的低秩。在求解时,令

⊗

,可将上面关于求解清晰张量的模型拆分为两个模型,其中一项为关于时序约束的模型,另一项为低秩约束的相关模型,分别如下所示:

求解时引入XM的辅助变量GM,进而将问题转换为一个凸优化的求解问题为:

其中x,gm是张量

和矩阵GM的向量化,Pm是对齐矩阵Xm到GM的变换矩阵,最终问题转换为:

其中αm,βm拉格朗日乘子,拆分求解GM,BM的子问题分别如下:

利用公式(15)求解GM为:

其中Ωm(Pmx+αm)表示将向量Pmx+αm转换成对应的第m个模态展开对应的矩阵,在求解时与基于张量低秩Tucker分解的求解方法不同,本模型中所用的求解方法直接利用阈值截取的方法进行求解[31]。βm=1/μ是关于操作

的阈值。

对于参数αm,其更新策略如下公式:

利用以上公式(16)最终求解BM公式如下:

对于βm的更新按照如下公式进行,

对于参数εm的求解策略与文献[31]相同。在求解的过程中,利用交替迭代的方法迭代求解清晰张量图像。整个模型的算法流程如下:

3 实验

为了验证本方法能够有效地达到多帧去模糊效果,选用两个基准多帧模糊数据集[17-18]进行实验。每个数据集的图像大小均为1280*720。数据集RED[18]中抖动较小,模糊程度也小。另一个数据集DVD[17]相机抖动相对较大,模糊程度大。两个数据集中包含多种不同运动场景(移动的车辆,行人等)及相机抖动所产生的各种模糊。同时我们选用了当前广泛使用的单帧去模糊方法[7,19]和多帧去模糊方法作为对比[15,17]。文献[7]是单帧矩阵低秩的去模糊方法,与本模型中退化的单帧低秩模型不同,[7]在图像的梯度域和图像的灰度域中增加低秩先验约束进行去模糊。文献[19]利用单帧图像的空间先验保存的强边缘信息,进而通过两阶段反复迭代估计模糊核进行去模糊。文献[15]是基于时序的双向光流的多帧去模糊方法,利用光流建立多帧之间的时序关系,同时利用关系函数模拟光流和模糊核间对应关系,进而求解模糊核进行去模糊。文献[17]是利用深度卷积网络的端到端多帧去模糊方法,利用预训练的模型,直接输入多帧模糊图像,输出多帧去模糊后的图像。文献[25]是基于张量低秩的多光谱去模糊方法,也可用于多帧视频图像去模糊,与本方法的张量低秩不同,文献[25]中的张量低秩是基于高维张量奇异值分解实现的。在实验中,为了更好的评估实验结果,选用PSNR和SSIM两项指标以及两项指标的均方差来客观评估实验结果。

3.1 模型退化对比试验

在进行多帧实验时,为了验证多帧连续图像有助于实现去模糊,首先将多帧模型退化为单帧模型进行实验,即直接利用单帧矩阵图像作为输入,不考虑多帧间的时序约束项,进行实验对比验证。针对本方法中多帧连续模型,在本实验中,统一选用五帧图像进行实验。在堆叠成图像张量前,先用文献[20]中的对齐方法对多帧图像进行基本的对齐操作,然后再将图像堆叠成张量。退化的单帧模型实验和多帧低秩实验结果如下图1和表1所示,多帧图像组选取中与单帧退化模型对应的相同帧展示。在模糊原图001的结果中,退化的单帧模型和多帧模型都能够去除模糊,但多帧模型恢复的图像整体更清晰,退化模型对于行人的细节恢复有待完善,在模糊原图002中退化的单帧模型中对于树叶边缘纹理和局部细节的恢复有待完善,而张量多帧低秩模型则能够较好恢复树叶部分的边缘区域,由此说明多帧方法能够在去除因相机抖动产生全局模糊的同时更好的恢复细节信息,且同时利用多帧图像间的时序和空间信息更有利于去模糊。

3.2 多方法对比试验

在验证了多帧图像较单帧更有利于去模糊后,从RED和DVD数据集中也选用了其他组数据进行实验及对比实验。在本文中,一共展示了六组实验结果,前三组图像取自RED数据集,后三组图像取自DVD数据集。这六组图像分别包含了不同的场景,其中第一组第二组第三组主要是静态场景中因相机抖动而产生的模糊。后三组图像不仅包含了相机抖动产生的模糊,同时运动场景也产生了模糊。实验结果如下图2至图7和表2所示。在多帧图像组实验中,每组数据也选用五帧图像作为输入,因本方法中预先对图像进行了对齐操作,为了实验公平对比,多帧对比方法中也对图像进行了对齐预处理。结果图中均展示多帧图像中的第三帧图像,单帧对比方法则是直接以单帧图像为输入,逐帧进行去模糊后求均值。对于PSNR和SSIM指标的计算,表2中为对每组五帧数据的PSNR以及SSIM平均值及均方误差表。

在RED数据集的结果表明,本文方法能够较好地处理相机抖动产生的全局模糊,同时也能较好的恢复图像的局部细节信息。对比图2,多帧图像中车辆未移动,模糊主要是相机抖动产生的,由此可见本方法能够很好地处理静态场景中因相机抖动产生的全局模糊。对比图3对花朵的细节信息恢复,可看出,单帧去模糊方法对花朵的细节部分恢复都不是很清晰,本方法和对比方法[25]对花朵的细节恢复较为清晰。图4也是本方法对整体图像和船只细节的恢复更加清晰。同时本方法较对比方法在PSNR和SSIM这两项指标高,虽然与对比方法[17]在PSNR指标上很接近,但本方法避免了利用大量数据训练模型。

对比模糊相对较大的DVD数据集实验结果,在图5中,本方法能够取得和对比方法[17]较为相近的结果,且能够去除图像中的模糊,对行走的行人也能够恢复,但是单帧去模糊的效果不如多帧去模糊的效果明显,可得,在能够利用多帧图像作为辅助的情况下,多帧的效果更好。较双向光流[15]的对比方法中,本方法的PSNR指标高出0.18,由此可见,多帧张量图像也是一种有效的构建多帧图像时序关系的方式,且利用多帧张量图像构建时序关系能避免复杂的光流模型的求解。对比方法[25]虽也为多帧张量去模糊方法,但在其模型中并未显式的考虑多帧图像间的时序关系,对行人区域的细节恢复有待提升,由此可得对于多帧连续图像去模糊,对时序关系利用也对去模糊有着重要影响。在图6中,此组图像模糊十分严重,本方法并未能较好地去模糊,单帧的对比方法中也未能较好的去除严重的模糊图像,但是端到端的多帧对比方法[17]实现了较好的去模糊,原因是[17]中的开源预训练的模型是基于数据集训练的,所以在本数据集对应的测试集上也能取得较好的结果。在图7中,抖动也主要是相机产生的全局抖动模糊,本方法在该组数据上的去模糊效果最佳。

4 结论

本文基于极大后验估计模型提出了张量低秩先验约束下的多帧去模糊的方法。将多帧图像构建张量进而建立多帧图像间的空间和时序关系,同时在模型中添加对张量各个模态展开的低秩约束先验,保留图像中的重要边缘和结构信息,利用有效的边缘信息进行模糊核的估计,反复迭代求解最终获得清晰图像。通过实验结果表明,本方法能够达到多帧图像去模糊的结果。

[1] FERGUS R, SINGH B, HERTZMANN A, et al. Removing camera shake from a single photograph [J].ACM Transactions on Graphics, 2006, 25 (3): 787-794.

[2] SHAN Qi, JIA Jiaya, AGARWALA A. High-quality motion deblurring from a single image[J]. ACM Transactions on Graphics, 2008, 27(3): 1-10.

[3] KRISHNAN D, TAY T, FERGUS R. Blind deconvolution using a normalized sparsity measure[C]∥CVPR 2011. Colorado Springs, CO, USA. IEEE, 2011: 233-240.

[4] 李沛秦, 谢剑斌, 陈章永, 等. 一种面向目标区域的快速去模糊算法[J]. 信号处理, 2010, 26(8): 1240-1245.

LI Peiqin, XIE Jianbin, CHEN Zhangyong, et al. A fast deblurring algorithm for object region[J]. Signal Processing, 2010, 26(8): 1240-1245.(in Chinese)

[5] 王爱齐, 邱天爽, 刘文红. 图像去模糊的l0范数最小化方法[J]. 信号处理, 2012, 28(11): 1493-1497.

WANG Aiqi, QIU Tianshuang, LIU Wenhong. Image deblurring method based on l0-norm minimization[J]. Signal Processing, 2012, 28(11): 1493-1497.(in Chinese)

[6] PAN Jinshan, HU Zhe, SU Zhixun, et al. L0-regularized intensity and gradient prior for deblurring text images and beyond[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(2): 342-355.

[7] REN Wenqi, CAO Xiaochun, PAN Jinshan, et al. Image deblurring via enhanced low-rank prior[J]. IEEE Transactions on Image Processing, 2016, 25(7): 3426-3437.

[8] LI Lerenhan, PAN Jinshan, LAI Weisheng, et al. Learning a discriminative prior for blind image deblurring[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA. IEEE, 2018: 6616- 6625.

[9] ZHANG Kaihao, LUO Wenhan, ZHONG Yiran, et al. Deblurring by realistic blurring[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA. IEEE, 2020: 2734-2743.

[10] ZHANG Jiawei, PAN Jinshan, REN J, et al. Dynamic scene deblurring using spatially variant recurrent neural networks[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA. IEEE, 2018: 2521-2529.

[11] CAI Jianfeng, HUI Ji, LIU Chaoqiang, et al. Blind motion deblurring from a single image using sparse approximation[C]∥2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA. IEEE, 2009: 104-111.

[12] SROUBEK F, MILANFAR P. Robust multichannel blind deconvolution via fast alternating minimization[J]. IEEE Transactions on Image Processing, 2012, 21(4): 1687-1700.

[13] ZHANG Haichao, WIPF D, ZHANG Yanning. Multi-image blind deblurring using a coupled adaptive sparse prior[C]∥2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA. IEEE, 2013: 1051-1058.

[14] TAI Y W, TAN Ping, BROWN M S. Richardson-lucy deblurring for scenes under a projective motion path[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8): 1603-1618.

[15] KIM T H, LEE K M. Generalized video deblurring for dynamic scenes[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA. IEEE, 2015: 5426-5434.

[16] REN Wenqi, PAN Jinshan, CAO Xiaochun, et al. Video deblurring via semantic segmentation and pixel-wise non-linear kernel[C]∥2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy. IEEE, 2017: 1086-1094.

[17] SU Shuochen, DELBRACIO M, WANG Jue, et al. Deep video deblurring for hand-held cameras[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA. IEEE, 2017: 237-246.

[18] NAH S, BAIK S, HONG S, et al. NTIRE 2019 challenge on video deblurring and super-resolution: Dataset and study[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops(CVPRW). Long Beach, CA, USA. IEEE, 2019: 1996-2005.

[19] XU Li, JIA Jiaya. Two-phase kernel estimation for robust motion deblurring[M]∥Computer Vision-ECCV 2010. Berlin, Heidelberg: Springer Berlin Heidelberg, 2010: 157-170.

[20] TORR P H S, ZISSERMAN A. MLESAC: A new robust estimator with application to estimating image geometry[J]. Computer Vision and Image Understanding, 2000, 78(1): 138-156.

[21] LIU Guangcan, LIN Zhouchen, YAN Shuicheng, et al. Robust recovery of subspace structures by low-rank representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 171-184.

[22] XIE Qi, MENG Deyu, GU Shuhang, et al. On the optimal solution of weighted nuclear norm minimization[EB/OL]. 2014

[23] WANG Shenlong, ZHANG Lei, LIANG Yan. Nonlocal spectral prior model for low-level vision[M]∥Computer Vision-ACCV 2012. Berlin, Heidelberg: Springer Berlin Heidelberg, 2013: 231-244.

[24] GU Shuhang, ZHANG Lei, ZUO Wangmeng, et al. Weighted nuclear norm minimization with application to image denoising[C]∥2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA. IEEE, 2014: 2862-2869.

[25] CHANG Yi, YAN Luxin, ZHAO Xile, et al. Weighted low-rank tensor recovery for hyperspectral image restoration[J]. IEEE Transactions on Cybernetics, 2020, 50(11): 4558- 4572.

[26] RENARD N, BOURENNANE S, BLANC-TALON J. Denoising and dimensionality reduction using multilinear tools for hyperspectral images[J]. IEEE Geoscience and Remote Sensing Letters, 2008, 5(2): 138-142.

[27] LIU Xuefeng, BOURENNANE S, FOSSATI C. Denoising of hyperspectral images using the PARAFAC model and statistical performance analysis[J]. IEEE Transactions on Geoscience and Remote Sensing, 2012, 50(10): 3717-3724.

[28] QIAN Yuntao, XIONG Fengchao, ZENG Shan, et al. Matrix-vector nonnegative tensor factorization for blind unmixing of hyperspectral imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 55(3): 1776-1792.

[29] HUANG Huyan, LIU Yipeng, LONG Zhen, et al. Robust low-rank tensor ring completion[J]. IEEE Transactions on Computational Imaging, 2020, 6: 1117-1126.

[30] LIU Yipeng, LIU Jiani, ZHU Ce. Low-rank tensor train coefficient array estimation for tensor-on-tensor regression[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(12): 5402-5411.

[31] LIU Ji, MUSIALSKI P, WONKA P, et al. Tensor completion for estimating missing values in visual data[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 35(1): 208-220.

[32] KOLDA T G, BADER B W. Tensor decompositions and applications[J]. SIAM Review, 2009, 51(3): 455-500.