随着高分辨率光学遥感技术的发展,光学遥感图像比合成孔径雷达(SAR)具有更显著的目标可视化特征[1,2]。利用遥感数据进行近岸船只检测是港口贸易、交通管制、近岸船只溢油监测和军事侦察应用中的重要步骤[2]。综合国内外已开展的相关研究[3-13],利用高分辨率光学遥感影像实现近岸船只检测可归纳为两种方法,即传统的人工设计特征和自动特征学习方法。人工设计特征方法使用特征描述符,例如方向梯度直方图,霍夫变换和局部二值模式来完成近岸船只判别特征的描述。Bi F等人[4]提出了部分变形模型和混合决策模型用于近岸船只检测。He H等[5]提出了基于尺度与角度变换空间的船头判别性特征投票方法。然而,由于人工设计特征的表达局限性,其在近海船只复杂背景干扰和类内差异的情况下舰船检测性能较差。
目前,包括深度学习和稀疏表达模型的自动特征学习方法在遥感图像处理的目标检测等领域得到蓬勃发展。具有代表性的算法研究工作有Zou Z等人[6]提出的用于光学遥感近海船只检测的SVDnet,对船只训练样本进行奇异值分解SVD(Singular Value Decomposition)变换,解决了大量样本进行网络初始化的问题;Lin H等人提出[7]基于部分子任务的全卷积网络来进行近岸船只船头和舰尾部分检测的方法;Naoto Yokoya N和 Iwasaki A[12]提出了基于SR-Hough的物体检测方法;Li H等人[13]提出了近岸船只检测的多层稀疏编码模型,根据船只目标与背景的稀疏编码差异性来实现目标检测。这些方法通过设计特定的检测框架,结合数据驱动的参数学习方式来实现判别特征自动提取。然而自动特征学习方法需要大量的数据样本才能发挥其强大的特征提取能力,并且检测性能在很大程度上取决于数据集标记的准确性[14]。对于大视场光学遥感图像,许多精细的近岸船只标注工作量非常大且不可避免人的主观差异。这些差异性将导致对训练数据集依赖较大的深度学习的方法检测性能较差。
因此,本文专注于使用小样本集生成一个有效的自动特征学习模型来实现近岸船只检测。首先,提出结构化稀疏表达模型来描述近岸船只和港口区域背景之间的区分性,将多方向近岸船只目标样本与港内复杂背景信息样本分别经过HOG[15](Histogram of Gradient)特征提取及主成分分析PCA[16](Principle Component Analysis)的方式将高维度的特征投影到低维度正交的特征空间组成目标及背景字典,而后通过字典的训练产生判别性编码,实现对船只目标样本与港内复杂背景信息间的判别性描述。同时引入误差矩阵使得模型在较小样本量的训练下具有较强的鲁棒性与适应性。然后通过提出的船只目标区域提取置信度的计算方法,对生成的判别性稀疏编码分析,实现高分辨率近岸船只目标区域精确提取,并通过实验验证了该方法的有效性。
图像的稀疏表达可以解释为,对一幅图像Y找到合适的字典D,通过线性变换Y=DX,将图像Y转化为具有相对少量元素的稀疏表达形式X。设Y∈Rm×n,D∈Rm×p,D=[d1,d2,d3,...,dp],X=[x1,x2,x3,...,xn]。di称为字典D的原子,X则为Y的稀疏编码。稀疏问题通常可以表示为(1):
min||X||0 s.t.||Y-DX<ε
(1)
其中,||·||0为l0范式,即X中非零元素个数,ε表示在稀疏编码X的范数约束下允许存在的重建误差。求解式(1)存在NP-hard问题,可将l0范式最优化问题等价于l1范式最优化,采用正则化方法表示为(2):
(2)
正则化参数γ用来平衡Y的稀疏表达精度和稀疏特性。字典学习是稀疏表达的关键部分,即通过训练样本和最小化目标函数(2)得到最优化的字典D。在寻优过程中,通常选用K-SVD(K-Singular Value Decomposition)[17]算法进行字典的初始化及判别性字典生成。在通过对每一个原子进行迭代更新的过程中利用正交匹配追踪OMP[18](Orthogonal Matching Pursuit)算法生成与之对应的判别性稀疏编码X。随着稀疏表达模型原理的发展,从最初的利用原始数据样本作为观测字典D中的原子转变为基于样本特征变换的原子表征,例如小波变换、HOG、SIFT(Scale Invariant Feature Transform)等特征变换。
近岸港口复杂背景中有很多物体和船只具有相似的形状和结构。为了在小样本数据集的基础上尽可能实现完备表述,充分利用近岸船只和背景的类内差异,本文对近岸船只目标检测建模时组建三个子字典来组成结构化稀疏表达字典DE,分别是近岸船只目标字典Dt、港口区域背景干扰信息字典Db和误差矩阵Er,即DE=[Dt,Db,Er]。通过构建的结构化稀疏表达模型对输入图像的局域切片生成具有判别性的稀疏编码X来判断切片是否包含船只目标。通过从Google Earth和DOTA收集包含船只和背景的图像进行HOG特征变换,来构建结构化稀疏表达字典的原子特征向量,所提出的结构化稀疏表达模型如图1所示。
在图1中,蓝色矩阵是近岸船只目标子字典,船只目标样本来自人工截取的一组高分辨率光学遥感图像中不同类型的近岸船只目标切片,再将这些切片按6个方向(即30°,60°,90°,120°,150°,180°)进行旋转,以使样本集适应近岸船只的多方位性。灰色矩阵是港内背景干扰信息子字典,港内背景信息样本是通过零均值正则化交叉验证ZNCC[19](Zero-mean Normalized Cross-Correlation)方法选取出与船只目标较为相似的背景信息样本作为负样本集。由于样本量的限制与结构化稀疏表达模型整体的欠定性条件约束,需要对样本切片进行定向梯度直方图(HOG)特征提取,并通过PCA(Principle Component Analysis)降低维度为576×1的HOG特征向量即为组成字典中的原子。
图1 结构化稀疏表达模型
Fig.1 The structured sparse representation model
在有限的训练样本情况下,训练得到的字典面对与目标字典及背景干扰信息字典都不相关的观测样本时,将不能产生具有判别性的稀疏编码。引入误差矩阵Er可以衡量观测样本与船只目标字典及背景信息字典的类内差异,其对应的稀疏编码部分将使得整体的稀疏编码更具判别鲁棒性。Er设计为对角方阵如图1中所示,其维度和字典原子的维度相关,当原子是576×1时,Er的尺寸应该是576×571。Er用来表示观测样本与船只目标及背景干扰信息间的类内差异关系如(3)、(4)、(5)所示:
Y1≈DEX=(d1,tα1,t+…+dn,tαn,t)+
(d1,bα1,b+…+dn,bαn,b)+(e1,rα1,r+…+en,rαn,r)
(3)
(d1,bα1,b+…+dn,bαn,b)
(4)
Y-Y2≈Y1-Y2=ε=e1,rα1,r+…+en,rαn,r
(5)
其中,即为经典的目标和背景组合字典。近岸船只目标字典Dt=[d1,t,d2,t,d3,t,...,dn,t],背景干扰信息字典Db=[d1,b,d2,b,d3,b,...,dn,b],误差矩阵Er=[e1,r,e2,r,e3,r,...,en,r],稀疏表达系数X=[α1,t,...,αn,t,α1,b,...,αn,b,α1,r,...,αn,r]。Y1、Y2分别是由DE和对原始观测样本Y的近似表示,由于DE比的尺寸大,Y1比Y2要更为精确,所以公式(5)中的近似误差ε可由误差矩阵Er来表示。若观测样本是近岸船只,则稀疏编码X主要集中在近岸船只子字典部分,误差矩阵表示的是近岸船只编码的类内差异;反之对于背景信息样本,误差矩阵表示背景干扰信息字典编码的类内差异。
基于以上结构化稀疏表达模型,固定误差矩阵Er,使用K-SVD算法和上述船只目标和背景信息的原子特征向量对字典进行初始化,使用K-SVD和LASSO[20]算法对船只目标样本字典和背景干扰信息样本字典部分进行训练,其观测函数可以表示为(6):
(6)
公式第一项为观测样本Y通过结构化稀疏字典与判别性编码X进行重构的重建误差项;第二项为判别性稀疏编码误差项,Q为预先设定期望输出的理想型稀疏编码,A为变换矩阵,通过这项约束可以使得生成的稀疏编码接近于期望的理想编码形式;第三项是对稀疏编码X进行l1范数的正则化约束,α与γ是权值控制参数,用于控制判别性稀疏编码误差与编码稀疏度约束对整体损失函数影响的比重。
Q中每一列代表所期望的稀疏编码,举例表示为(7),前三列期望编码向量中为1的系数表示期望稀疏编码X中非零系数尽可能多的分布在近岸船只子字典Dt部分。若观测样本来自背景干扰信息样本集,则期望观测得到的判别性稀疏编码系数大部分出现在子字典Db部分,如公式(7)后三列所示。
(7)
(8)
字典的初始化则是选取船只目标样本和背景信息样本的HOG特征向量,利用K-SVD和LASSO[20]算法进行初始化。对于变换矩阵A的初始化则采用多元岭回归[21]与二次损失的l2-norm二范数约束对公式(8)进行求解得到。完成对字典和理想型稀疏编码变换矩阵A的初始化后,基于随机梯度下降的方法,通过迭代训练对结构化稀疏表达字典中的原子和判别性稀疏编码变换矩阵A中的元素进行更新。在训练优化过程中,当所有训练样本在与其对应的理想型稀疏编码Q的差异损失最小时,仍需要满足对训练样本中每一个观测样本的重构误差与编码稀疏度约束||X||1的能量损失最小。使用与误差矩阵Er合并的字典DE即可生成观测目标样本对应的判别性稀疏编码X。
基于上述得到的判别性结构字典,当观测样本为船只目标时,由于船只目标类内差异性不大,得到的稀疏编码将有大量系数出现在船只目标字典部分,少量系数出现在误差矩阵对应的编码部分,表示对应维度的HOG特征描述存在差异。反正,当观测样本为背景干扰信息时,由于背景干扰信息类别差异大,生成的稀疏编码会有在背景干扰信息字典部分和误差矩阵部分都会有大量较大系数。本文提出基于判别性稀疏编码的船只目标区域提取置信度计算方法,通过对结构化稀疏编码进行分析,提取出包含船只目标的局域场景检测窗。具体的船只目标置信度计算公式如(9)和(10)所示:
(9)
(10)
在公式(9)中,xi为引入误差矩阵的结构化稀疏表达字典生成的判别性稀疏编码。wt和wb是Dt和Db部分中的最大系数。St、Sb和SEr是结构化稀疏表达字典中Dt、Db和Er的维度。eps表示一个小数字,以防止出现零求和值。
若模型输入为船只目标样本,判别性稀疏编码较大的系数将大量出现在船只目标字典部分,在背景字典和误差矩阵部分将出现较小且较少的稀疏编码系数,则目标船只样本通过公式(9)得到较大的confident值,代入公式(10)计算置信度,则S越接近“1”,反之则表示输入样本是背景干扰信息。
实验选取Google Earth和DOTA数据集中0.5 m空间分辨率的150景光学遥感图像,选取350个单方向不同的船只目标样本经过旋转生成2100个多方向船只目标样本,然后利用ZNCC方法选取2100个与正样本较为相似的背景干扰信息构成负样本集。针对构建的正负样本集对本节提出的结构化稀疏表达模型中的重要参数及船只目标区域提取效果进行定量与定性的仿真实验,测试本文提出算法在小样本集下的检测效果。实验验证环境:Windows 7操作系统,软件仿真平台 Matlab 2016a。
由于模型特征表达能力与字典的尺寸相关,选取不同尺寸的字典模型进行实验,同时讨论引入误差矩阵前后对整体结构化稀疏表达模型泛化能力的提升的影响。通过准确率、精确率、召回率和F-measure指标评估所提出的方法性能。
(11)
(12)
(13)
(14)
从(11)到(14),TP表示预测样本为被正确定义为近岸船只的数量; TN表示预测样本被正确定义为背景的数量;P是验证数据中近岸船只样本的数量;N是验证数据中的背景样本数;FP表示背景被预测为近岸船只的数量;FN表示近海船只样本的数量预测为背景的数量。
从2100个船只目标样本中分别选取{300,480,660,840}个样本组成四种不同尺寸的正样本字典Dt;与之对应从2100个背景干扰信息中随机选取{300,480,660,840}个样本组成四种不同尺寸的负样本字典Db,构成未引入误差矩阵的模型尺寸为M={600,960,1320,1680},引入误差矩阵后的结构化稀疏表达模型尺寸为M′={1176,1563,1869,2246}(注:PCA降维后的HOG特征向量为576×1)。
对未引入误差矩阵的不同尺寸M的稀疏表达模型进行分析,根据公式(9)、(10)中不考虑误差矩阵编码稀疏部分计算置信度,当打分S大于0.9时判定输入样本为船只目标。图2(a)显示了未引入误差矩阵的结构化稀疏表达模型的准确率训练曲线,可以看出当字典的尺寸由600到1680增加时模型的描述泛化能力增强,在576×1320时模型具有较好的判别性能。
对字典尺寸为1320与1680的稀疏表达模型引入误差矩阵,生成对应1869与2248字典尺寸的判别性稀疏编码,根据公式(9)、(10)计算置信度,设置置信度阈值为0.87进行船只区域提取。图2(b)中的红色与蓝色P-R曲线对应未引入误差矩阵的结构化稀疏表达字典,黄色与黑色P-R曲线对应引入误差矩阵的结构化稀疏表达字典,可以看出引入Er后结构化稀疏表达字典对船只目标和背景信息的泛化能力有了明显的提升。图2(c)显示黄色曲线代表的引入误差矩阵的576×1320模型具有较大的F-measure值。
图2 结构化稀疏表达模型的准确率评估
Fig.2 The accuracy evaluation of proposed structured sparse representation model
针对本文提出的结构化稀疏表达模型的判别性稀疏编码稀疏分布情况进行仿真实验如图3所示,蓝色线条表示近岸船只字典对应的编码系数,红色线条表示背景干扰信息字典对应的编码系数,绿色线条表示类内差异。图3(a)所示样本中包含船只目标的结构化稀疏字典生成的稀疏编码系数中大量较大的系数分布在船只目标字典部分,图3(b)所示样本中包含港内背景干扰信息的稀疏编码稀疏中大量数值较大的稀疏分布在背景干扰字典和误差矩阵部分。从中可以看出误差矩阵所对应的稀疏编码部分可以充分体现船只目标与背景干扰信息类内的差异性。由于港内背景包含多类别干扰信息,因此,当观测样本为小样本训练集合没有包含的样本时,在误差矩阵对应的稀疏编码部分将出现较多较大的稀疏编码系数。另一方面,当观测样本为船只目标且小样本集中没有包含的类别时,由于船只目标类内差异较小,所以有较少且较小的系数编码系数出现在误差矩阵部分。通过对船只目标与背景干扰信息的区分性描述,结合误差矩阵的类内差异性描述,通过置信度判别进行船只区域提取,实现在较小训练样本量下的港内船只目标检测,可视化检测效果如图4所示。
图3 结构化稀疏表达模型的判别性稀疏编码
Fig.3 The generated discriminative sparse codes of proposed structured sparse representation model
图4 结构化稀疏表达模型港内船只目标区域检测结果
Fig.4 The results of inshore ship detection with structured sparse representation model
对现有算法与目前典型目标检测算法进行比较,从Google Earth与DOTA数据中选取333景光学遥感港口图像,涉及1021只港内船只目标,通过本文算法、SSD(Single Shot MultiBox Detector)、FCN(Fully Convolutional Networks)、MASK-RCNN等方法的检测精度如表1所示,可见本文所提出算法在小样本集的情况下具有明显优势。
表1 小样本集港内船只目标检测方法性能对比
Tab.1 Performance comparison of ship target detection methods in small sample collections
评价指标本章提出算法SSDFCNMask-RCNNRecall0.910.800.800.87Precision0.830.610.570.67
本文提出了一种基于小样本集的结构化稀疏表达方式来实现近岸船只检测的自动特征提取方法。该方法构建由近岸船只目标、背景干扰信息和误差矩阵三部分子字典组成的结构性稀疏表达字典,并通过K-SVD与LASSO算法实现判别性系数编码生成。由于引入了误差矩阵使得通过对判别性系数编码的区分性编码部分与类内差异性的误差矩阵编码部分分别进行分析计算得到船只目标区域置信度,实现港内船只目标的快速提取。并且从与现有方法的对比实验中可以看出,本文提出的算法在较小的训练样本情况下可以得到更好的港内船只目标检测结果。
[1] Greidanus H, Kourti N. A Detailed Comparison between Radar and Optical Vessel Signatures[C]∥IEEE International Conference on Geoscience and Remote Sensing Symposium. IEEE, 2007: 3267-3270.
[2] 张风丽, 张磊, 吴炳方. 欧盟船舶遥感探测技术与系统研究的进展[J]. 遥感学报, 2007, 11(4): 552-562.
Zhang F L, Zhang L, Wu B F. Progress of Ship Detection Technology and System Based on Remote Sensing Technology in European Union[J]. Journal of Remote Sensing, 2007, 11(4): 552-562.(in Chinese)
[3] Liu G, Zhang Y, Zheng X, et al. A New Method on Inshore Ship Detection in High-Resolution Satellite Images Using Shape and Context Information[J]. IEEE Geoscience & Remote Sensing Letters, 2013, 11(3): 617- 621.
[4] Bi F, Jing C, Yin Z, et al. A Decision Mixture Model-Based Method for Inshore Ship Detection Using High-Resolution Remote Sensing Images[J]. Sensors, 2017, 17(7): 1470.
[5] He H, Lin Y, Fan C, et al. Inshore Ship Detection in Remote Sensing Images via Weighted Pose Voting[J]. IEEE Transactions on Geoscience & Remote Sensing, 2017, PP(99): 1-17.
[6] Zou Z, Shi Z. Ship Detection in Spaceborne Optical Image With SVD Networks[J]. IEEE Transactions on Geoscience & Remote Sensing, 2016, 54(10): 5832-5845.
[7] Lin H, Shi Z, Zou Z. Fully Convolutional Network With Task Partitioning for Inshore Ship Detection in Optical Remote Sensing Images[J]. IEEE Geoscience and Remote Sensing Letters, 2017, PP(99): 1-5.
[8] 吴金亮, 王港, 梁硕, 等. 基于Mask R-CNN的舰船目标检测研究[J]. 无线电工程, 2018, 48(11): 947-952.
Wu J L, Wang G, Liang S, et al. Ship Object Detection Based on Mask R-CNN[J]. Radio Engineering, 2018, 48(11): 947-952.(in Chinese)
[9] 张磊, 洪星, 王岳环, 等. 高分辨率遥感图像投影分析的靠岸舰船检测[J]. 中国图象图形学报, 2018, 23(9): 1424-1432.
Zhang L, Hong X, Wang Y H, et al. Inshore ship detection in high-resolution remote sensing image using projection nanlysis[J]. Journal of Image and Graphics, 2018, 23(9): 1424-1432.(in Chinese)
[10] 王慧利, 朱明, 蔺春波, 等. 光学遥感图像中复杂海背景下的舰船检测[J]. 光学精密工程, 2018, 26(3): 723-732.
Wang H L, Zhu M, Lin C B, et al. Ship Detection of Complex Sea Background in Optical Remote Sensing Images[J]. Optics and Precision Engineering, 2018, 26(3): 723-732.(in Chinese)
[11] Luo W, Wang W, Lang F, et al. Ship Detection of Remote Sensing Image on FRHT and Multi-Points Curvature Based Polygon Approximation[J]. Research Journal of Applied Sciences Engineering & Technology, 2012, 4(15): 2590-2599
[12] Yokoya N, Iwasaki A. Object Detection Based on Sparse Representation and Hough Voting for Optical Remote Sensing Imagery[J]. IEEE Journal of Selected Topics In Applied Earth Observations and Remote Sensing, 2015, 8(5): 2053-2062.
[13] Li H, Li Z, Chen Z, et al. Multi-layer sparse coding model-based ship detection for optical remote-sensing images[J]. International Journal of Remote Sensing, 2017, 38(22): 6281- 6297.
[14] Greidanus H, Kourti N. A Detailed Comparison between Radar and Optical Vessel Signatures[C]∥IEEE International Conference on Geoscience & Remote Sensing Symposium. IEEE, 2007.
[15] Dalal N, Triggs B. Histograms of Oriented Gradients for Human Detection[C]∥IEEE Computer Society Conference on Computer Vision & Pattern Recognition. IEEE Computer Society, 2005: 886- 893.
[16] Mika S, Smola A, Scholz M. Kernel PCA and de-noising in feature spaces[C]∥Conference on Advances In Neural Information Processing Systems II. MIT Press, 1999: 536-542.
[17] Aharon M, Elad M, Bruckstein A. -SVD: An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation[J]. IEEE Transactions on Signal Processing, 2006, 54(11): 4311- 4322.
[18] Tropp J A, Gilbert A C. Signal Recovery From Random Measurements Via Orthogonal Matching Pursuit[J]. IEEE Transactions on Information Theory, 2007, 53(12): 4655- 4666.
[19] Rosenfeld A, Vanderbrug G J. Coarse-Fine Template Matching[J]. IEEE Transactions on Systems Man & Cybernetics, 1977, 7(2): 104-107.
[20] Morioka N, Satoh S. Generalized Lasso based Approximation of Sparse Coding for Visual Recognition[J]. Advances In Neural Information Processing Systems, 2012, 26(1): 181-189.
[21] Mairal J, Bach F, Ponce J. Task-Driven Dictionary Learning[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2012, 34(4): 791- 804.
Reference format: Dong Shan, Yang Zhanxin, Long Teng, et al. Inshore Ship Detection from High Resolution Optical Remote Sensing Images Based on Structured Sparese Representation[J]. Journal of Signal Processing, 2019, 35(6): 986-993. DOI: 10.16798/j.issn.1003- 0530.2019.06.008.
董 珊 女, 1992年生, 河北保定人。中国传媒大学信号与通信工程学院博士研究生, 主要研究方向为遥感图像处理。
E-mail: dongshan@cuc.edu.cn
杨占昕 男, 1967年生, 辽宁沈阳人。中国传媒大学教授, 任广播电视数字化教育部工程研究中心主任, 博士学位, 主要研究方向为数字广播电视技术、数字通信技术。
E-mail: yangzx@cuc.edu.cn
龙 腾 男, 1968年生, 北京理工大学副校长, 北京理工大学信息与电子学院学院教授, 博士学位, IEEE会士, 信号处理分会主任委员, 获国家技术发明二等奖1项, 国防和军队科技成果一、二、三等奖共8项。主要研究方向为雷达系统、嵌入式实时信息处理、航天遥感、卫星导航、精确制导等理论和技术。
E-mail: longteng@bit.edu.cn
庄 胤 男, 1990年生, 河南洛阳人。北京大学信息科学技术学院博士后, 博士学位, 主要研究方向为遥感图像处理。
E-mail: yinzhuang@pku.edu.cn
陈 禾 女, 1970年生, 辽宁沈阳人。北京理工大学信息与电子学院雷达技术研究所教授, 博士学位, 主要研究方向为遥感图像处理与嵌入式系统等。
E-mail: chenhe@bit.edu.cn
陈 亮 男, 1982年生, 河北石家庄人。北京理工大学信息与电子学院雷达技术研究所教授, 博士学位, 主要研究方向为遥感图像实时处理。
E-mail: chenl@bit.edu.cn