为了提升日常监测预警能力,减少次生灾害带来的人员、财物损失,开展稳定可靠的形变监测工作尤为重要[1]。传统的监测技术手段例如GPS、全站仪等,仅对单点有很好的观测效果,而不能对复杂场景的形变区域进行探测。GBSAR近实时、多视角、灵活布设等优势,能够对复杂场景进行亚毫米级形变监测[2]。
永久散射体法(Permanent Scatterers, PS)是地基SAR进行形变监测的核心技术。目前,多阈值筛选PS点是国内外研究的主流方向,国内学者朱茂[3]、袁英[4]、吕森[5]等人将传统的幅度离差[6-7]、相关系数[8]与其他地基SAR数据信息相融合,提出多阈值筛选PS点的新方法。其中学者吕森的三阈值优化算法[9],以幅度离差、相干系数和相位噪声为衡量标准来自动确定筛选PS点的阈值,但多阈值法只能适用单一场景,用同一组阈值对不同区域进行筛选,很容易出现PS点漏选或错选的结果。
自然语言处理(Natural Language Processing, NLP)这一领域对序列数据进行特征提取和文本分类的核心思想与本文研究重点类似,所以本文将采取NLP经典算法与地基SAR差分干涉数据流相结合,表征时序特征并实现对PS点进行分类。目前与地基SAR观测模式相匹配的特征模型及序列数据处理方法有RNN、LSTM和注意力网络等。RNN网络结构具有短期记忆[10],但长期依赖问题在输入长序列时会出现梯度爆炸或消失的结果。因此在RNN的结构问题上做出改进,提出有记忆功能的LSTM网络[11],但这不能完全解决问题且训练效率低。而注意力网络模型通过注意力机制对任意两个元素之间的相似度进行“打分”,从而提取出利于分类的信息,在处理长序列时有很好的效果,并行计算也提高了训练效率[12]。
因此,本文提出新的思路,将阈值筛选PS点的方法转化为地基SAR差分干涉数据流的端到端分类问题,放弃使用以全场景为单位设置的一组固定阈值进行筛选,而是利用分类方法以像素点为单位对是否为PS点进行分类,研究的重点放在解决时序特征表达及分类这两个方面。本文其余部分安排如下,第2节介绍时序特征的构成及其物理含义,第3节介绍本文提出方法的流程和框架,最后利用三个场景的数据验证了技术的可靠性。
本文依据地基SAR时序数据连续性特点以及PS点的稳定特性,以幅度一阶差分、干涉相位、相干性、均值滤波相位和分布密度为特征,对像素点是否为PS点进行判别,通过特征进行分类从而选取出的PS点数量及质量能更加保障反演形变的真实性。
地基SAR回波信号中包含了大量的相位信息Φ和后向散射幅度信息A,永久散射点是幅度信息稳定的强反射目标,因此幅度是判断PS点的重要依据。但时序特征要求体现时序过程的变化性,因此使用一阶差分的方式来体现变化:
ΔA=A(t+1)-A(t) (t=1,2,...,20)
(1)
其中A(t)表示t时刻下的幅度值,ΔA表示相邻两个时刻下的幅度差。通过幅度的一阶差分运算,可以得到相邻时刻间的幅度变化,以此来观察像素点幅度是否稳定。
相位信息可以很好地描述各个时刻下雷达与目标间的距离。导入雷达序列影像后,通过干涉图计算得到干涉相位,具体计算公式如下:
(2)
将第一个时刻的雷达影像作为主影像,从第二个时刻开始依次作为从影像,主从影像进行复共轭相乘的运算,其中f代表当前像素点的干涉结果,A1、φ1是主影像的幅度和相位,A2、φ2是从影像的幅度和相位,计算得到的A和Φ则表示当前像素点的干涉幅度与干涉相位。
由于PS点散射信息稳定的特点,干涉相位可以作为判断PS点的一个标准,通过公式得到各个时刻干涉相位稳定的像素点能被确定为PS点。
相干系数很好地刻画干涉相位误差水平,通过目标像素点在干涉主从影像窗口中的周围像素点来估计相干系数,计算公式如下:
|γx|=
(3)
其中γx为第x个像素点的相干系数,w和h是滑动窗口的高和宽,M(xi,xj)和S(xi,xj)分别表示为复共轭相乘得到的干涉图的主从窗口,也可以理解为相邻的两个时刻的影像做干涉,以窗口为单位,计算相邻两个时刻下对同一区域的相关程度。相干系数越大,越能符合稳定的PS点的特性。
通过对相位信息的分析,大致得出由形变相位φdef、大气相位φatm和噪声相位φnoise构成地基SAR干涉相位的观点,具体公式表示为:
Δφ=φdef+φatm+φnoise
(4)
各个像素点的三个主要相位成分独立且互不相干,形变相位φdef是能够反映形变信息的珍贵内容,大气相位φatm则通过选取PS点能够大致滤除,而噪声相位φnoise可以通过空间滤波的方式进行滤除[3],利用公式描述为:
φnoise=Δφ-Filter(Δφ)
(5)
(6)
本文采用的空间滤波Filter主要是均值滤波[13],见公式(6),通过设置n*n窗口,计算邻域来实现滤波,将目标像素点及周边像素取平均值后的新数值作为当前像素值,但由于滤波方式较为简单,还需要距离函数拟合法[14]对地基SAR大气相位进行校正。噪声相位较小,较好体现PS点稳定强散射性的特点。
复杂场景中的裸土、树木、岩石及水流等不同区域都会存在着能反演形变信息的强反射目标,这就说明PS点不是孤立的,而是以区域范围来显示。因此将PS点的分布密度作为特征是可以判断目标像素点是否存在于区域中,计算公式如下:
(7)
ρPS表示当前像素点的PS点分布密度,num_PS表示以当前像素点为中心所在窗口内的PS点数量,w和h则是该窗口的宽和高,本文将滑动窗口大小设置为5×5。分布密度越大,越可以体现PS点以区域性存在的特点。
注意力网络是通用的“编码-解码”模型,往往是要根据当前任务将模型具体化。本文在传统模型的基础上,对输入特征的位置编码与时空多头注意力机制这两个方面提出改进。
注意力网络模型由编码器和解码器构成,编码器将输入数据语义编码,进行特征提取,解码器是通过学习到的注意力规律强化不同特征与最终分类目标之间的关系,模型示意图如图1所示。
图1 注意力网络模型
Fig.1 Attention network model
将幅度一阶差分、干涉相位、相干性、均值滤波相位、分布密度这五个特征向量化来构成输入集,并与位置编码相加后,线性映射得到查询向量、键向量和值向量,通过多头注意力机制运算,实现同一像素点下不同时刻之间相关程度的“打分”,求和归一化来提取相关部分,弱化不相关部分。接着将注意力层输出的结果传递至前馈神经网络中,通过两层线性映射以及应用激活函数实现求和归一化,至此编码器将输入的像素点特征信息映射到固定长度的隐藏层中。
解码器与编码器结构相类似,主要处理隐藏层中的信息来生成分类结果。从图中可以直观的注意到解码器与编码器最大的区别在于“掩码多头注意力”,多头概念从特征变为特征空间,以幅度、相位、相关程度和局部区域性这四种特征类型映射四个子空间,计算注意力权重来对隐藏层进行分类,遮蔽不相关信息,提取有效信息实现分类。
由于注意力网络模型采用高效的并行操作,位置编码的方式由不受长度限制的三角公式替代手动提供每个时刻位置信息的方式来识别时刻顺序关系,三角公式计算如下:
PE(t_pos,2i)=sin(t_pos/100002i/dmodel)
(8)
PE(t_pos,2i+1)=cos(t_pos/100002i/dmodel)
(9)
其中PE即positional encoding,位置嵌入代表提供每个时刻的位置信息,t_pos表示目标像素点的第几个时刻,d_model表示时刻向量维度,2i和2i+1表示的是一组相邻的偶数和奇数维度,偶数维度时采用公式(8)正弦sin计算,奇数维度时采用公式(9)余弦cos计算。
但传统的位置编码方法利用三角公式得到的相对位置关系在计算注意力矩阵时会丢失,这是因为计算过程中所需的查询向量Q、键向量K和值向量V要通过加入一个线性变换而得到,而“不可知”的线性变换则导致了相对位置信息的丢失[15]。为了记录相对位置关系,实现局部区域的动态增强,可以利用高斯分布作为注意力层的加性偏置,具体形式如下:
(10)
(11)
其中Gxy代表当前时刻查询向量x和位置信息y的高斯偏置矩阵,Px表示查询向量x的中心位置,σx是标准偏差,注意力矩阵计算见3.3。
传统的位置编码对于“距离”不敏感,由于假设相近时刻的关联程度在分析当前像素点是否为PS点上的贡献度是符合距离的正态分布的,因此在计算注意力矩阵时加入高斯偏置,以窗口的形式圈定相邻时刻,使用高斯分布对相对位置信息进行补充。
本文注意力模型的编码器和解码器都用到了多头注意力机制。多头注意力的本质是利用多条通道完善自注意力层,通过将多组查询向量、键向量、值向量投影到多个子空间中,实现高效并行的计算各个时刻间的关联程度。在传统的多头注意力机制的基础上,对地基SAR数据以时间和空间两个层面进行计算,过程如下:
(1)将地基SAR雷达时序影像中的各个像素点的特征及位置信息相加后作为输入集,依据全连接层训练的权重进行分配,得到查询向量Q、键向量K和值向量V。编码器根据幅度一阶差分、干涉相位、相干系数、均值滤波相位和分布密度这五个特征作为多头,五个特征中将干涉相位与均值滤波相位归为一类相位,解码器则是根据幅度、相位、相关程度和局部区域性这四种特征维度作为多头,用注意力机制提取多重语义信息,即对Q、K、V以特征数进行平等的分割,得到各个特征下不同的Qi、Ki、Vi。
(2)并行抽取不同的有效特征后,针对每个特征进行注意力矩阵运算,计算公式如下:
(12)
将查询向量Q与值向量V的转置点积,计算当前时刻与其他时刻的相关程度;归一化将这些相关程度和为1,形成概率谱;对d的维度进行除法计算。是为了将注意力矩阵缩放回标准的正态分布;最后与值向量V点积,将所有字向量的信息融入当前字中。将幅度、相位、相关程度和局部区域性这四条通道并行计算注意力矩阵,求取各个时刻间的关联程度,对分类信息进行筛选,既能并行计算提高效率,还可以用筛选信息的方式来处理较长的序列。
(3)最后,将多个特征下的注意力结果合并,即:
MultiHead(Q,K,V)=Concat(head1,...,headh)Wo
(13)
将五个特征的通道计算结果合并来对像素点进行是否为PS点的判别。
(4)除了步骤(1)至(3)中基于时间信息进行的多头注意力机制的计算,本文还另外设计通过空间信息对像素点区域间的相关程度进行打分。同样地,编码器利用五个特征、解码器利用四个特征空间设计多头,将多头注意力映射到子空间中。接下来,重复步骤(2)和(3),将输入集以不同区域为标准计算注意力矩阵,通过空间信息得到相邻区域间的关联程度。PS点不是孤立存在的,而是以一个特定范围的形式展现,相邻区域间的“打分”恰好可以表示区域性,从而判断当前像素点是否为PS点。
多头注意力机制流程图如图2所示。
图2 多头注意力示意图
Fig.2 Multi-head Attention Model
地基合成孔径雷达架设在四川茂县某地区,安徽某地区,甘肃某地区,现场图片如图3所示,将茂县地区称为场景一,安徽地区称为场景二,甘肃地区称为场景三,分别获取三个场景下的雷达视角范围内连续的20个回波数据。本文使用传统的多阈值法筛选PS点作为注意力网络模型的正样本,通过对三个场景的多次实验,设置场景一幅度离差阈值0.4、相干系数阈值0.65、相位误差阈值1.5,设置场景二幅度离差阈值0.86、相干系数阈值0.6、相位误差阈值1.5,设置场景三幅度离差阈值0.6、相干系数阈值0.45、相位误差阈值1.6,PS点图结果如图4所示;将阈值调整至极端不合理的情况,例如幅度离差极大、相干系数极小或相位误差极大,以此得到非PS点作为模型负样本,设置场景一幅度离差阈值0.1、相干系数阈值0.53,相位误差1.21,设置场景二幅度离差阈值0.43、相干系数阈值0.37、相位误差阈值2,设置场景三幅度离差阈值0.5、相干系数阈值0.33、相位误差阈值1.6。
图3 现场图片
Fig.3 Live pictures
图4 正样本示意图
Fig.4 Schematic diagram of positive sample
4.2.1 不同场景下注意力网络实验
经过多次实验调整,三个场景使用不同的学习率、批次样本数量进行训练得到训练集和验证集准确率和损失率、验证集的查准率-查全率(Precision-Recall, PR)曲线,结果如图5所示。
图5 注意力模型训练和验证结果(场景一)
Fig.5 Attention model training and verification results(scene 1)
本文模型通过对这三个地区的雷达影像数据的特征信息进行分析、训练,将注意力模型判断像素点PS点属性的规律进行学习,并通过验证集进行检验。实验结果表明:通过三个地区的训练集和验证集得到的准确率和损失率基本一致且结果较好,有着较高的准确率以及较低的交叉熵损失率。此外PR曲线的AP值也可以发现越接近1,分类结果就越好,显然这三个地区的数据都满足好的实验结果。由此可以得到本文的注意力网络模型在训练地基SAR时序数据有着较高的效率和水准,并达到了较好的验证结果。
4.2.2 不同模型下对比实验分析
除了进行多地区的结果验证,还需要进行多模型之间的对比验证。本文通过RNN、LSTM和本文模型对场景一进行对比实验,结果如图8和表1所示。
图6 注意力模型训练和验证结果(场景二)
Fig.6 Attention model training and verification results(scene 2)
图7 注意力模型训练和验证结果(场景三)
Fig.7 Attention model training and verification results(scene 3)
图8 场景一RNN运行结果
Fig.8 RNN running results(scene 1)
表1 各模型准确率及损失一览表
Tab.1 List of accuracy rate and loss of each model
模型名称准确率损失RNN0.90800.1157LSTM0.92000.1880注意力网络0.99800.0001
同一场景下RNN训练时间202.659 s,注意力网络训练时间181.108 s,由此可以发现实时性比RNN模型更好。同一场景下注意力网络准确度为1.0,LSTM准确度0.93,由此可知注意力网络准确度比LSTM模型更高,因此注意力网络模型相比于RNN、LSTM更适合应用到地基合成孔径雷达PS点选取中,可与Matlab程序结合快速获得准确性高的PS点,保证PS点相对稳定,随后可进一步计算形变。
本文模型的实质是通过注意力机制对特征空间的映射,以此计算当前像素点在各个时刻的关联程度,从而判断该像素点是否为PS点。因此对于注意力机制的可视化是非常必要的,既可以反映哪一种特征对判断PS点有效,也可以观察到特征空间于特征之间的关系,场景一注意力可视化如图9所示。
图9 场景一LSTM运行结果
Fig.9 LSTM running results(scene 1)
第一种可视化展现注意力多头与特征的关联性,由此可以观察到每一头中与特征间的联系,其中哪些特征在分类过程中使用率较高,哪些直接被模型选择性的忽略,从三个场景得到的可视化中可以看到相干系数这一特征使用率并不高。第二种可视化展现的则是特征与判别PS点的关联性,同样也能看出相干系数与PS点的关联程度并不突出。由两种可视化的结果可以看出相干系数这一特征并不适用于PS点分类中,后续可以多在时序特征领域进行探索。
图10 注意力可视化(场景一)
Fig.10 Attention Visualization(scene 1)
图11 注意力可视化(场景二)
Fig.11 Attention Visualization(scene 2)
判断一个模型应用的好坏除了准确率、损失率等硬性指标外,模型的泛化性能也是十分重要的,尤其像地基SAR形变监测这种对实时性要求很高的工作机制,表2正是体现了注意力网络模型的泛化性能。
表2 注意力网络模型不同场景下的准确率及损失
Tab.2 Attention Network accuracy and loss in different scenes
模型名称准确率交叉熵损失率注意力网络训练场景一0.97000.0080注意力网络训练场景二0.98000.0092注意力网络训练场景三0.99800.0088注意力网络训练场景二模型应用至场景三0.99104.8664注意力网络训练场景三模型应用至场景二0.99300.3644
利用场景二下训练好的注意力网络模型应用到场景三中和场景三下训练好的注意力网络模型应用到场景二中这两个例子的准确率和损失率,有力的证明了本文使用模型的泛化性能。
图12 注意力可视化(场景三)
Fig.12 Attention Visualization(scene 3)
本文提出一种用注意力网络模型处理序列雷达数据进行PS点筛选的算法,使用空间注意力与特征拼接融合代替传统的PS点多阈值筛选法,并将本文使用模型筛选出的PS点结果与同样擅长处理序列数据的让RNN和LSTM模型进行了对比,实验结果表明:注意力网络模型的实时性比RNN模型更好,准确度比LSTM模型更高。因此本文证明注意力网络模型更适用于地基合成孔径雷达PS点选取。
[1] WANG Yanping, HONG Wen, ZHANG Yuan, et al.Ground-based differential interferometry SAR: A review[J].IEEE Geoscience and Remote Sensing Magazine, 2020, 8(1): 43-70.
[2] 张志春,袁智,王彦平.地基干涉合成孔径雷达形变监测应用综述[J].北京测绘,2020,34(1):27-32.
ZHANG Zhichun, YUAN Zhi, WANG Yanping.Ground-based interferometry synthetic aperture radar and applications in deformation monitoring[J].Beijing Surveying and Mapping, 2020,34(1):27-32.(in Chinese)
[3] 朱茂.基于动态PS的地基合成孔径雷达高精度形变测量技术研究[D].北京:北京理工大学,2016.
ZHU Mao.High precision deformation measurement using ground based synthetic aperture radar based on dynamic persistent scatterer technique[D].Beijing: Beijing Institute of Technology, 2016.(in Chinese)
[4] 袁英.地基SAR永久散射体选取及形变探测大气影响试验研究[D].湘潭:湖南科技大学,2017.
YUAN Ying.Study on selection of permanent scatterers of gronud-based synthetic aperture radar and atmospheric influence of deformation detection[D].Xiangtan: Hunan University of Science and Technology, 2017.(in Chinese)
[5] 王彦平,吕森,曹琨.地基SAR多阈值迭代优化PS点选择方法[J].信号处理, 2019, 35(6):1104-1110.
WANG Yanping, LV Sen, CAO Kun, et al.Ground-based SAR multi-threshold iterative optimization PS point selection method[J].Journal of Signal Processing, 2019, 35(6): 1104-1110.(in Chinese)
[6] FERRETTI A, PRATI C, ROCCA F.Permanent scatterers in SAR interferometry[J].IEEE Transactions on Geoscience & Remote Sensing, 2001, 39(1): 8-20.
[7] FERRETTI A, PRATI C, ROCCA F.Nonlinear subsidence rate estimation using permanent scatterers in differential SAR interferometry[J].IEEE Transactions on Geoscience & Remote Sensing, 2000, 38(5): 2202-2212.
[8] BERARDINO P, FORNARO G, LANARI R, et al.A new algorithm for surface deformation monitoring based on small baseline differential SAR interferograms[J].IEEE Transactions on Geoscience & Remote Sensing, 2002, 40(11):2375-2383.
[9] 吕森.基于长时间序列观测误差校正的地基SAR高精度形变反演方法研究[D].北京:北方工业大学,2020.
LV Sen.Research on high-precision deformation inversion method of ground-based SAR based on long-term sequence observation error correction[D].Beijing: North China University of Technology, 2020.(in Chinese)
[10] 杨丽, 吴雨茜, 王俊丽,等.循环神经网络研究综述[J].计算机应用, 2018,38(S2): 1-6,26.
YANG Li, WU Yuxi, WANG Junli, et al.Research on recurrent neural network[J].Journal of Computer Applications, 2018,38(S2):1-6,26.(in Chinese)
[11] 胡荣磊, 芮璐, 齐筱,等.基于循环神经网络和注意力模型的文本情感分析[J].计算机应用研究, 2019, 36(11):3282-3285.
HU Ronglei, RUI Lu, QI Xiao, et al.Text sentiment analysis based on recurrent neural networks and attention model[J].Application Research of Computers, 2019,36(11):3282-3285.(in Chinese)
[12] 蔡强,郝佳云,曹健,等.采用多尺度注意力机制的远程监督关系抽取[J].中文信息学报,2018,32(1):96-101.
CAI Qiang, HAO Jiayun, CAO Jian, et al.Multi-level attention mechanism based distant supervision for relation extraction[J].Journal of Chinese Information Processing,2018,32(1):96-101.(in Chinese)
[13] 唐智, 周荫清, 李景文.干涉SAR图像的降噪方法分析[J].宇航学报, 2004, 25(4): 416-422.
TANG Zhi, ZHOU Yinqing, LI Jingwen.Analysis on noise reduction method for interferometric SAR image[J].Journal of Astronautics, 2004, 25(4): 416-422.(in Chinese)
[14] 周校,李长君,王吉军,等.复杂观测环境下GB-SAR的气象扰动分析及改正[J].测绘科学,2020,45(2):79-84.
ZHOU Xiao, LI Changjun, WANG Jijun, et al.Analysis and correction of meteorological disturbances in complex observation environments by GB-SAR[J].Science of Surveying and Mapping, 2020,45(2):79-84.(in Chinese)
[15] YANG Shan, LU Heng, KANG Shiyin, et al.On the localness modeling for the self-attention based end-to-end speech synthesis[J].Neural Networks, 2020, 125:121-130.
Reference format: CAO Kun, CUI Ziwei, LI Yang, et al.GBSAR permanent scatterer points selection algorithm based on attention network[J].Journal of Signal Processing, 2021, 37(7): 1267-1276.DOI: 10.16798/j.issn.1003-0530.2021.07.017.
曹 琨 男,1995年生,江西人。北方工业大学信息学院,硕士研究生,研究方向为雷达形变监测、深度学习、嵌入式开发。
E-mail: 1729536469@qq.com
崔紫维 女,1997年生,北京人。北方工业大学信息学院,硕士研究生,研究方向为雷达形变监测、机器学习。
E-mail: czw5114@163.com
李 洋 男,1983年生,北京人。北方工业大学信息学院,副研究员,博士,主要研究方向为极化 SAR、简缩极化 SAR、相干层析理论研究与应用。
E-mail: haffner@126.com
林 赟 女,1983年生,浙江人。北方工业大学信息学院,副研究员,博士,主要研究方向为SAR三维及多角度成像基础理论方法。
E-mail: ylin@ncut.edu.cn
王 卓 男,1981年生,北京人。北京无线电测量研究所,高工,硕士研究生,主要研究方向为雷达系统设计与信号处理。
E-mail: kingwz301@sina.com
王泊静 女,1998年生,北京人。北方工业大学电子信息学院,硕士研究生,研究方向为雷达形变监测、深度学习。
E-mail: 2775446563@qq.com