水声目标识别技术是指对携带目标信息的水声信号进行分析处理,最终实现目标类型判别的技术手段。根据声呐采集系统的工作方式,水声信号可分为被动目标辐射噪声和主动目标回波[1]。由于水声目标的发声机理复杂、目标类型和航行工况多样、海洋信道时变空变等原因,基于目标辐射噪声的水下目标识别技术一直是声呐领域中的研究难点之一[2]。
传统的水下目标识别方法包括特征提取和分类器设计两个步骤。提取的特征种类逐渐由信号的基本特征到类脑计算特征过渡。水声信号最基本的特征包括过零点分布,峰间幅值分布等时域特征以及线谱,连续谱和倒谱等频域特征[3-5]。受海水吸收、折射、散射、被海底和海面反射等因素的影响,水声信号有着明显的时变特性和非高斯性[6]。因此,研究人员开始利用短时傅里叶变换,小波变换,希尔伯特-黄变换等方法提取水声信号的时频域联合特征[7-9]以及高阶谱特征[10-11]。此后,研究者逐渐将目光投掷到类脑计算特征上来,该方向的一部分研究成果为模拟人耳对频率进行非线性处理的Mel倒谱系数[12](Mel-frequency cepstrum)和模拟听觉外周计算的Gammatone 滤波[13]等。进而,这些提取的特征被输送到所选择的分类器中,如支持向量机(Support Vector Machine, SVM)和人工神经网络(Artificial Neural Network, ANN)[14-15]等。然而,该方法依赖于专家经验或先验知识,主观性较强,导致模型泛化能力差。深度学习因具有自动特征提取和端到端的数据处理分析等优点,可以有效解决传统方法在该任务中的不足。近年来,随着计算机算力的增强以及水声样本数量的增加,越来越多的学者将深度学习方法应用到水下目标的自动识别中。
文献[16]利用卷积神经网络(Convolutional neural network, CNN)和深度置信网络(Deep Belief Network, DBN)建立水声识别网络,对水声回波Mel倒谱系数、Gammatone倒谱系数两种听觉感知特征进行深度提取。然而,水声信号具有较强的局部结构,即对水下目标识别起决定作用常为水声数据局部片段。以上功率谱特征的提取过程会造成水声信号时域信息损失,进而降低水下目标识别效能。文献[17]针对水下声信号识别任务,通过对比基于Mel倒谱系数和希尔伯特-黄变换等时频变换特征的传统方法和基于深度学习的方法,发现后者具有更高的目标识别准确率。
本文根据水下目标辐射噪声的特点,利用逐点卷积层和全局平均池化层等策略来改进传统卷积神经网络,构建端到端的水下目标自动识别系统。其中,逐点卷积层能够更大程度地保留水声信号局部特征,且降低模型的复杂程度;以全局平均池化层替代全连接层的方式构造基于特征图对应的特征向量主导分类结果的网络结构,使结果更具可解释性。进一步,本研究将该方法应用到实际水声数据中,并与基于传统卷积神经网络和基于高阶统计量特征的识别方法进行对比,结果表明改进后的卷积神经网络能够有效地提高对水声目标识别的准确率。
卷积神经网络[18]是现今较成熟的深度学习算法之一,已在图像分类、检测[19]及语音识别[20]等领域取得巨大成功。经典的卷积神经网络是由卷积层,池化层交替连接,外加全连接层和分类层堆叠而成的,且多用在二维图像上。对于一维时间序列,一维卷积神经网络(one-dimension Convolution, Conv1D)除了具有传统意义上的自动特征提取和分类器的作用外,还可以起到类似有限冲激响应(Finite Impulse Response, FIR)滤波器的功能,即实现特征选择。如图1所示,一维卷积层可以识别序列中的局部模式,且对每个子序列进行相同的变换,在序列中的一个位置学习到的模式可以应用在其他位置。因此,一维卷积层对时间序列具有平移不变性,能够更好地保留水声信号的时域信息。
图1 一维卷积层在时间序列上的工作原理
Fig.1 Scheme of a one-dimension (1D) convolutional operation in time domain
如图1所示,当水声信号的维度为6,卷积核大小为3,卷积过程中平移的步长(stride)为3时,若卷积的形式为有效(valid)卷积,则所得的特征图为2维;若卷积形式为相同(same)卷积,所得特征图与原输入维度相同。卷积后所得特征图(feature map)的长和宽的大小如式(1)所示:
(1)
式中,W′和H′分别代表特征图的宽和高,W和H分别指卷积层输入的宽和高,F为卷积核的大小,P为特征图填充的圈数,S为卷积步长。因为本研究模型的输入为一维时间序列信号,一维卷积前后,所得特征图的高仍为1,即H′=1。
本文提出的模型输入为原始水声信号。在现有将深度学习应用到水声目标识别的文献中,大部分研究使用经过时频变换的图像作为模型输入,该过程可能造成原始水声信号时域信息的损失。因此,将原始水声信号作为模型的输入,能够最大程度地保留目标时域信息,使得特征提取和分类识别过程更加客观。
本课题将改进的CNNs应用到水下声信号识别,模型结构如图2(a)所示。该结构保留了经典CNNs的模块化设计,以便根据样本量的大小对卷积模块进行适当的增减。此外,考虑到水下声信号具有较低的信噪比,且模型在前后向训练过程中信号会发生内部协变量偏移(internal covariate shift)[19],相较于经典卷积神经网络中的卷积模块由卷积层(Convolution layer)和池化层(Pooling layer)组成,本研究在经典卷积神经网络的基础上,引入逐点卷积层和全局平均池化层来解决以上问题,模块组成如图2(b)所示。
图2 基于卷积神经网络的水下声信号识别模型结构
Fig.2 The architecture of CNN-based model
BN是近年来深度学习的一项重要成果,其有效性已被广泛证明。当输入数据流经深度神经网络的每一层时,数据的分布随着前一层参数的更新一直在发生变化,这使得不同批(Batch)训练数据的分布不同。因而,网络需要在每次迭代时学习不同分布的参数,这导致网络的训练速度变慢,模型的泛化能力降低。Ioffe等人在2015年提出了BN层[21],用以解决以上问题。它与样本归一化原理相同,但包含需要训练的参数γ和β来增加结果的表达能力。若训练过程中的最小批训练数据大小为m,在网络前向传输过程中,式(2)~(4)对输入到BN层的批数据(X={x1…m},即来自上一卷积层产生的多个特征图,xi为第i个特征图)进行近似白化处理,便可得到其近似其中式(2)计算批数据的平均值,式(3)计算批数据的方差,式(4)实现批数据归一化。接下来,引入 γ和β,通过式(5)对进行缩放和平移。最终,通过反向传播的链式求导,可得γ和β,详见文献[21]。
(2)
(3)
(4)
(5)
如图2(b)所示,水声信号经过第一个卷积层后,数据的分布会发生变化,即出现内部协变量偏移的现象。这要求网络在训练过程中需要学习每层的数据分布,进而导致网络训练速度变慢,影响网络的收敛。此外,如果训练数据和测试数据的数据分布不同,会使模型的泛化能力降低。鉴于此,我们在每个卷积块的卷积层和激活层之间加入BN层。BN层运算可保证在网络内部每个隐层的输入都有相同的分布,即均值为0,方差为1的高斯分布。这可以加快网络的训练速度。按上述相同的方式遍历训练集中的水声数据,便可得到所有批训练对应的γ和β。接下来,统计每层BN中γ和β各自的和除以训练水声数据的批次得到其平均值,并对整体数据计算无偏估计值作为每一层的E[x]与Var[x]。综上,便可对每个神经元的激活数据计算BN进行变换来完成预测。
通常,为了提取更精细、更高层次的特征,卷积神经网络模型需使用较多的卷积层和全连接层。一方面,受水声样本量的限制,层数过多会导致模型过拟合。另一方面,水声信号具有较强的局部结构,而卷积层具有局部感知的优点,且不同的卷积核具有不同的感知特性。为了增强卷积层的局部感知能力,提升局部特征的表达能力,本研究将卷积核为1的卷积层引入到卷积模块中,即将图1中的核尺寸设为1。相对于普通卷积核,该设计能够在减少模型复杂度的同时,实现不同特征图的跨通道结合,有助于提取水声信号的局部特征。
图3 卷积核为1的卷积层工作原理
Fig.3 Principle of depthwise convolutional layer
如图3所示,假设水声信号经过某个卷积层之后,得到32个(1,w)大小的特征图,若其后为n个m(m>1)的普通卷积层,则该层需要训练的参数个数为m。当该卷积层选用n个1的逐点卷积层时,训练参数可由m降至n(n<m)个。因此,这种改进可以减少训练参数,进而降低模型复杂度,而且1卷积层的加入增加了网络的深度,使模型变的更为紧凑。此外,每个1的卷积核作用在上层的32个特征图上,能够将32个通道相同位置的特征信息以不同的权重进行结合。这可以大大增强网络对水声信号的某些局部特征的感知能力。
在经典CNNs中,模型将提取的特征输送到分类器前需经过至少一层的全连接层(Dense)。该层含有较多训练参数,且容易造成模型过拟合。本研究用GAP替代全连接层[22],两者的区别如图4所示。
图4 从全连接层和GAP层到分类层的工作原理对比
Fig.4 Comparison of working principles from fully connected layer and GAP layer to classification layer
如图4(a)所示,每个被平铺的特征图以全连接的方式与全连接层相连,进而产生来自上层特征图的各种排列、组合,如式(6)所示。这样,n个神经元将会产生n^2+n个训练参数。该过程增加了计算开销和模型复杂度,使模型容易出现过度拟合。另一方面,全连接层产生的各种排列组合输入到分类器产生分类结果时,并不清楚究竟是特征的哪种排列组合对预测类别产生作用,结果的可解释性低。
(6)
首先,GAP对每个来自上层的特征图进行全局平均,从而学习到每个特征图的全局信息,如图4(b)所示。该过程无需引入额外训练参数,且每个特征图均被映射成一个特征值。之后,卷积层输出的所有特征图经过全局平均池化层便可被映射一组特征向量,其可以表征所提取的特征。最后,这一特征向量被送入分类器softmax层,即得到该特征向量所对应各类别的分类概率,如式(7)所示。GAP起到了连接Conv块和分类任务的桥梁作用,分类的结果是基于特征图对应的特征向量,从而得到该特征向量对不同类别的识别率,即GAP将特征和分类连接在一起,使水下目标分类的结果更具可解释性。同时,它可以对网络进行正则化,防止过拟合。设输入的特征向量为X,xi(i=1,2,3,…,n)为X的第i个特征值,目标类别为k,则X的输出值为:
(7)
其中,hθ(x(i)) 为softmax的输出向量,y(i)为预测值,θ为权重矩阵,p为该特征值被预测为某类别的概率。其中θ是该层需要训练的参数。该测试样本经过softmax层运算后,取输出向量中最大值的索引(Index)为该测试样本的标签。
为了验证改进后的卷积神经网络在水下目标分类识别中的性能,本文利用实测的6类水下目标辐射噪声数据(A,B,C,D,E,F)对算法进行测试。同时,将该结果与基于传统卷积神经网络和基于高阶统计量特征的水下目标识别方法进行对比。
水声类别的样本分布如表1所示,共计4486个目标样本,每个样本时长3 s, 采样频率为25 kHz。由目标的样本分布可看出,该任务为样本类别不平衡目标分类。
本节将用表1所列的实测水声信号验证本文所提出的网络模型的有效性。为了合理地验证模型的鲁棒性,我们使用分层的五折交叉验证法对模型进行训练、验证和测试。该验证方法将样本空间按照水声样本类别的原始比例划分为5份,每次留出1份进行测试,其余部分用来训练和验证。该方法有效的避免了只训练、测试一次结果的随机性。
本实验基于Keras深度学习框架,使用Python语言进行相关代码编写。通过大量的仿真实验,模型中卷积模块数、卷积层的卷积核数和核尺寸大小如图2所示,在模型训练过程中,每次训练迭代(Epoch)200次,批训练为64。仿真实验的平均分类准确率为91.7%,详见表2。为了验证所提出方法的有效性,本研究利用相同水声数据集,在经典卷积神经网络上使用和本研究相同的参数,获得69.8%的分类识别准确率。由于这两种模型的输入均为原始水声数据,两者的卷积层后均添加BN层来加快模型收敛且避免内部协变量偏移。此外,利用相同数据集,陈凤林等基于64维高阶统计特征(Higher-Order Statistics, HOS),包括 谱的统计线谱特征和三阶累计模型的AR模型特征,实现平均分类准确率为85.0%[23]。
表1 实验样本分布
Tab.1 Experimental data description
目标类别ABCDEF总数目标数量30010592251804972994486目标占比/%6.723.650.21.811.16.7100
表2 分类准确率比较
Tab.2 Comparison of classification accuracy %
目标类别ABCDEF总识别率HOS98.185.787.098.169.981.585.0传统CNNs36.070.087.741.746.425.069.8改进CNNs93.289.993.290.978.894.991.7
本文提出一种适用于水下目标识别场景的卷积神经网络结构。模型中卷积核为1的卷积层(或叫做逐点卷积层)以及GAP这些策略的引入都是根据水声数据的特点构建,具体表现为:(1)水声信号具有较强的局部特性,逐点卷积层能够更大程度地保留局部特征,且降低模型的复杂程度,进而解决因实测水声数据量有限导致的模型过拟合问题;(2)以全局平均池化层替代全连接层的方式构造基于特征图对应的特征向量主导分类结果的网络结构,使结果更具可解释性。实验结果表明,与基于传统卷积神经网络和基于高阶统计量特征的水下目标识别方法相比,本文提出的卷积神经网络模型可明显提高水下目标识别准确率。综上,本研究借助于改进后的CNN网络具有集自动特征提取、目标分类于一体的优点,实现端到端的自动水下目标识别,减少人为参与,使分类过程更客观。
[1] 徐及, 黄兆琼, 李琛, 等. 深度学习在水下目标被动识别中的应用进展[J]. 信号处理, 2019, 35(9): 1460-1475.
Xu Ji, Huang Zhaoqiong, Li Chen, et al. Advances in Underwater Target Passive Recognition Using Deep Learning[J]. Journal of Signal Processing, 2019, 35(9): 1460-1475.(in Chinese)
[2] 方世良, 杜栓平, 罗昕炜, 等. 水声目标特征分析与识别技术[J]. 中国科学院院刊, 2019, 34(3): 297-305.
Fang Shiliang, Du Shuanping, Luo Xinwei, et al. Development of Underwater Acoustic Target Feature Analysis and Recognition Technology[J]. Bulletin of the Chinese Academy of Sciences, 2019, 34(3): 297-305.(in Chinese)
[3] Liu Jian, He Yang, Liu Zhong, et al. Underwater target recognition based on line spectrum and support vector machine[C]∥ Proceedings of the 2014 International Conference on Mechatronics, Control and Electronic Engineering (MCE-14), Atlantis Press, 2014.
[4] 李新欣. 船舶及鲸类声信号特征提取和分类识别研究[D]. 哈尔滨: 哈尔滨工程大学, 2012.
Li Xinxin. Research on Feature Extraction and Classification of Ship Noise and Whale Sound[D]. Harbin: Harbin Engineering University, 2012.(in Chinese)
[5] 田杰, 张春华, 刘维, 等. 基于倒谱分析的被动水声目标分类[J]. 系统工程与电子技术, 2005, 27(10): 1708-1710.
Tian Jie, Zhang Chunhua, Liu Wei, et al. Cepstrum analysis based classification of passive underwater acoustic signals[J]. Systems Engineering and Electronics, 2005, 27(10): 1708-1710.(in Chinese)
[6] Urick R J. Sound propagation in the sea[M]. Peninsula Publishing Los Altos, Calif, 1982.
[7] Azimi-Sadjadi M R, Yao De, Huang Qiang, et al. Underwater target classification using wavelet packets and neural networks[J]. IEEE Transactions on Neural Networks, 2000, 11(3): 784-794.
[8] 王晓燕, 方世良, 朱志峰. 基于ST-FRFT的非合作水声脉冲信号检测方法[J]. 信号处理, 2011, 27(8): 1271-1278.
Wang Xiaoyan, Fang Shiliang, Zhu Zhifeng, et al. Detection of Non-cooperative Underwater Acoustic Pulse Signal Based on ST-FRFT[J]. Signal Processing, 2011, 27(8): 1271-1278.(in Chinese)
[9] 李秀坤, 谢磊, 秦宇. 应用希尔伯特黄变换的水下目标特征提取[J]. 哈尔滨工程大学学报, 2009, 30(5): 542- 546.
Li Xiukun, Xie Lei, Qin Yu. Underwater target feature extraction using Hilbert Huang transform[J]. Jourmal of Harbin Engineering University, 2009, 30(5): 542-546.(in Chinese)
[10] 郭业才, 赵俊渭, 陈华伟, 等. 基于高阶统计量的水下目标动态线谱增强算法研究[J]. 西北工业大学学报, 2002, 20(3): 449- 453.
Guo Yecai, Zhao Junwei, Chen Huawei, et al. On Improving Detection of Underwater Target with a Special Line Enhancement Algorithm[J]. Journal of North Western Polytechnical University, 2002, 20(3): 449- 453.(in Chinese)
[11] 彭圆, 申丽然, 李雪耀, 等. 基于双谱的水下目标辐射噪声的特征提取与分类研究[J]. 哈尔滨工程大学学报, 2003, 24(4): 390-394.
Peng Yuan, Shen Liran, Li Xueyao, et al. Bispectrum based feature extraction and classification of radiation noises from underwater targets[J]. Journal of Harbin Engineering University, 2003, 24(4): 390-394.(in Chinese)
[12] Lim T, Bae K, Hwang C, et al. Classification of underwater transient signals using mfcc feature vector[C]∥ Proceedings of the 2007 9th International Symposium on Signal Processing and Its Applications, IEEE, 2007: 1- 4.
[13] 王磊, 彭圆, 林正青, 等. 听觉外周计算模型在水中目标分类识别中的应用[J]. 电子学报, 2012, 40(1): 199-203.
Wang Lei, Peng Yuan, Lin Zhengqing, et al. The Application of Computational Auditory Peripheral Model in Underwater Target Classification[J]. Acta Electronica Sinica, 2012, 40(1): 199-203.(in Chinese)
[14] WS Filho, de Seixas. Preprocessing passive sonar signals for neural classification[J]. IET Radar, Sonar and Navigation, 2011, 5(6): 605- 612.
[15] Yang Honghui, Gan Anqin, Chen Hanlu, et al. Underwater acoustic target recognition using SVM ensemble via weighted sample and feature selection[C]∥ Proceedings of the 2016 13th International Bhurban Conference on Applied Sciences and Technology (IBCAST), IEEE, 2016: 522-527.
[16] 程锦盛, 杜选民, 曾赛. 采用深度学习方法的水下目标听觉特征提取与识别技术研究[C]∥ 中国声学学会. 2018年全国声学大会论文集, 2018: 2.
Cheng Jinsheng, Du Xuanmin, Zeng Sai. Research on Audio Feature Extraction and Recognition of Underwater Targets Using Deep Learing Method[C]∥ Chinese Acoustic Society. Proceedings of the National Acoustics Conference in 2018, 2018: 2.(in Chinese)
[17] 卢安安. 基于深度学习方法的水下声音目标识别研究[D]. 哈尔滨: 哈尔滨工程大学, 2017.
Lu Anan. Underwater Acoustic Classification Based on Deep Learming[D]. Harbin: Harbin Engineering University, 2017.(in Chinese)
[18] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436- 444.
[19] Krizhevsky A, Sutskever I, Hinton G. ImageNet classification with deep convolutional neural networks[J]. Commun ACM, 2017, 60(6): 84-90.
[20] Abdel-Hamid O, Mohamed A-R, Jiang Hui, et al. Convolutional neural networks for speech recognition[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(10): 1533- 1545.
[21] Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[J]. arXiv preprint arXiv: 150203167, 2015.
[22] Lin Ming, Chen Qiang, Yan Shuicheng. Network in network[J]. arXiv preprint arXiv: 13124400, 2013.
[23] 陈凤林, 林正青, 彭圆,等. 舰船辐射噪声的高阶统计量特征提取及特征压缩[J]. 应用声学, 2010, 29(6): 466- 470.
Chen Fenglin, Lin Zhengqing, Peng Yuan, et al. Extraction and compression of high-order statistical characteristics for ship radiated noise[J]. Applied Acoustics, 2010, 29(6): 466- 470.(in Chinese)
Reference format: Wang Xiaoyu, Li Fan, Cao Lin, et al. End to End Underwater Targets Recognition Using the Modified Convolutional Neural Network[J]. Journal of Signal Processing, 2020, 36(6): 958-965. DOI: 10.16798/j.issn.1003- 0530.2020.06.018.
王小宇(共同第一作者) 男, 1994年生, 辽宁丹东人。大连理工大学博士研究生, 主要研究方向为水声信号处理、脑电信号处理、人工智能等。
E-mail: xiaoyu.wang0207@foxmail.com
李 凡(共同第一作者) 女, 1992年生, 河南汝州人。大连理工大学博士研究生, 主要研究方向为深度学习算法应用、多模态睡眠信号处理等。
E-mail: lifandlpu@foxmai.com
曹 琳 女, 1985年生, 黑龙江鹤岗人。大连测控技术研究所, 工程师, 主要研究方向为水声信号处理、大数据分析等。
E-mail: happycaolin@126.com
李 军 男, 1981年生, 辽宁建昌人。海军大连舰艇学院水武与防化系讲师, 主要研究方向为水声信号处理、水雷与反水雷等。
E-mail: lijunwk@163.com
张 驰 男, 1987年生, 辽宁新民人。大连理工大学讲师, 主要研究方向为生物电信号处理、脑机接口、人工智能等。
E-mail: chizhang@dlut.edu.cn
彭 圆(共同通讯作者) 女, 1972年生, 黑龙江五常人。大连测控技术研究所研究员, 主要研究方向为模式识别。
E-mail: kxl1991@126.com
丛丰裕(共同通讯作者) 男, 1978年生, 辽宁大连人。大连理工大学教授, 主要研究方向为脑功能信号处理、脑机接口、水声信号处理、人工智能等。
E-mail: cong@dlut.edu.cn