现代声纳系统中,多用声纳阵列采集水下声信息,以获得更高的信噪比和时空分辨能力,对所获取的信号进行处理分析,可以完成探测、定位和识别的任务[1- 4]。依据所使用的声纳类型及信号的获取方式,可以将其分为主动式与被动式,主动式声纳依靠目标的回波完成对目标的定位和识别[5],但自身隐蔽性较差;被动式声纳则利用目标的辐射噪声完成以上任务,系统本身不辐射能量,不易被发现,具有很好的隐蔽性且工作距离远[6]。被动声纳目标识别技术长期以来受到研究者们的重点关注,也是声纳领域中的研究难题之一。
水下目标的被动识别的核心任务是从声纳阵列信号中分析出目标的有效信息[6]。在传统技术框架下,相关工作主要围绕两个方向展开,一方面是特征提取技术,另一方面是在特征基础上的分类技术。构建高精度和高效率的目标识别分类器并提取与其相适应的特征是水下目标被动识别研究的重点内容。从早期的针对目标提取独立特征的方法[7],到建立目标辐射噪声特征库并进行模糊匹配的方法[8-9],水下目标被动识别技术取得长足进展。然而,受限于环境复杂性与目标对抗性等不利因素[10],基于传统技术框架的水下目标被动识别方法正逐渐陷入困境。
自从2006年以来,以深度神经网络(Deep Neural Network, DNN)为代表的深度学习方法将机器学习与信号处理提升到了一个新的高度,它借助于大数据杠杆,成为时代的特征[11]。深度学习并不是特指某种机器学习算法或模型,而是一种方法论、思想和框架。它通过构建深层结构来学习多层次映射关系。深度学习的实质,是通过海量的训练数据使具有复杂结构的机器学习模型掌握更有用的特征,从而最终提升分类或预测的准确性。因此,“深度模型”是手段,“特征学习”是目的。区别于传统浅层学习方法,深度学习方法通过多层特征变换,将样本在原空间的特征表示变换到一个新的特征空间,从而使用于分类或预测的信息更加凸显。与基于人工规则的传统特征构造方法相比,利用数据驱动的方法进行特征学习,能够更好地刻画数据的内在信息。
2009年,微软研究人员将深度学习方法引入语音识别领域并产生巨大突破。研究者们把传统的混合高斯模型替换成深度神经网络模型,使得相对识别错误率降低30%,识别效果改善的幅度超过了过去很多年的总和[12-13]。成功的关键因素是把原来的频谱特征替换为深度神经网络的自学习特征,并采用大量的语音数据训练声学模型。在图像领域的国际公开赛ImageNet上,深度学习将图像识别的准确率从74%提高到96%以上[14],以压倒性优势获得冠军。在人机博弈领域,围棋软件AlphaGo能够战胜人类世界冠军,也取得了轰动性的影响[15]。在自然语言理解[16]以及其他诸多领域[17-20],基于深度学习的方法也取得了重大进展。因此将深度学习应用于水声技术领域的相关研究蕴含着巨大潜力[21-25]。
目前国内外针对深度学习在水下目标被动识别的研究均处于初期阶段,以理论探索和小规模试验为主。一般而言,深度学习的应用需要与大数据相结合,但受现实条件所限,往往难以收集到充足的数据进行模型训练,使深度神经网络的性能受到较大的限制。尽管如此,迫切的需求仍促使深度学习在水下目标被动识别中的应用不断发展,目前在这一领域较为活跃的研究机构包括中国科学院声学研究所[26]、哈尔滨工程大学[27-28]、西北工业大学[29-30]、海军舰艇学院[31],里约热内卢联邦大学[32]、科罗拉多州立大学[33]等,相关学术论文已经发表二十余篇。
图1是一个典型的模式分类识别系统示意图,也是水下目标被动识别系统的常规构架,主要包括以下几个步骤:(1)数据获取;(2)数据预处理;(3)特征提取;(4)分类器设计;(5)分类器。在引入深度学习方法后,由于深度神经网络首先具备分类器的功能,因此分类器设计和分类器环节将采用特定的深度神经网络结构,并使用一定数量的样本完成深度神经网络的模型训练;其次,由于深度神经网络具备良好的特征学习能力,因此传统意义上较为关键特征提取环节在使用深度神经网络后被相对弱化甚至完全取代。下文首先介绍目前水下目标被动识别中常用的深度神经网络结构,再介绍深度学习方法的引入对特征提取环节产生的影响。
图1 基于深度学习的水下目标被动识别系统
Fig.1 The block diagram of underwater target passive recognition based on deep learning
在水下目标被动识别框架中,后端分类器的建模能力将显著影响整个目标识别系统的性能。与传统的人工神经网络(Artificial Neural Network,ANN)或支持向量机(Support Vector Machine,SVM)分类器相比,深度神经网络的复杂结构使其在建模能力方面更具潜力。在已发表的文献中,本领域主要使用的深度神经网络结构包括深度置信网络(Deep Belief Networks,DBN)、全连接神经网络(Full Connected Neural Network),时间延迟神经网络(Time Delay Neural Network,TDNN),卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)。本节将分别介绍这几种深度神经网络的结构和基本原理。
深度置信网络在2006年由加拿大学者Hinton提出[34],其由多层受限玻尔兹曼机[35-36](Restricted Boltzmann Machines,RBM)组成,单层受限玻尔兹曼机的示意图如图2所示。
图2 单层受限玻尔兹曼机示意图
Fig.2 The configuration of one layer RBM
RBM的能量方程定义为:
E(ν,h)=-b′v-c′h-h′Wv
(1)
W表示隐藏单元和可见单元连接的权重,b,c是可见层和隐藏层的偏置。
由于RBM的特殊结构,可见和隐藏单元是条件独立的。利用这个特性,可以得出:
(2)
通常情况下使用的都是二值化的受限玻尔兹曼机,即ν, h∈{0,1},基于概率的神经元激活函数如下:
P(hj=1|ν)=sigm(ci+Wiv)
(3)
二值化RBM的参数更新方程:
(4)
(5)
(6)
其中sigm(·)为sigmoid函数。在此原理基础上可以设计不同的神经网络拓扑结构来对网络进行训练,如常用的反向传播(Back Propagation,BP)[36]算法,遗传算法[37-38]等对网络进行有监督的训练,用大量的数据不断更新网络权重的值,使之能够具备对训练集以外的数据进行有效处理。
由于网络结构较为简单,在目前的研究方法中,一部分研究者将深度置信网络视为识别器进行水下目标的识别,如西北工业大学、国防科技大学提出的FFT+DBN的识别框架[29,39],其结果显示深度置信网络的识别效果高于传统的SVM和K近邻方法,也高于FFT+CNN的框架;另外一部分研究者将其作为一个深度特征提取器,提取非人工特征给其他分类器进行分析,比如西北工业大学的研究团队提出一种改进的竞争的深度置信网络用于水下目标识别[40],哈尔滨工业大学、中船重工760研究所、上海船舶电子设备研究所等研究机构提出将深度置信网络用于水下目标的特征提取与识别[41- 42],结果显示将深度置信网络的中间层输出作为目标特征优于目前常用的人工特征,但这种方法对数据量的依赖度较高。
全连接神经网络是前馈神经网络(Feed-Forward Neural Network,FNN)的基本形式,其本质上是一种多层感知器,对于处理非线性问题有其独特的优势[43]。全连接神经网络的结构如图3所示,由输入层、隐含层和输出层构成,其中隐含层的数量没有限制。在深度学习方法出现以前,研究者们通常使用只包含一个隐含层的浅层全连接神经网络,早期文献中也称作人工神经网络。在深度学习中,一般使用含有两个或以上隐含层的深层全连接神经网络,一些文献有时也会以其上层概念前馈神经网络或深度神经网络指代深层全连接神经网络。
图3 全连接神经网络示意图
Fig.3 The configuration of full-connected neural network
下面对全连接神经网络的基本模型及分类原理做简单阐释。对一个L+1层的全连接神经网络,将输入层写作0层,将输出层写为L层。Vl为l层的向量,则l-1层与l层的计算公式表示为:
Vl=f(zl)=f(WlVl-1+bl),0<l<L
(7)
将l层神经元的个数表示为Nl,其中zl=WlVl-1+bl,V l,bl都是Nl×1的向量,分别表示输出向量,输入向量,偏差系数矩阵。Wl是一个Nl×Nl-1的向量,表示权重矩阵。当l=0时,V0表示输入的特征向量。f(·)为激活函数,常用激活函数有sigmoid函数、双曲正切函数和整流线性单元(Rectified Linear Unit,ReLU)[44]。
分类和回归是深度学习中最常见的两种任务,回归任务的目标是对连续输出变量进行预测,可以根据待预测变量的统计特性选取适合的输出层激活函数与后处理方式。分类任务的目标是求取样本的概率分布,每个输出层节点代表一个特定的类别,因而要求输出向量的所有数值非负且加和为1,典型的处理手段如使用softmax函数。假设第i个神经元的输出值代表输入层特征向量属于第i类的概率,softmax函数可以表示为:
(8)
全连接神经网络常使用反向传播算法来进行参数的训练。参数训练完成后即可将特征向量作为模型的输入,在输出层获取分类或回归的结果。
在早期的研究中,许多学者尝试利用浅层全连接神经网络解决水下目标的探测和识别问题[45- 49],得到了比SVM等分类器更好的识别正确率。近几年来,国内的研究单位如中国科学院声学所、哈尔滨工程大学、西北工业大学等利用深层全连接神经网络在水下目标被动分类问题上进行了尝试[26-29],结果显示深层全连接神经网络较浅层全连接神经网络有更好的识别效果。一般而言,深层全连接神经网络的数据建模能力不如卷积神经网络等更为复杂的神经网络结构。但是由于全连接神经网络结构相对简单、参数规模较小,使其更容易被学习。因此,在训练数据量较小的条件下,全连接神经网络与复杂神经网络结构相比其性能劣势并不明显,个别情况甚至具有一定优势。
时延神经网络[50]通过在深层全连接神经网络中引入时间延迟拓展形成,是前馈神经网络的一种。在全连接神经网络中,每个神经元节点的输出是当前时刻与其连接的所有神经元节点的加权和,然后通过一个非线性激活函数得到。而在时延神经网络中,每个神经元节点与其前一层的输出存在一组并行延时单元,每个神经元的输出由与其相连的延时单元组中,所有节点的加权和经过一个非线性激活函数处理得到。
时延神经网络的基本结构如图4所示,其中第l层的第t个时间节点的特征向量表示为xl,t={xl,t,1,…,xl,t,Ul}。第l+1层的第t个时间节点的特征向量表示为xl+1,t={xl+1,t,1,…,xl+1,t,Ul+1},每一个神经网络单元的输出是将它所有输入的加权和通过一个激活函数后的值。假设从第l层到第l+1层的时延集合为Γl={t1,…,tTl}, 则第l层到第l+1层的非线性变换可以表示为:
(9)
其中,Wl,t∈RUl+1×Ul表示输入信号xl,t+t的权重矩阵,bl∈RUl+1为其偏置矩阵, fl(·)是激活函数。当t<0时,表示使用先前时刻的数据;当t>0时,表示使用未来时刻的数据。在模型中,权重矩阵及偏置矩阵不随时间而变化,通常称之为权重共享,权重共享能有效的减小模型参数量。
图4 时延神经网络层与层之间的连接示意图
Fig.4 Basic connection between TDNN layers
时延神经网络的训练和全连接神经网络类似,一般采用基于反向传播的梯度下降算法。
与全连接神经网络相比,由于时延神经网络可以通过逐层扩展来利用相邻时刻的信息,因而能够在一定程度上构建含有时序信息的模型。中国科学院声学所提出一种基于时延神经网络的水下目标识别方法[26],由于引入了较长的音频片段信息,时延神经网络可以明显降低目标识别的错误率,优于传统的SVM方法。
卷积神经网络[51]是前馈神经网络的一种,它的人工神经元可以响应一部分覆盖范围内的周围单元,非常适合用于对原始信号进行处理与分析。典型的卷积神经网络由一个或多个卷积层和顶端的全连接层组成,同时也包括关联权重和池化层。卷积神经网络的框架示意图如图5所示。
图5 卷积神经网络框架示意图
Fig.5 The configuration of CNN
卷积层通过一个或者数个卷积核进行信息的提取。卷积核在工作时,会有规律地扫描输入特征,在卷积核当前的覆盖区域对输入特征做矩阵元素乘法求和并叠加偏差量[51]。
(10)
i∈{0,1,…,Lw,l+1} j∈{0,1,…,Lh,l+1}
式中的求和部分等价于求解一次交叉相关(cross-correlation)。b为偏差量,Zl和Zl+1表示第l+1层的卷积输入和输出,也被称为特征图(feature map),Lw,l+1、Lh,l+1为Zl+1的尺寸。Z(i, j)对应特征图的基本单元,K为特征图的通道数, fw、 fh为卷积核大小,s0为卷积步长(stride),p为填充(padding)层数。
由于卷积神经网络适合于处理原始水声信号,能够在一定程度上获取常规特征分析方法难以发现的隐含关联,因而卷积神经网络在水下目标被动识别中具有多种应用方式。一方面,卷积神经网络被用做一种特征提取器来抽取区分信号的隐式特征。如现已被提出的基于CNN-DNN模型的水下目标识别方法,首先利用卷积神经网络提取目标分类特征,然后在后端利用神经网络进行分类识别,实验结果显示利用卷积神经网络抽取特征的识别效果要优于传统特征提取器[28,42]。另一方面,部分学者将卷积神经网络当作一种分类器,对传统特征进行分类,例如程锦盛等尝试用卷积神经网络对水下目标听觉特征进行分类[41]。最后,也有部分学者利用卷积神经网络端到端的处理能力,直接将原始信号(时域信号或频谱图)作为卷积神经网络的输入,对目标直接进行分类识别。郎泽宇等提出了一种以LOFAR谱图作为输入,在卷积神经网络结构中引入一个特征图多维加权层的水下目标分类方法[52]。为解决神经网络在小数据集上训练容易过拟合的问题,王念滨等人进一步提出一个适用于水下目标识别的快速降维卷积网络模型[53]。
循环神经网络是与前馈神经网络相对的概念,其典型特征是具有内部反馈机制。相对于前馈神经网络,循环神经网络具有处理时序信号的优势。音频信号是一种典型的时序信号,而全连接神经网络、时延神经网络或卷积神经网络等前馈神经网络通常只能对固定长度的特征进行建模,因此只具有有限的时间建模能力。相较而言,循环神经网络通过内部神经元的环向连接使其具有记忆能力,因此能够动态的利用声音信号在时间上的相关性。
循环神经网络的基本结构如图6所示。
图6 循环神经网络结构示意图
Fig.6 The configuration of RNN
这里x代表输入,y代表输出,可以看到其关键之处在于当前网络的隐藏状态会保留先前的输入信息,共同作用产生当前网络的输出。循环神经网络通常使用随时间的反向传播算法(Back Propagation Through Time,BPTT)[54]来更新网络参数。
在循环神经网络中,有一种典型的结构叫做长短时记忆(Long short term memory,LSTM)[55],它通过在循环神经网络中引入三个门结构(输入门,遗忘门和输出门)来避免传统循环神经网络中梯度消失和梯度爆炸的问题。其中输入门决定让多少新的信息加入到记忆单元(cell)中来,遗忘门决定从记忆单元中丢弃信息的速度,输出门确定记忆单元对输出的影响。LSTM的结构示意图如图7所示。
图7 LSTM结构示意图
Fig.7 The configuration of LSTM memory block
假定输入的特征序列为x=(x1,...,xT),输出序列为y=(y1,...,yT),则LSTM的前向计算公式为:
it=σ(Wixxt+Wimmt-1+Wicct-1+bi)
ft=σ(Wfxxt+Wfmmt-1+Wfcct-1+bf)
ct=ft⊙ct-1+it⊙g(Wcxxt+Wcmmt-1+bc)
ot=σ(Wcxxt+Wommt-1+Wocct+bo)
mt=ot⊙h(ct)
(11)
式中,W为权重矩阵,b为偏差向量,⊙为点乘操作,g、h分别表示tanh激活函数。可以看出LSTM神经网络对时序信号的建模能力可以通过参数学习进行动态调整。
国内已有将传统特征与LSTM网络结合的相关研究[28,31,56]。其中,卢安安等人对比了不同的神经网络结构在MFCC特征上的识别效果,结果显示LSTM网络要优于常规的循环神经网络、卷积神经网络和全连接神经网络,且双向LSTM要比单向LSTM更有优势,说明了网络利用更多的时序信息往往会取得更好的效果[28]。另外有研究人员用 LSTM网络进行水上水下目标二分类尝试,得到了85%以上的分类正确率[56]。
深度神经网络训练过程中,一些超参数需要人为进行设定,并将在很大程度上影响模型的最终性能,具体包括:1)网络中隐含层的数量;2)每个隐含层的节点数量;3)学习率;4)激活函数形式(常用的激活函数有:sigmoid函数、ReLU函数、tanh函数等)等。一般来说,超参数的选取与训练样本的数量有一定关联性,但没有明确的理论可用于计算推导,通常需要通过一系列尝试和优化实验来确定。由于深度学习模型需要花费大量时间来完成训练过程,模型的收敛速度也是需要考虑的因素之一。为加快模型收敛速度,每个深度神经网络层尽量使用零均值的数据作为输入。在输入层,这一目标可以通过数据预处理方法实现;在隐含层,则可以使用具有零均值输出特点的激活函数保证下一层的输入具有零均值特性;在输出层,由于其输出为最终建模目标,可根据自身特点选取激活函数。
一个完整的数据集通常会被分成三个不同的集合:训练集,验证集和测试集。训练集和验证集所包含的数据均为训练数据,其中训练集直接参与模型参数的优化,验证集则在训练过程中用于评估模型效果,间接参与模型训练。设置验证集的目的是方便研究人员观察模型训练的情况,以便对训练策略进行及时调整,防止过拟合等现象的发生。当训练数据总量固定时,通常会随机抽取一部分作为验证集使用,原则上不超过训练数据总量的10%。测试集用于模型的最终性能评估,不能以任何形式参与模型的训练过程。
偏差和方差是评估模型训练情况的重要指标,偏差衡量模型预测值与实际值之间的偏离程度,方差则描述模型在训练集和验证集上的性能差异。如果偏差较高,说明模型未能很好学习训练数据特性,处于“欠拟合”状态,需要通过增加网络复杂度(更多的隐藏层或隐藏层节点数)或者增加训练时长等方式加强对数据的学习。如果偏差较低但方差较高,说明模型对训练数据过度依赖,在没有直接参与训练的验证集上性能较差,处于“过拟合”状态,需要采用更多数据或者使用正则化技术来提升模型的泛化性。常用的正则化方法包括:dropout正则,L1/L2正则,early stopping等[57]。
在模型结构的选取方面,由于水下目标识别任务中的音频信号具有时序特性,因此能够对时序信息建模的网络结构(如TDNN,LSTM等)通常要优于简单全连接神经网络。CNN具有学习局部特征的能力,因此适合作为特征提取器用于原始信号建模。对多种不同结构进行混合也是一种可行的策略,例如使用一至两层CNN对输入数据进行特征分析,再使用LSTM强化时序建模效果,但较为复杂的结构需要更多的数据样本进行支撑。即便如此,目前并未有定论给出数据预处理、特征提取、网络结构等因素和识别正确率的明确关系,各种参数的选择及预处理方式大多需要根据识别结果进行调整后确定。
在深度学习方法出现以前,传统分类器的建模能力相对有限,因而特征提取长期以来一直是水下目标被动识别的关键环节。特征提取的基本原则是在提升类间区分性的同时保有类内的一致性。传统特征提取方法主要依靠人类经验,根据不同目标的信号特点采用时频分析方法获得,典型特征如包含宽带连续谱分量或窄带线谱分量的LOFAR、DEMON谱等。尽管传统特征可以在一定程度上实现对特定类型目标的刻画与描述,但多数特征都难以避免通用性较差、易受环境变化影响等问题,因而通常需要对多种特征进行综合分析,以获取更加可靠的结果。
与传统分类器相比,深度神经网络具有更加优秀的建模能力,并能够通过对大量样本进行学习从而获取数据与目标间的隐含关联。尽管深度神经网络在特征的使用方面没有限制,但传统特征分析方法在抽取目标显著性特征的同时,通常也会带来较大的信息损失。因而,在样本充足的前提下,深度神经网络更加倾向于使用未经过较多信号处理的基本特征,甚至能够使用原始频谱或时域信号。本节将对引入深度学习方法后,水下目标被动识别中特征的使用情况进行介绍。
滤波器组(Filter Banks,FBank)特征通过使用一组滤波器来抽取信号的能量分布信息。FBank的基本提取流程如图8所示,首先对信号进行标准的时频变换,通过分帧、加窗和快速傅里叶变换获取信号的频谱信息。以此为基础,通过设计一组滤波器对频谱进行分割,从而统计出信号在不同频带上的能量分布情况。值得注意的是,滤波器组的尺度不一定需要是均匀的,可以根据待分析信号的特点进行设计。
图8 FBank特征提取框图
Fig.8 The block diagram of FBank feature extraction
考虑到语音识别和舰船噪声识别在机理上有一定的相似性,语音的特征分析方法也被用在舰船辐射噪声的特征分析上。研究表明,人的听觉对频率是有选择性的,只关注某些特定的频率分量。因此,可以设计滤波器组模拟人耳的工作机制,对不同的频率分量给予不同的关注权重。Mel频率刻度描述了人耳的听觉感知特性。在Mel频率刻度上,人对音调的感知度是线性的。从频域到梅尔域的变换方法见公式(12),其中f表示原始频率,Mel( f )表示Mel频率。
(12)
基于Mel频率设计的滤波器组称为Mel滤波器组,其在频域的分布示意图如图9所示。根据公式(12)可知,Mel滤波器组在低频区域分布比较密集,但在高频区域变得相对稀疏。采用Mel滤波器组获取的FBank特征又称作Mel-FBank特征。
图9 Mel刻度的三角滤波器组
Fig.9 Mel scale triangular filter banks
由于水下目标辐射噪声低频分量较高,与人耳对频率的关注特性有一定的相似之处,因此采用Mel-FBank特征或其他基于听觉感知的FBank特征进行水下目标识别受到研究者们的关注。吴姚振等提出一种基于声纳员感知的听觉滤波特征提取方法,同时结合人耳听觉指数律和听觉掩蔽效应,提出了感知非均匀谱压缩(Perceptual Non-Uniform Spectral Compress,PNUSC)方法和改进的感知非均匀谱压缩(Improved Perceptual Non-Uniform Spectral Compress,IPNUSC)方法[58]。李琛等人针对多通道阵列信号的目标识别问题,将波束形成后提取的FBank特征与多通道FBank级联特征进行对比[26]。由于深度神经网络能够对更高维度信息进行建模,因此多通道级联特征获得了比单通道特征更高的识别率。
在Mel-FBank特征的基础上进行离散余弦变换(DCT,Discrete cosine transform)可以得到梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征。DCT变换经常用于信号和图像数据的压缩,经过DCT变换后的数据能量都主要集中在直流和低频部分,DCT变换如公式(13)所示:
(13)
其中,m(i)为第i维Mel-FBank特征,N为特征维度,k为倒谱系数的维度。MFCC特征提取流程总结如图10所示。MFCC特征不仅是传统水下目标识别方法中的常用特征[59- 62],也被广泛应用于基于深度学习的水下目标被动识别系统中。目前已有相关研究尝试将MFCC特征和深度置信网络、卷积神经网络等结构相结合,提出水下目标分类新方法[40- 41]。
图10 MFCC特征提取流程图
Fig.10 The block diagram of MFCC feature extraction
小波变换是在傅里叶变换的基础上发展起来的一种时频分析方法。小波变换改变了傅里叶变换的三角函数基,采用有限长度会衰减的小波基。由于时间窗和频率窗都可以根据信号的具体形态动态调整,使得小波变换具有多分辨分析的能力。由舰船噪声的来源可知,舰船的辐射噪声频率主要是低频信号,并且不同类型舰船的辐射噪声在不同频段的能量分布也各有不同,小波分析可以对噪声信号进行不同频段的划分,从而提取了信号在不同频段的能量分布特征。
一个平方可积信号的小波变换定义为该信号在时、频域与小波基函数的内积,即:
WT(s(t);a,b)=Ws(a,b)=<s,Ya,b>=
(14)
式中,Y(t)称为小波母函数,其中a是与伸缩尺度相关的尺度因子,b是与时间相关的平移因子。当a越小,则窗口的宽度变小,时间分辨率提高;当a越大,则窗口的宽度变大,时间分辨率下降。因此通过调节尺度参数a的大小,可以实现在低频使用宽窗口,高频使用窄窗口,以达到自动调节分辨率来分析信号。
小波变换在水下目标被动识别方面的应用主要有两个方面,一方面,有些研究者将小波作为一个前端降噪模块[27,62],先对信号进行降噪处理再提取相应特征。另一方面,小波分析直接作为一种特征提取方式,利用小波多分辨率分析的特点,对目标辐射噪声的频谱和噪声谱进行多尺度特征提取及融合[63]。在此基础上,为了提高对信号高频部分的利用,利用小波包分解方法提取在时间和频率上具有较高分辨率的特征向量[33,64- 68]。在基于深度学习的方法中,目前尚未发现使用小波特征进行水下目标识别的相关文献,有待未来进一步研究。
希尔伯特 -黄变换(Hilbert-Huang Transform,HHT),是1998年由Norden E. Huang等人提出的一种信号分析方法,它不受傅里叶分析的限制,能够更加精确地表示出信号的时频局部变化。由于HHT在对信号整体分解的同时又可以很好的兼顾信号的局部性,因此利用希尔伯特-黄变换,可以提取船舶声信号的希尔伯特谱特征,被广泛应用于水下目标识别系统中[28,60,69-70]。
HHT中经验模态分解(Empirical Mode Decomposition,EMD)方法将信号表示为有限个固有模态函数(Intrinsic Mode Function, IMF)的和,具体步骤如下:
第1步:找到所有的局部极点,将局部极大值作为上包络,局部极小值作为下包络。
第2步:上下包络均值用m1表示,将输入数据X(t)与m1作差,记为h1,即:
X(t)-m1=h1
(15)
第3步:重复上面的筛选过程,直至第k次提取的信号h1,k满足IMF条件,即
h1(k-1)-m1k=h1k
(16)
第4步:将得到的周期较短的IMF分量从原始信号中分离出来
X(t)-c1=r1
(17)
第5步:将余量作为新的信号重复步骤1~4,结果记为
r1-c2=r2
⋮
rn-1-cn=rn
(18)
满足任何一个预设的判决标准(分解终止条件),上述分解过程终止,即分量cn或者余量rn幅度非常小,低于门限值,或者余量rn变为单调函数,分解不出更多的IMF,至此EMD分解结束。
经过EMD分解,信号表示成了多个IMF分量和余量之和。对每一个IMF分量做Hilbert变换,就可以得到其瞬时幅度和瞬时频率,将所有IMF的瞬时幅度和瞬时频率进行汇总,可以得到整个信号的时频分布,称为Hilbert谱,记作H(ω,t)。希尔伯特谱对时间进行积分,可以得到希尔伯特边际谱h(ω),
(19)
希尔伯特边际谱能反映信号在每一个频率上的幅值分布。利用HHT方法提取船舶的边际谱特征,是水下目标分类的一种常用特征。希尔伯特-黄变换在处理非线性、非平稳信号具有独特优势,已有研究者尝试将HHT特征与卷积神经网络结合进行了水下目标分类[28]。
基于信号的局部平稳特性,对信号进行连续时域采样,通过短时傅里叶变换得到时变功率谱在时、频域上的表示称为LOFAR分析。短时傅里叶变换是LOFAR分析的主要部分,短时傅里叶变换的基本思想是利用窗函数将信号分为很多小段,对每个小段求傅里叶变换,得到信号随时间变化的频谱。
具体的计算方法为:用移动的时间窗函数g(t-u)与信号f(t)相乘,实现在u附近的加窗和平移,然后进行傅里叶变换
(20)
进行LOFAR分析的具体方法是:
第1步:选取合适的帧长和帧移,将信号分为连续的K段。
第2步:对每段信号做归一化和去中心化处理。
第3步: 对每段信号做短时傅里叶变换。并按照时间排列在坐标系中,即可得到完整的LOFAR图[71],它反映了信号在时、频两个维度上的功率谱分布及变化情况。
基于LOFAR谱图的特征提取方式,主要有图像处理、神经网络和统计模型分析三种方法。在传统的目标分类系统中,海军航空工程学院、哈尔滨工程大学及中船重工的研究所等研究团队提出通过分频带统计分析的方法提取LOFAR谱图的特征向量[72-73]。中国科学院声学研究所通过图像滤波技术[68]或统计分析方法[74]从LOFAR图中提取目标的线谱特征。然而,由于传统的分类器建模能力有限,LOFAR谱特征往往需要经过降维操作后才能进行分析[32,71-73]。而深度神经网络具有对更高维度的特征进行学习的能力,因此能够更加充分利用LOFAR谱中包含的区分目标类别的原始信息。目前已有以LOFAR谱图作为输入,利用卷积神经网络进行分类的水下目标分类的相关尝试[52]。
对信号高频部分进行解调,并对解调后的低频信号做FFT处理,得到反映轴频和叶频信息的低频段信号特征是 DEMON分析的重要部分,由于DEMON谱包含了舰船噪声的一些固有物理特性,DEMON特征被广泛应用于水下目标被动识别任务中。将一个包含信号的信息搭载到另一个信号的过程称为调制,由调制后的信号再得到原来信号的过程称为解调,下面以双边带幅度调制和解调为例,来阐释DEMON分析的基本原理。
一双边带幅度调制信号可表示为:
x(t)=A(1+m sin wt)·cos(wCt)
(21)
其中A为信号幅值,m为调制度,wC为载波频率,w为调制频率,因为载波信号频率较高(w≪wC),不难看出,信号的包络与调制信号成正比。
解调是调制的逆过程。幅度解调的解调方法一般有相干解调和非相干解调,在DEMON分析中,载波信号是未知特征的噪声,相干解调是无法实现的,所以一般采用包络解调的方法,下面介绍一种包络解调的常用方法——平方解调。
将上式两侧取平方,并且整理可以得到:
x2(t)=A2(1+msin wt)2·cos2(wCt)=
A2cos2(wCt)+2mA2sin wt·cos2(wCt)+
m2A2sin2 wt·cos2(wCt)
(22)
对平方后的信号做去直流处理,并且用低通滤波器进行滤波可得到:
(23)
下面给出DEMON分析的具体方法:
第1步:对信号进行带通滤波,取出信号的高频部分。
第2步:对取出的高频信号进行平方检波,低通滤波,取出包络信号。
第3步:对取出的包络信号做FFT处理,并且进行归一化,得到信号的DEMON线谱[75]。
基于DEMON谱特征,可以对目标的螺旋桨特性如轴频、桨叶数等信息进行提取,通过不同类型目标的螺旋桨特性进行分类与识别。其中,有研究人员提出一种通过支持向量机对DEMON特征进行目标分类的方法[76]。另外,有研究人员通过设计判决规整来分析DEMON谱中的轴频和叶频,进而进行目标识别[77]。在基于深度学习的方法中,目前尚未发现使用DEMON谱特征进行水下目标识别的相关文献,有待未来进一步研究。
以上的各种基于信号时频分析的特征,大多数是通过人工设计的基本信号处理方法得到的。这些特征在抽取有效信息的同时,也舍弃了许多原始信息,使其没有得到充分利用。同时,这些特征往往受到信道、环境等多种因素的影响,很难保证高度的稳定性,进而可能会损害对目标识别的效果。针对上述问题,利用深度神经网络强大的分析能力,许多学者尝试用深度神经网络从数据中学习到更有利于特定分类任务的特征表示[40,42]。利用深度神经网络提取特征主要包括两种方式,第一,特征提取和分类识别作为两个独立的模块,其中一个深度神经网络模型被单独用于提取特征,并将提取的特征送给另一个深度神经网络模型进行分类识别,如图11所示。例如,研究人员尝试用一个深度信念网络提取特征,然后提供给另一个网络进行水下目标的分类识别,识别率相对传统MFCC特征由78.9%提升至86.7%[40]。第二,特征提取和分类识别是一个整体的模块,用一个级联的网络完成特征提取和分类识别。其中,由于音频信号具有较强的局部结构,研究人员尝试使用卷积神经网络作为特征抽取器,希望能最大程度的保留有用信息。通过将人工设计特征和直接输入时域波形进行对比,发现直接输入原始信号的时域波形取得88.69%的识别率,高于传统MFCC特征的83.16%[28]。实验验证了卷积神经网络在自动挖掘数据特征上的潜力,同时也说明了通过深度学习对原始信号进行特征提取是有效的,这种隐式的特征提取方式能够在某些任务上获得比基于信号分析的显式提取特征方式更好的效果。
图11 基于深度神经网络提取特征的两阶段分类方法
Fig.11 Two-stage target classification method using the features extracted by DNN
对于水下目标识别任务使用哪种特征能取得最好效果目前没有明确的答案,因为各研究者的实验基于不同的数据集,没有严格的对比性,但可以从各研究者的部分实验结果中总结出一些规律。如哈尔滨工程大学在分类实验中发现,当使用卷积神经网络作为分类器时,直接使用时域波形信号作为网络的输入能够比使用MFCC,HHT等时频变换特征有更好的识别效果[28]。同时,西北工业大学的研究人员发现使用频谱特征作为深度置信网络的输入能获得比时域波形作为卷积神经网络的输入获得更好的效果[29]。因此不能简单的得出这些特征或者这些网络结构之间的优劣,不同的特征有着信号不同区域的表征能力,在不同特点的数据上不会得出统一的结论。但是一般而言,当数据样本体量较大时,其可以支撑更大建模空间的学习,也就倾向于使用相对基础的特征和较为复杂的网络结构;反之当数据样本体量较小时,则使用相对显著的特征和较为简单的模型以便给出稳定的预测结果,或者采用参数预训练或迁移学习等方法降低模型的学习难度。
要想利用深度学习方法实现物理对象的建模,首先必须要有充足的标注数据,数据匮乏则会使建模效果受到严重影响。然而在实际的应用场景中,很难针对每一种水下目标收集到足量的数据,因此当收集到的数据量不足以支撑深度神经网络的训练需求时,如何利用少量数据实现目标识别是当前研究所面临的难题。根据在其他领域取得的一些经验,这里提供两种不同的思路,供研究者们参考。第一种思路是采用迁移学习方法,在已有知识的基础上进行进一步优化;第二种思路是采用数据增广方法,尝试通过数据扩增的方式,产生新的数据用于模型训练。
迁移学习的基本动机是将一个领域的知识应用到另一个不同但是相关的领域中去。这里将提供知识的领域称作源域,应用知识的领域称作目标域。一般而言,源域具有相对充足的数据储备,易于实现模型的充分学习;而目标域仅有少量的数据,难以直接构建良好的深度学习模型。通过迁移学习策略,可以将已经学到的源域模型参数通过某种方式来分享给目标域模型,从而改善目标域模型的建模效果并提升学习效率。原则上讲,源域与目标域相关性越高,迁移学习的效果也越好。比较典型的源域与目标域的选取方法如通用领域与特定领域、具有不同信道条件的两个领域等。
迁移学习可以分为两个阶段,第一阶段是构建源域模型,第二阶段是将源域模型向目标域进行迁移。迁移学习具有多种实现途径,这里以经典的预训练/微调(pre-train/fine-tune)方法为例进行展示。与大多数迁移学习方法类似,预训练/微调方法可以分为两个阶段。第一阶段采用大量的源域数据训练源域模型,这一过程与常规模型训练并无差异。第二阶段采用少量的目标数据在已经训练好的源域模型上进行参数微调,相比于常规模型训练,微调过程使用更小的学习率和更少的迭代次数,一些情况下还会固定部分网络参数,从而更好的保持从源域获得的知识。对微调过程的约束程度通常与目标域的样本数量相关,可用的目标域样本越多,微调过程可以越接近于正常的模型训练;反之,则需要对微调过程的建模空间进行限制,减小模型在目标域出现过拟合现象的可能性。如图12展示了一个典型的预训练/微调过程,其中虚线部分的参数在微调过程中处于固定状态,仅输出层参数进行更新。
图12 预训练/微调示意图
Fig.12 The configuration of pre-train/fine-tune
应对数据样本不足的另一种思路就是更为直接的数据增广,即试图利用现有的少量数据样本获得更多的数据样本。较为传统的策略如数据扰动、数据加噪等方法已在多个领域得到广泛应用,但其数据变化形式仍受到较大约束,难以产生更加多样化的数据样本。随着对抗生成网络(Generative Adversarial Network, GAN)的提出[78],一种新的数据增广形式开始受到研究者们的重视,目前在语音识别、图像识别等领域已取得一定效果。这种深度神经网络能够学习原有数据的分布形式,进而产生与原有样本分布类似的样本数据。水下目标识别任务可以尝试采用相关思路进行探索,下面以最简单的对抗生成网络结构为例进行介绍。
对抗生成网络是一种概率生成模型,概率生成模型的目标是找出给定观测数据内部的统计规律,并且能够基于所得到的概率分布模型,产生与观测数据类似的全新数据。
对抗生成网络由一个生成器G和一个判别器D组成,如图13所示。生成器G的输入为白噪声,输出为生成数据;判别器D的输入为生成数据或真实数据,输出为数据真假的判别。在训练过程中,生成器G的训练目标是使生成的数据尽可能的“像”真实的数据,而判别器D的训练目标是尽可能的区分出真实数据和生成数据。训练的损失函数如公式(24)所示,其中P(x)为真实数据分布。在迭代的过程中,G的生成能力和D的判别能力互相提升。模型训练完成后,期望判别器D无法区分出真实数据与生成数据,此时可以认为生成数据具有与真实数据相类似的分布。生成器G随后可根据需求生成任意数量的数据并用于学习相关的任务中,从而实现数据增广的目标。
Ex~P(x)[log(1-D(G(x)))]
(24)
图13 对抗生成网络结构示意图
Fig.13 The configuration of GAN
需要注意的是,尽管对抗生成网络可以生成形式更加丰富的数据,但其仍然是对已有样本所描述数据空间的补充与完善,没有提供额外的信息。因此,生成数据通常无法达到等量真实数据的贡献,所能提供的性能改善也存在瓶颈。
尽管深度学习方法在水下目标被动识别领域已展现出巨大潜力,但仍有诸多方面尚未形成系统性结论,未来需要进一步探索的方向包括但不限于以下几个方面:
(1)特征选择问题:深度学习的引入在一定程度上降低了特征提取环节的重要性,一些未经过较多信号处理的基本特征比以往更加受到研究者们的青睐,但在现有条件下通过学习完全取代人工特征在短期内是难以实现的。如何根据目标特点与学习方式,选择合适的特征提取方法,仍然是下一步需要关注的方向。
(2)数据匮乏问题:典型的深度学习方法一般需要充足的数据样本进行模型训练,但水声目标数据收集的代价高昂且现有积累相当薄弱,因此在相当长的一段时期之内,大多数目标将处于数据匮乏的状态。迁移学习技术与数据增广技术以两种不同的方式改善数据匮乏条件下的学习效果,有望成为突破技术瓶颈的重要方向。
(3)环境失配问题:海洋环境的复杂多变会导致训练数据的采集条件与实际应用条件具有很大差异,数据的不匹配程度将直接关联深度学习模型的应用效果。迁移学习等手段可以在一定程度上缓解数据不匹配带来的负面影响,有望为技术的实用化做出贡献。
(4)多目标问题:在实际应用场景中往往同时存在多个目标,尽管波束形成方法可以对特定方向的信号进行强化,但同时也会造成水听器阵列信号中信息的大量损失。如何对水听器阵列信号中包含的丰富信息进行有效学习,同时尽可能降低非关注目标带来的干扰,是未来值得研究的方向。
随着深度学习方法近年来在多个技术领域取得巨大成功,尝试将其应用于水下目标被动识别领域是当前研究者们关注的热点之一。本文首先介绍了几种常用的深度神经网络结构,并对其在水下目标被动识别领域的应用情况进行了总结。鉴于深度神经网络具有良好的特征学习能力,本文随后以特征为线索进行梳理,以反映深度学习方法的引入在特征选择和使用方面产生的影响。最后,为应对数据匮乏带来的挑战,本文还介绍了迁移学习和数据增广两种不同的应对策略。综合来看,尽管深度学习方法在水下目标被动识别领域已展现出巨大潜力,但仍有诸多方面尚未形成系统性结论。希望本文能够抛砖引玉,为广大研究和技术人员进一步深入探索提供参考。
[1] 刘伯胜, 雷家煜. 水声学原理[M]. 哈尔滨: 哈尔滨工程大学出版社, 2010.
Liu Bosheng, Lei Jiayu. Principle of underwater acoustics[M]. Harbin: Harbin Engineering University Press, 2010.(in Chinese)
[2] Solomon I S D, Knight A J. Array processing of underwater acoustic sensors using weighted Fourier integral method[C]∥IEEE Workshop on Statistical Signal & Array Processing. IEEE, 2000.
[3] Carter G C. Passive Sonar Signal Processing[M]. Underwater Acoustics and Signal Processing, 1981.
[4] 聂星阳, 王珂, 丁振平. 近海水下目标多水听器阵列协同定位[J]. 指挥信息系统与技术, 2016, 7(4): 82- 86.
Nie Xingyang, Wang Ke, Ding Zhenping. Cooperative location of offshore underwater target with multiple hydrophone arrays[J]. Command Information System and Technology, 2016, 7(4): 82- 86.(in Chinese)
[5] George P C, Paulraj A. Optimising the active sonar system design[J]. Defence Science Journal, 1985, 35(3): 295-311.
[6] Carter G C. Passive Sonar Signal Processing[M]. Underwater Acoustics and Signal Processing, 1981.
[7] Chen C H. Pattern recognition applications in underwater acoustics[J]. Journal of the Acoustical Society of America, 1984, 75(S1): S75-S75.
[8] Sutter P M, Ricker P M. A first estimate of radio halo statistics from large-scale cosmological simulation[J]. Astrophysical Journal, 2011, 759(2): 1445-1449.
[9] 陶笃纯. 舰船噪声节奏的研究(Ⅰ)——数学模型及功率谱密度[J]. 声学学报, 1983(2): 65-76.
Tao Duchun. A study on ship radiated noise rhythms(Ⅰ)——mathematical model and power spectrum densidy[J]. Acta Acustica, 1983(2): 65-76.(in Chinese)
[10] 程玉胜, 李智忠, 邱家兴. 水声目标识别[M]. 北京: 科学出版社, 2018. 11.
Cheng Yusheng, Li Zhizhong, Qiu Jiaxing. Underwater acoustic target recognition[M]. Beijing: Science Press, 2018. 11.(in Chinese)
[11] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507.
[12] Hinton G, Deng L, Yu D, et al. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups[J]. IEEE Signal Proc.Mag., 2012, 29(6): 82-97.
[13] Deng L, Li J, Huang J T, et al. Recent advances in deep learning for speech research at microsoft[J]. Proc.IEEE Int.Conf.Acoust., Speech, Signal Process., 2013: 8604- 8608.
[14] Krizhevsky A, Sutskever I, Hinton G. ImageNet Classification with Deep Convolutional Neural Networks[J]. Advances in Neural Information Processing Systems, 2012, 25(2): 1097-1105.
[15] Silver D, Huang A, Maddison C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484- 489.
[16] Goldberg Y. A Primer on Neural Network Models for Natural Language Processing[J]. Journal of Artificial Intelligence Research, 2016, 57: 345- 420.
[17] Chen C, Seff A, Kornhauser A, et al. Deep driving: Learning affordance for direct perception in autonomous driving[J]. in Proceedings of the IEEE International Conference on Computer Vision, 2015: 2722-2730.
[18] Devlin J, Zbib R, Huang Z Q, et al. Fast and Robust Neural Network Joint Models for Statistical Machine Translation[C]∥Meeting of the Association for Computational Linguistics, 2014: 1370-1380.
[19] Xu Y, Du J, Dai L R, et al. A Regression Approach to Speech Enhancement Based on Deep Neural Networks[J]. IEEE/ACM Trans. on Audio, Speech, Lang. Process., 2015: 23(1): 7-19.
[20] 刘斌, 陶建华. 联合长短时记忆递归神经网络和非负矩阵分解的语音混响消除方法[J]. 信号处理, 2017, 33(3): 268-272.
Liu Bin, Tao Jianhua. A research to speech reverberation method based on BLSTM recurrent neural networks and non-negative matrix factorization [J]. Journal of Signal Processing, 2017, 33(3): 268-272.(in Chinese)
[21] Huang Z, Xu J, Gong Z, et al. Source localization using deep neural networks in a shallow water environment[J]. J.Acoust.Soc.Am, 2018, 143(5): 2922-2932.
[22] Jin L, Liang H. Deep learning for underwater image recognition in small sample size situations[C]∥OCEANS 2017-Aberdeen. IEEE, 2017: 1- 4.
[23] Wang Y, Zhang J, Cao Y, et al. A deep CNN method for underwater image enhancement[C]∥2017 IEEE International Conference on Image Processing (ICIP). IEEE, 2017: 1382-1386.
[24] Niu H, Reeves E, Gerstoft P. Source localization in an ocean waveguide using supervised machine learning[J]. The Journal of the Acoustical Society of America, 2017, 142(3): 1176-1188.
[25] Emami P, Pardalos P M, Elefteriadou L, et al. Machine learning methods for solving assignment problems in multi-target tracking[J]. arXiv preprint arXiv: 1802. 06897, 2018.
[26] Li Chen, Huang Zhaoqiong, Xu Ji, et al. Underwater target classification using deep learning[C]∥OCEANS 2018-Charleston. IEEE, 2018.
[27] 赵增科. 基于深度学习的水下目标识别[D]. 哈尔滨: 哈尔滨工程大学, 2017.
Zhao Zengke. Underwater Target Recognition Based on Deep Learning[D]. Harbin: Harbin Engineering University, 2017.(in Chinese)
[28] 卢安安. 基于深度学习方法的水下声音目标识别研究[D]. 哈尔滨: 哈尔滨工程大学, 2017.
Lu Anan. Underwater Acoustic Classification Based on Deep Learning[D]. Harbin: Harbin Engineering University, 2017.(in Chinese)
[29] 王强, 曾向阳. 深度学习方法及其在水下目标识别中的应用[J]. 声学技术, 2015, 34(2): 138-140.
Wang Qiang, Zeng Xiangyang. Deep learning methods and their applications in underwater targets recognition[J]. Technical Acoustics, 2015, 34(2): 138-140.(in Chinese)
[30] 陆晨翔, 王璐, 曾向阳. 水下目标信号的结构化稀疏特征提取方法[J]. 哈尔滨工程大学学报, 2018, 39(8): 1278-1282.
Lu Chenxiang, Wang Lu, Zeng Xiangyang. A structured sparse feature extraction method of acoustic signal emitted from underwater target[J]. Journal of Harbin Engineering University, 2018, 39(8): 1278-1282.(in Chinese)
[31] 曾赛, 程锦盛. 基于异构多模态深度学习方法在水下目标识别中的应用[C]∥中国声学学会, 2018: 2.
Zeng Sai, Cheng Jinsheng. Application of Heterogeneous Multimodal Deep Learning Method in Underwater Target Recognition[C]∥Chinese Acoustic Society, 2018: 2.(in Chinese)
[32] De Moura N N, De Seixas J M, Ramos R. Passive sonar signal detection and classification based on independent component analysis[M]. Sonar Systems. IntechOpen, 2011.
[33] Azimi-Sadjadi M R, Yao D, Huang Q, et al. Underwater target classification using wavelet packets and neural networks[J]. IEEE Transactions on Neural Networks, 2000, 11(3): 784-794.
[34] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527-1554.
[35] Hinton G. A practical guide to training restricted boltzmann machines[J]. Momentum, 2010, 9(1): 926-947.
[36] Hecht-Nielsen. Theory of the backpropagation neural network[C]∥International Joint Conference on Neural Networks IEEE, 2002: 593- 605 vol.1.
[37] Deb K, Pratap A, Agarwal S, et al. A fast and elitist multiobjective genetic algorithm: NSGA-II[J]. IEEE Transactions on Evolutionary Computation, 2002, 6(2): 182-197.
[38] Whitley D. A genetic algorithm tutorial[J]. Statistics and Computing, 1994, 4(2): 65- 85.
[39] Yue H, Zhang L, Wang D, et al. The classification of underwater acoustic targets based on deep learning methods[C]∥2017 2nd International Conference on Control, Automation and Artificial Intelligence (CAAI2017). Atlantis Press, 2017.
[40] Yang H, Shen S, Yao X, et al. Competitive deep-belief networks for underwater acoustic target recognition[J]. Sensors, 2018, 18(4): 952.
[41] 程锦盛, 杜选民, 曾赛. 采用深度学习方法的水下目标听觉特征提取与识别技术研究[C]∥中国声学学会. 2018年全国声学大会论文集, 2018: 2.
Cheng Jinsheng, Du Xuanmin, Zeng Sai. Research on Audio Feature Extraction and Recognition of Underwater Targets Using Deep Learning Method[C]∥Chinese Acoustic Society. Proceedings of the National Acoustics Conference in 2018, 2018: 2.(in Chinese)
[42] Hu G, Wang K, Peng Y, et al. Deep learning methods for underwater target feature extraction and recognition[J]. Computational Intelligence and Neuroscience, 2018.
[43] Svozil D, Kvasnicka V, Pospichal J. Introduction to multi-layer feed-forward neural networks[J]. Chemometrics and Intelligent Laboratory Systems, 1997, 39(1): 43- 62.
[44] Glorot, Xavier, et al. Deep Sparse Rectifier Neural Networks[C]∥International Conference on Artificial Intelligence and Statistics, 2011: 315-323.
[45] Ward M K, Stevenson M. Sonar signal detection and classification using artificial neural networks[C]∥Canadian Conference on Electrical & Computer Engineering Conference Navigating to A New Era. IEEE, 2002.
[46] Ramji S, Latha G, Ramakrishnan S. Estimation and interpolation of underwater low frequency ambient noise spectrum using artificial neural networks[J]. Applied Acoustics, 2009, 70(8): 1111-1115.
[47] Geetha lakshmi S, Subashini P, Ramya S. A study on detection and classification of underwater mines using neural networks[J]. Int.J.Soft Comput.Eng.IJSCE, 2006, 1(5): 150-157.
[48] Kang C, Zhang X, Zhang A, et al. Underwater acoustic targets classification using welch spectrum estimation and neural networks[C]∥International Symposium on Neural Networks.Springer, Berlin, Heidelberg, 2004: 930-935.
[49] Baran R H, Coughlin J P. A neural network for target classification using passive sonar[C]∥Proceedings of the Conference on Analysis of Neural Network Applications. ACM, 1991: 188-198.
[50] Waibel A, Hanazawa T, Hinton G, et al. Phoneme recognition using time-delay neural networks[J]. Backpropagation: Theory, Architectures and Applications, 1995: 35- 61.
[51] Lawrence S, Giles C L, Tsoi A C, et al. Face recognition: A convolutional neural-network approach[J]. IEEE Transactions on Neural Networks, 1997, 8(1): 98-113.
[52] 郎泽宇. 基于卷积神经网络的水下目标特征提取方法研究[D]. 哈尔滨: 哈尔滨工程大学, 2017.
Lang Zeyu. Research on underwater target feature extraction based on convolutional neural network[D]. Harbin: Harbin Engineering University, 2017.(in Chinese)
[53] 王念滨, 何鸣, 王红滨, 等. 适用于水下目标识别的快速降维卷积模型[J/OL]. 哈尔滨工程大学学报: 1- 6[2019- 05- 05].
Wang Nianbin, He Ming, Wang Hongbin, et al. Fast dimensionality reduction convolution model for underwater target recognition[J/OL]. Journal of Harbin Engineering University: 1- 6[2019- 05- 05].(in Chinese)
[54] Werbos P J. Backpropagation through time: what it does and how to do it[J]. Proceedings of the IEEE, 1990, 78(10): 1550-1560.
[55] Hochreiter S, Schmidhuber J. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[56] 张少康, 田德艳. 水下声目标的梅尔倒谱系数智能分类方法[J/OL]. 应用声学, 2019(2): 267-272.
Zhang Shaokang, Tian Deyan. Intelligent classification method of Mel frequency cepstrum coefficient for underwater acoustic targets[J/OL]. Journal of Applied Acoustics, 2019(2): 267-272.(in Chinese)
[57] Minar M R, Naher J. Recent Advances in Deep Learning: An Overview[J]. 2018.URL https:∥arxiv.org/abs/1807.08169.
[58] 吴姚振. 水下目标辐射噪声生理感知特征的提取方法研究[D]. 西安: 西北工业大学, 2015.
Wu Yaozhen. Studies on Physiological Perception Feature Extraction Methods in Underwater Target-Radiated Noise[D]. Xi’an: Northwestern Polytechnical University, 2015.(in Chinese)
[59] 张洋. 改进的MFCC在舰船噪声特征提取中的应用[C]∥2012中国西部声学学术交流会论文集(Ⅱ), 2012: 4.
Zhang Yang. Application of improved MFCC in ship noise feature extraction[C]∥Proceedings of the 2012 Western China Acoustics Academic Exchange Conference(Ⅱ), 2012: 4.(in Chinese)
[60] 李新欣. 船舶及鲸类声信号特征提取和分类识别研究[D]. 哈尔滨: 哈尔滨工程大学, 2012.
Li Xinxin. Research on Feature Extraction and Classification of Ship Noise and Whale Sound[D]. Harbin: Harbin Engineering University, 2012.(in Chinese)
[61] 吴姚振. 改进的MFCC和Delta水下被动目标识别方法[C]∥中国声学学会, 2010: 2.
Wu Yaozhen. Improved MFCC and Delta underwater passive target recognition method[C]∥Chinese Acoustic Society, 2012.(in Chinese)
[62] 石超雄, 李钢虎, 何会会, 等. 基于提升小波变换的MFCC在目标识别中的应用[J]. 声学技术, 2014(4): 372-375.
Shi Chaoxiong, Li Ganghu, He Huihui, et al. Application of MFCC Based on Lifting Wavelet Transform in Target Recognition[J]. Technical Acoustics, 2014(4): 372-375.(in Chinese)
[63] 史广智, 胡均川, 程玉胜. 基于多分辨率分析的舰船辐射噪声频域特征提取[J]. 青岛大学学报, 2003, 16(4): 44- 48.
Shi Guangzhi, Hu Junchuan, Cheng Yusheng. Feature extraction on frequency-domain of ships radiated-noise based on multiresolution analysis[J]. Journal of Qingdao University, 2003, 16(4): 44- 48.(in Chinese)
[64] 马艳, 李志舜. 基于正交小波包的水下宽带回波特征提取及识别[J]. 西北工业大学学报, 2003, 21(1): 54-57.
Ma Yan, Li Zhishun. On improving feature extraction and identification of underwater wideband echo with orthogonal wavelet packet[J]. Journal of Northwestern Polytechnical University, 2003, 21(1): 54-57.(in Chinese)
[65] 周阿娟, 郭相科, 谢瑶. 基于小波包分解的声目标识别[J]. 空军工程大学学报: 自然科学版, 2007, 8(6): 40- 43.
Zhou Ajuan, Guo Xiangke, Xie Yao. Acoustic target recognition based on wavelet packet decomposition[J]. Journal of Air Force Engineering University: Natural Science Edition, 2007, 8(6): 40- 43.(in Chinese)
[66] 魏鑫, 李钢虎, 王志强. 基于小波包与PCA方法对水下目标识别研究[J]. 计算机仿真, 2011, 28(8): 8-11.
Wei Xin, Li Ganghu, Wang Zhiqiang. Underwater Target Recognition Based on Wavelet Packet and PCA Method[J]. Computer Simulation, 2011, 28(8): 8-11.(in Chinese)
[67] 朱进, 章新华. 被动声呐目标识别技术的现状与展望[J]. 舰船科学技术, 2003, 25(5): 55-56.
Zhu Jin, Zhang Xinhua. Current Status and Prospects of Passive Sonar Target Recognition Technology[J]. Ship Science and Technology, 2003, 25(5): 55-56.(in Chinese)
[68] Chin-Hsing C, Jiann-Der L, Ming-Chi L. Classification of underwater signals using wavelet transforms and neural networks[J]. Mathematical and Computer Modelling, 1998, 27(2): 47- 60.
[69] 迟慧广. 希尔伯特-黄变换在水雷目标特征提取中的应用[D]. 哈尔滨: 哈尔滨工程大学硕士论文, 2007: 12- 47.
Chi Huiguang. Application of Hilbert-Huang Transform in Feature Extraction of Mine Targets[D]. Harbin: Harbin Engineering University Master Thesis, 2007: 12- 47.(in Chinese)
[70] 李秀坤, 谢磊, 秦宇. 应用希尔伯特黄变换的水下目标特征提取[J]. 哈尔滨工程大学学报, 2009, 30(5): 542-546.
Li Xiukun, Xie Lei, Qin Yu. Underwater target feature extraction using Hilbert Huang transform[J]. Journal of Harbin Engineering University, 2009, 30(5): 542-546.(in Chinese)
[71] 宋振宇, 丁勇鹏, 赵秀丽, 等. 基于LOFAR谱图的水下目标识别方法[J]. 海军航空工程学院学报, 2011, 26(3): 283-286.
Song Zhenyu, Ding Yongpeng, Zhao Xiuli, et al. Underwater target recognition method based on LOFAR spectrum[J]. Journal of Naval Aeronautical and Astronautical University, 2011, 26(3): 283-286.(in Chinese)
[72] 薛鹏. 基于主成分分析的神经网络水下目标识别研究[D]. 沈阳: 东北大学, 2014.
Xue Peng. Research on underwater target recognition based on principal component analysis and neural network[D]. Shengyang: Northeastern University, 2014.(in Chinese)
[73] Moura N N D, José Manoel de Seixas. Novelty detection in passive SONAR systems using support vector machines[C]∥Computational Intelligence. IEEE, 2016.(in Chinese)
[74] 李山, 王德俊, 王海斌. 一种基于线谱特征函数提取LOFAR图线谱的方法[J]. 声学技术, 2016, 35(4): 373-377.
Li Shan, Wang Dejun, Wang Haibin. An approach to lofargram spectrum line detection based on the spectrum line feature function[J]. Technical Acoustics, 2016, 35(4): 373-377.(in Chinese)
[75] 朱世才. 目标通过特性的LOFAR及DEMON分析[D]. 哈尔滨: 哈尔滨工程大学, 2011.
Zhu Shicai. The LOFAR and DEMON analysis of target through characteristics[D]. Harbin: Harbin Engineering University, 2011.(in Chinese)
[76] 戴卫国, 程玉胜, 王易川. 支持向量机对舰船噪声DEMON谱的分类识别[J]. 应用声学, 2010, 29(3): 206-211.
Dai Weiguo, Cheng Yusheng, Wang Yichuan. Classification of the DEMON Spectra of Ship-radiated noise based on Support Vector Machine[J]. Applied Acoustics, 2010, 29(3): 206-211.(in Chinese)
[77] 白敬贤, 高天德, 夏润鹏. 基于DEMON谱信息提取算法的目标识别方法研究[J]. 声学技术, 2017, 36(1): 88-92.
Bai Jingxian, Gao Tiande, Xia Runpeng. Target recognition based on the information extraction algorithm of DEMON spectrum[J]. Technical Acoustics, 2017, 36(1): 88-92.(in Chinese)
[78] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]∥Advances in Neural Information Processing Systems, 2014: 2672-2680.
Reference format: Xu Ji, Huang Zhaoqiong, Li Chen, et al. Advances in Underwater Target Passive Recognition Using Deep Learning[J]. Journal of Signal Processing, 2019, 35(9): 1460-1475. DOI: 10.16798/j.issn.1003- 0530.2019.09.003.
徐 及 男, 1986年生, 北京人。中国科学院声学研究所研究员, 博士。主要研究方向为机器学习、语音识别、水声信号处理。
E-mail: xuji@hccl.ioa.ac.cn
黄兆琼 女, 1993年生, 福建南平人。中国科学院声学研究所博士生。主要研究方向为水声信号处理、声源定位、机器学习。
E-mail: huangzhaoqiong@hccl.ioa.ac.cn
李 琛 男, 1995年生, 湖北仙桃人。中国科学院声学研究所博士生。主要研究方向为水声信号处理、目标识别、机器学习。
E-mail: lichen@hccl.ioa.ac.cn
颜永红 男, 1967年生, 江苏人。中国科学院声学研究研究员。主要研究方向为语音信号处理、语音识别、面向声学应用的大数据分析。
E-mail: yanyonghong@hccl.ioa.ac.cn