TVBN-ResNeXt:解决动作视频分类的端到端时空双流融合网络

胡正平1,2 张瑞雪1 张 璇1 李淑芳1 赵梦瑶1

(1. 燕山大学信息科学与工程学院, 河北秦皇岛 066004; 2. 燕山大学河北省信息传输与信号处理重点实验室, 河北秦皇岛 066004)

摘 要: 针对如何利用视频中空域C3D与光流2D网络的互补性、光流高效计算与存储问题,提出基于端到端时空双流卷积网络融合的动作视频分类算法(TV BN-Inception network and ResNeXt-101 TVBN-ResNeXt),可融合C3D与自学习端到端光流卷积网络的优点。针对空间流,首先基于C3D 的ResNeXt-101残差网络进行空域视频分类;然后另一支路使用端到端时间流网络,由TVnet网络实时进行光流学习,其次针对堆叠光流特征数据利用BN-Inception网络进行视频分类;最后将双流支路的视频分类结果进行加权融合形成最后判决。在UCF-101和HMDB-51数据集上的实验分别达到94.6%和70.4%的准确率。结果表明,本文提出的TVBN-ResNeXt双流互补网络融合方法不但可解决光流自学习问题,提高网络的运行效率,还可有效提高视频分类的性能。

关键词:视频分类;三维卷积神经网络;时空模型;光流网络

中图分类号:TP391.4

文献标识码:A

DOI:10.16798/j.issn.1003- 0530.2020.01.008

引用格式: 胡正平, 张瑞雪, 张璇, 等. TVBN-ResNeXt:解决动作视频分类的端到端时空双流融合网络[J]. 信号处理, 2020, 36(1): 58- 66. DOI: 10.16798/j.issn.1003- 0530.2020.01.008.

Reference format: Hu Zhengping, Zhang Ruixue, Zhang Xuan, et al. TVBN-ResNeXt: End-to-End Fusion of Space-Time Two-Stream Convolution Network for Video Classification[J]. Journal of Signal Processing, 2020, 36(1): 58- 66. DOI: 10.16798/j.issn.1003- 0530.2020.01.008.

文章编号: 1003-0530(2020)01-0058-09

收稿日期:2019-06-19;修回日期:2019-10-16

基金项目:国家自然科学基金面上项目(61771420);河北省自然科学基金(F2016203422)资助

TVBN-ResNeXt: End-to-End Fusion of Space-Time Two-Stream Convolution Network for Video Classification

Hu Zhengping1,2 Zhang Ruixue1 Zhang Xuan1 Li Shufang1 Zhao Mengyao1

(1. School of Information and Engineering &Yanshan University, Qinhuangdao, Hebei 066004, China; 2. Hebei Key Laboratory of Information Transmission and Signal Processing, Qinhuangdao, Hebei 066004, China)

Abstract: In order to make good use of complementary between C3D and optical flow 2D network and reduce computing load of optical flow. This paper proposes a video classification algorithm for end-to-end fusion spatiotemporal two-stream convolutional network, which can combine the advantages of C3D and self-learning end-to-end optical convolution network. For spatial streams, C3D-based ResNeXt-101 networks are used for video classification. The other branch uses an end-to-end time stream network, and the optical flow learning is performed by the TVnet network in real time, then the BN-Inception network is used for video classification for the stacked optical flow data. Finally, the video classification results of the time stream and the spatial stream are weighted and combined to form a final decision. The experiment is performed on the UCF-101 and HMDB-51 datasets, and obtains 94.6% and 70.4% accuracy, respectively. The experimental results show that the two-stream network method proposed in this paper can not only solve the problem of optical flow self-learning, improve the operation efficiency of the network, but also effectively improve the video classification performance.

Key words video classification; 3D convolutional neural network; space-time model; optical flow network

1 引言

视频分类在视频理解领域有着广泛地应用前景,与静止的对象不同,视频中动作的特征由运动控制并随时间变化,同一类别的视频之间可能存在较大的差异,而不同类别的视频之间可能存在较大相似性。视频中包含丰富的空域信息和时域信息,如何充分有效地提取视频的时空特征仍是视频理解中的关键技术,同时也是视频理解的难点。

近年来,针对视频活动中人类行为理解方面取得不小研究进展。改进的密集轨迹IDT(Improved Dense Trajectories)[1],在基于手工特征的视频分类领域效果最好,但该方法计算量巨大。2D CNN[2]运行效率通常比IDT快几个数量级,但是难以捕捉视频帧间运动信息,为此研究者提出双流网络解决该问题。例如Simonyan等[3]构建双流CNN模型用于视频分类,首先使用传统的光流估计方法对光流进行预计算,分别以单帧RGB图像和堆叠光流图作为空域网络和时域网络的输入,提取视频的表观和运动信息,最后使用SVM模型进行判分类,该思路表明时间运动信息对于视频分类具有重要影响,不足在于光流需要进行预计算。从特征融合角度,Cheron等人[4]提出使用根据人体姿势的关节点分割的单帧RGB图像和光流图像分别作为两个CNN模型的输入进行特征提取,并使用特征融合策略形成固定维度特征向量。从计算层融合角度出发,文献[5]提出在卷积层融合时空特征的方法,以便更好的利用时空信息。从稀疏采用角度出发,Wang[6]等人提出TSN(Temporal segment networks),采用稀疏采样的策略分解整个视频数据,并提出两种新的输入模式:RGB difference和warped optical flow fields,具有计算量比较小的优点。从多信息融合角度,文献[7]利用三个独立的CNN模型,分别在静态帧、堆叠光流图像和音频谱图上提取空间、时间和音频特征,使用特征融合网络融合三种特征。上述时间流网络均为2D网络,Carreira等人[8]提出I3D,将双流网络中的2D网络扩展为3D,利用成功的ImageNet架构并在Kinetics数据集上进行预训练。但以上方法依赖于传统的光流算法预先计算并存储光流信息,这种两阶段方法计算成本和存储要求高,光流提取的时间较长导致运行速度慢,且非端到端可训练模型。

针对如何高效计算视频运动信息,文献[9]提出光流的端到端学习Flownet,因为目前已知的具有光流真值的数据库规模较小,即使利用数据增强技术也相差甚远,所以将网络在合成数据上训练,首次证明光流估计可以作为学习问题,但是合成数据表示真实数据复杂性的能力有限,对于其他数据集不具有普适性。为解决无光流真值的训练问题,文献[10]提出ActionFlowNet,使用传统方法计算的光流作为监督来训练预测光流网络,然而通过这种方法计算的光流受到传统光流估计的准确性的影响,限制其在动作识别方面的潜力。从无监督学习角度出发,文献[11]通过视频的视觉跟踪中patch的视觉相似性训练无监督网络,获得视频表示特征信息;Fernando等人[12]提出O3N(Odd-One-Out)网络,通过无监督的视频表示学习,对奇数视频子序列进行采样,使得它具有置乱的帧时间顺序,而偶数视频子序列具有正确的时间顺序,通过偶数视频子序列学习模型来预测奇数视频子序列,提高模型的泛化性。利用视频运动轨迹,文献[13]通过预测视频中像素的密集轨迹,建立条件变分自动编码器(conditional variational autoencoder),推断可能的轨迹分布来学习外观特征进行视频分类。

视频分类可以从双流网络的角度解决,因为传统的光流估计方法计算量大且需要存储光流信息,导致双流网络运行效率低,所以研究者尝试使用网络代替传统光流的计算,可是目前没有大规模的光流数据库难以训练网络,获得的光流信息效果不理想。为解决上述问题,本文将TV-L1算法转换为TVnet网络实时预测光流[14],并基于实际数据对TVnet进行无监督训练,使光流网络更具有普适性,解决了传统光流方法预计算和中间存储问题的同时降低光流网络的训练难度。空间流网络使用改进残差网络(ResNeXt-101)[15]获取空间信息,端到端时间流网络由TVnet网络与BN-Inception网络[16]堆叠形成,由此构造TVBN-ResNeXt双流网络。TVBN-ResNeXt网络直接输入RGB视频帧片段,隐式的生成用于视频分类的光流信息,不需要存储和预计算。

2 算法思想

本文构造的解决视频分类的端到端时空双流融合网络TVBN-ResNeXt示意图如图1所示。

图1 TVBN-ResNeXt双流网络示意图
Fig.1 Schematic of TVBN-ResNeXt two-stream network

文中使用三维卷积网络ResNeXt-101作为空间流,对于视频分类问题2D卷积不能捕捉视频帧间的时序信息,使用C3D网络直接输入16帧的视频片段提取视频帧的时空信息。C3D的卷积过程可以看做时序序列附近信息逐步叠合的过程,但对于动作的序列信息比如最开始一张图片对于后续的动作影响比重较小,在快速活动中C3D获取视频时间信息的能力有限,因此加入时间流网络,借助光流对运动目标进行检测,弥补C3D在快速活动中的不足。

文中利用端到端的时间流通过无监督的TVnet网络获取光流信息,使用BN-Inception网络对堆叠的光流信息进行特征学习和分类判别,提取视频的时间信息。时空网络的输入均为连续的视频帧,分别训练时间流与空间流网络,然后将获得的全连接层的时空特征进行加权融合,实现视频分类。本文模型融合了C3D与自学习端到端光流网络的优点,实现较高效且准确的双流网络。

2.1 基于ResNeXt-101的空间流网络支路实现

双流中的空间流网络模型为三维卷积网络ResNeXt-101,采用VGG/ResNet的重复层策略,在增加网络的宽度与深度提高分类准确率的同时,可降低网络复杂性。ResNeXt-101网络的基本单元结构如图2所示,图中x3表示卷积核大小,F表示特征图的数量,group是将特征映射分成小组的卷积组的数量。与传统的ResNet相比,在网络中加入大小为1×1×1的第一层和第三层卷积,控制中间层的卷积核的个数,减少网络的参数数量。每一层卷积层后均连接Batch-Normalization与ReLU,同时在基本单元结构中的中间层卷积网络引入卷积组,即将特征映射划分为小组,降低网络的训练难度,提升网络性能,本实验中使用卷积组的数量为32组。

图2 ResNet与ResNeXt单元结构对比
Fig.2 Unit structure of ResNet and ResNeXt

Batch-Normalization通过规范化手段,把每层神经网络任意神经元输入值的分布强行限制到均值为0方差为1的标准正态分布,使得ReLU的输入值落入到对输入比较敏感的区域以此避免梯度消失问题,防止过拟合,加快训练速度。

基本单元结构中的卷积组,其原理与Inception 模块非常类似,都遵循“拆分-转换-合并”的原则,即将拆分后不同路径的输出相加合并,并且所有路径共享相同的拓扑,卷积内加入分组的方法也可以看作是一个转换合并的过程。

单个神经元信息处理模式满足将其中的wixi替换为函数Ti,Ti代表任意一种变换,C为基数,即要合并的转换集的个数,Tix映射到低维的卷积中进行转换,具有相同的拓扑结构。相应的残差函数如式(1),其中y为输出。

(1)

将上述单元结构进行堆叠形成ResNeXt-101网络,其网络结构如表1所示。表中F为图2中对应的特征图数量,N为各卷积层中单元结构的数量。网络中卷积层C1包含一层卷积层,卷积核大小为7×7×7,特征图数量为64,步长为[1,2,2],其余各卷积层C2-C4由基本单元结构堆叠而成。

表1 ResNeXt-101网络结构及参数

Tab.1 Structure and parameters of ResNeXt-101 network

层次结构卷积层C1kernel_shape:[7, 7, 7],64 strides:[1, 2, 2]卷积层C2F=128,N=3卷积层C3F=256,N=4卷积层C4F=512,N=23卷积层C5F=1024,N=3池化层kernel_shape:[1, 4, 4] strides:[1, 1, 1]全连接层Fc2048

空间流网络ResNeXt-101使用交叉熵损失函数进行训练,对于一个batch size的损失函数如式(2)所示。其中N为batch size大小,K表示分类的类别数,Y表示网络输出的概率分布,P表示真实的类别标签,YPN×K的矩阵。

(2)

2.2 端到端的时间流光流支路实现2.2.1 TVnet光流网络

双流网络中使用无监督网络TVnet进行光流估计,将BN-Inception网络堆叠在光流网络上形成时间流网络。TVnet是完全卷积网络,通过模仿TV-L1算法的迭代优化过程获得。将TV-L1算法转换为神经网络要考虑计算效率及数值稳定性,使用卷积层替换梯度和散度,用双线性插值执行替代TV-L1的插值计算提高效率,用最小阈值稳定除法计算。为了减少计算时间,TVnet中只使用一个尺度,不做任何warps操作。 这里将光流估计作为图像重建思路来计算,将一对相邻的视频帧I0I1输入TVnet中生成光流信息u,使用预测的光流uI1可以得到重建帧优化目标是最小化I0两图像之间的像素误差。如果估计的光流和当前帧可以重建下一帧,那么认为网络具有表示视频帧间潜在运动的能力。目前视频分类的数据集没有真实的光流信息,而无监督学习能够避免合成的光流信息与真实数据之间的差距,并以端到端的方式训练网络。

TVnet的参数可以通过训练过程中损失的反向传播梯度来调整,损失函数如式(3),其中,第一项|u1(x)|+|u2(x)|考虑平滑条件,第二项ρ(u)=I1(x+u)-I0(x)对应亮度恒定假设,对亮度差进行约束。

u1(x)|+|u2(x)|)+λ|ρ(u(x))|

(3)

光流计算流程如算法1所示,n表示迭代的次数,本文中n=50,分母增加一个较小的ε(ε>0)保证算法的稳定性。

算法1 光流计算方法目标:获取两视频帧间的运动信息输入:相邻的视频帧I0和I1,u0=0,p0=0ρ0=I1(x+u0)-I1(x+u0)u0-I0(x)for i=0 to n do:ρ=ρ0+I1(x+u0)uν=θI1ρ<-θI12-θI1ρ>θI12-ρI1I12+εotherwiseìîíïïïïïïud=ν+θdiv(pd),d=1,2;pd=pd+/θud1+/θud+ε,d=1,2;i=i+1;输出:视频帧I0和I1间的光流信息un。

算法计算复杂度在于梯度(即▽I1和▽ud)和散度(div(p))的逐像素计算,在光流网络中使用卷积层执行上述计算,定义卷积核如式(4),

wc=[0.5,0,-0.5],wf=wb=[-1,1]

(4)

因此,对于有效区域中的像素点,梯度与散度计算可以替换为卷积运算,相应转换公式如表2所示。其中,W表示像素点的范围,*表示卷积运算,表示wb的转置。

TVnet光流网络流程图如图3所示,输入两个相邻视频帧,经过50次迭代后获得帧间的运动信息。

表2 TV-L1与TVnet转换公式

Tab.2 Conversion formula of TV-L1 and TVnet

运算TV-L1TVNetGradient_1∂I1(i,j)∂x=I1(i+1,j)-I1(i-1,j)21<i<W0otherwise{∂∂xI1=I1∗wcGradient_2∂ud(i,j)∂x=ud(i+1,j)-ud(i,j)1<i<W0otherwise{∂∂xud=ud∗wfDivergencediv(pd)(i,j)=pd1(i,j)-pd1(i-1,j)1<i<Wpd1(i,j)i=1-pd1(i-1,j)i=Wìîíïïïï+pd2(i,j)-pd2(i,j-1)1<j<Wpd2(i,j)j=1-pd2(i,j-1)j=Wìîíïïïïdiv(pd)=p^d1∗wb+p^d2∗wTb

图3 TVnet光流网络流程图
Fig.3 Flow chart of TVnet optical flow network

2.2.2 BN-Inception光流特征学习与分类网络

BN-Inception网络也称为InceptionV2网络,网络加入Batch-Normalization层,并将大尺度的卷积分解成多个小尺度的卷积来减少计算量,比如将InceptionV1网络中5×5的大卷积分解成两个3×3的卷积串联,如图4所示。

图4 Inception结构示意图
Fig.4 Schematic diagram of Inception

BN-Inception网络中使用1×1尺度的卷积核,该卷积核从权重大小和特征图的维度两方面对数据进行降维处理,使训练速度更快。与1×1尺度的卷积核做卷积运算实际上就是对原始数据进行一次非线性的尺度变换,而且这是运用训练数据学习得来的,这使非线性尺度变换更加精准,也降低模型训练时过拟合的几率。显然的,卷积核和池化滤波器并联和串联的方式增加网络的深度和宽度,网络对尺度的适应性进而得到增强。

3 实验分析与比较

本节进行实验评估,在运行效率与准确率两方面对模型进行评估,以验证双流网络在视频分类中的性能。首先对本文的实验设置进行说明,然后对使用TV-L1方法与本文所用光流网络产生的光流效果进行比较,最后比较TVBN-ResNeXt双流网络与最先进的方法在视频分类上的性能。

3.1 数据集

为了验证本文提出的方法的有效性,在UCF-101和HMDB-51数据集上进行实验。UCF-101数据集共101类,包含13320个视频片段,每个视频的平均时长约为7 s,视频包括人与物体互动、人体动作、人与人互动、乐器演奏、体育运动等。HMDB-51数据集共51类,包含6849个视频片段,视频内容类似于UCF-101,包括面部动作、人体动作、身体动作、与对象交互动作等。两种数据集均采用内容不同的三种训练/测试集划分方式(70%训练和30%测试)。

3.2 实验设置

本文实验中用Pytorch搭建模型,在Python3.6的环境下展开研究。TVnet光流网络在HMDB-51上进行训练,ResNeXt-101与BN-Inception网络在Kinetics数据集上进行预训练,然后在UCF-101和HMDB-51上进行微调。由于ResNeXt-101与BN-Inception网络参数量大,训练需要使用大规模的训练数据集。但是UCF-101和HMDB-51数据集,从头开始训练网络,易造成过拟合,而Kinetics数据集包含超过三十万的视频,该数据集有足够的数据用于网络的预训练[8,15],所以这里直接加载已有的预训练参数进行微调。

3.2.1 空间流网络实验设置

实验中先将ResNeXt-101网络在Kinetics数据集上进行预训练[17],然后继续在UCF-101和HMDB-51数据集上微调网络,微调部分包括卷积层C4及其之后的各层,最后将处理的数据帧输入到训练好的网络中进行分类。

训练阶段,通过随机采样选取视频中的时间点,然后围绕选定的时间点生成连续16帧的视频片段,如果视频短于16帧,则根据需要进行多次循环。从视频帧的四个角或中心随机选择一个空间位置,并选择样本的空间尺度,进行多尺度裁剪,在位置、尺度和长宽比上将样本调整为112×112大小,每个样本以50%的概率进行水平翻转。最终输入的数据大小为3通道×16帧×112像素×112像素。基于动量的随机梯度下降法对网络进行训练,把视频帧和视频标签作为网络的输入,在微调时,学习率开始为0.001,在验证损失饱和后衰减10倍,动量为0.9,权重衰减设置为1e-5。

测试阶段,在视频帧中心处裁剪,并采用滑动窗口方式生成输入片段,即将视频分为不重叠的多个16帧的片段,输入微调后的网络中获取该片段的各个类别得分,最终的分类结果是该视频中所有片段得分的平均值,最高得分的类表示分类的类别(即,视频级的准确率)。

3.2.2 时间流网络实验设置

实验中训练时间网络包括两步,第一步是训练TVnet光流网络,在第二步,固定TVnet的权重微调BN-Inception网络。

训练阶段,将TVnet光流网络在HMDB-51数据集上进行训练,学习率设置为0.05,当损失平稳时停止训练。从每个视频中按上述空间流方法提取6帧连续视频帧,输入TVnet光流网络中为每对连续视频帧提取运动信息,并将xy方向的运动位移限制在[-20,20]像素之间,然后进行规范化和量化在0到255之间重新调整,减去均值后堆叠输入BN-Inception网络中,最终的输入数据大小为10通道×224像素×224像素。时间流使用在Kinetics数据集上预训练的BN-Inception网络进行,微调时设置学习率为0.001,使用动量为0.9的随机梯度下降法进行训练,权重衰减设置为1e-5。测试阶段的方法与空间流相同,最后将空间流与时间流的分类结果经L2标准化后,进行加权融合。

3.3 实验结果及分析

为验证本文提出的TVBN-ResNeXt双流网络的有效性,对比实验首先在UCF101数据集上对TV-L1与TVnet两种方法产生的光流结果进行对比,如图5所示,TVnet产生的光流信息可清楚的捕捉移动物体的轮廓,获得更好的光流表示。

TV-L1与TVnet网络在每秒传输帧数FPS(Frames Per Second)、是否可训练与参数数量方面的对比如表3所示。因为TVNet的迭代次数比TVL1小,需要训练的参数数量级仅为102,在batch-size大小为1时运行速度为12 fps,通过扩大batch-size大小并行提取光流信息,运行速度将可进一步提升。光流算法通常使用终点误差(EPE)来衡量,已有研究证明EPE的大小与视频分类效果无强相关性[18],所以这里不对两种方法产生光流的EPE进行比较。

表3 TV-L1与TVnet网络性能对比

Tab.3 Performance comparison between TV-L1 and TVnet

方法FPS可训练参数数量TV-L16.67NoNoTVnet12Yes102

图5 TV-L1与TVnet获取光流图像对比图
Fig.5 Comparison of optical flow images acquired by TV-L1 and TVnet

将两个模型获得的分类结果进行融合,通过选取六种不同的权重融合,得出最终的分类结果。图6为不同权重融合下得到的UCF-101和HMDB-51数据集Split01中视频分类准确率的对比,其中横轴1∶2表示空间流与时间流以1∶2的比例融合,RGB表示只使用空间流,Flow表示只使用时间流。由图6可以看出,经过融合得到的分类效果与两模型预测结果的所占比重有关。总体来说,使用模型融合的方法比单模型的分类效果好,且当空间流网络与时间流网络的结果以3∶2的比重进行融合时得到的最终分类效果最好。

本文提出的TVBN-ResNeXt双流网络在UCF-101和HMDB-51数据集的三种划分方式上分类准确率如表4所示,将空间流与时间流的结果进行加权融合,在两数据集上分别提升2.07%和3.38%。最终的分类结果为两数据集在上述三种划分方式上准确率的平均值。

图6 不同权重融合的效果比较
Fig.6 Comparison of the effects of different weights

表4 UCF-101和HMDB-51的分类准确率

Tab.4 Classification accuracy of UCF-101 and HMDB-51

划分方式空间流时间流融合UCF-101/%Split0189.9885.8292.12Split0290.5786.9492.63Split0390.6486.5092.67平均90.4086.4292.47HMDB-51/%Split0163.9056.1468.61Split0264.1657.4566.51Split0363.4458.8266.51平均63.8357.4767.21

3.4 与现有主流算法的对比实验

为进一步分析TVBN-ResNeXt双流网络进行视频分类的性能,将其与现有的主流的视频分类算法进行对比实验。表5为在UCF-101和HMDB-51数据集上各算法的分类效果比较,准确率均为三种划分方式的平均值。

表5 TVBN-ResNeXt网络模型与现有主流算法分类效果比较

Tab.5 Comparison of classification effects between TVBN-ResNeXt network model and existing mainstream algorithms

算法UCF-101/%HMDB-51/%IDT[1]86.461.7C3D[2]82.3-P3D[19]88.6-Two-stream model[3]88.059.4Two-Stream Fusion[5]92.565.4Trajectory Pooling[20]92.165.6TVBN-ResNeXt92.567.2TVBN-ResNeXt+IDT94.670.4

由表5可知,相对于其他的视频分类方法,本文的双流网络能够取得更好的分类效果。IDT为提取视频密集跟踪轨迹的算法,是除了深度学习之外分类效果最好的传统方法,而本文方法的准确率比IDT高6.1%。相比较于其他3D卷积网络和双流网络,TVBN-ResNeXt双流网络均优于对比算法。

实验中将卷积网络与改进的密集轨迹算法IDT特征相结合可以进一步提高分类性能。IDT中除了轨迹形状特征,还使用了HOF,HOG和MBH三种特征[1],对上述四种特征进行Fisher Vector特征编码,编码后使用SVM特征分类。本文将IDT与TVBN-ResNeXt双流网络的预测结果,经L2标准化后以1∶2的比重加权融合,可将分类准确率提升至94.6%和70.4%。

4 结论

双流网络作为解决视频分类问题的有效途径,但传统光流算法计算量大,需要预先存储光流信息导致双流网络运行效率慢,改进的光流网络存在训练困难的问题,本文提出结合光流网络的端到端的TVBN-ResNeXt时空双流卷积网络。使用基于无监督的TVnet网络从数据帧中学习类似光流的特征,堆叠BN-Inception网络形成端到端的时间流网络,使用两步训练法简化网络架构的同时加快运行效率,使用ResNeXt-101网络作为空间流网络,最后将时空特征进行加权融合形成双流网络。为避免由于训练样本不足而出现模型过拟合现象,本文采用训练集扩充和迁移学习的方法。将双流网络与IDT方法结合可进一步提高视频分类的准确性。本文提出的双流网络不需要额外存储光流信息,在运行效率及分类准确率方面均优于对比方法,有效提高动作视频分类性能,对视频分类的研究具有借鉴意义。

参考文献

[1] Wang H, Schmid C. Action recognition with improved trajectories[C]∥International Conference on Computer Vision(ICCV), Sydney, 2013: 3551-3558.

[2] Tran D,Bourdev L, Fergus R, et al. Learning Spatiotemporal Features with 3D Convolutional Networks[C]∥International Conference on Computer Vision(ICCV), Santiago, 2015: 4489- 4497.

[3] Simonyan K, Zisserman A. Two-stream convolutional networksfor action recognition in videos[C]∥Neural Information Processing Systems(NIPS), Montreal, 2014: 568-576.

[4] Cheron G, Laptev I, Schmid C. P-cnn: Pose-based cnn features for action recognition[C]∥International Conference on Computer Vision(ICCV), Santiago, 2015: 3218-3226.

[5] Feichtenhofer C, Pinz A, Zisserman A. Convolutional two-stream network fusion for video action recognition[C]∥Computer Vision and Pattern Recognition(CVPR), Las Vegas, NV, USA, 2016: 1933-1941.

[6] Wang L,Xiong Y, Wang Z, et al. Temporal segment networks: towards good practices for deep action recognition[C]∥European Conference on Computer Vision(ECCV), Amsterdam, The Netherlands, 2016: 20-36.

[7] Jiang Y, Wu Z, Tang J, et al. Modeling Multimodal Clues in a Hybrid Deep Learning Framework for Video Classification[J]. IEEE Transactions on Multimedia, 2018, 20(11): 3137-3147.

[8] Carreira J, Zisserman A. Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset[C]∥Computer Vision and Pattern Recognition(CVPR), Honolulu, HI, 2017: 4724- 4733.

[9] Ilg E, Mayer N, Saikia T, et al. Flownet 2.0: Evolution of optical flow estimation with deep networks[C]∥Computer Vision and Pattern Recognition(CVPR), Honolulu, HI, 2017: 2462-2470.

[10] Ng J Y, Choi J, Neumann J, et al. ActionFlowNet: Learning Motion Representation for Action Recognition[C]∥Winter Conference on Applications of Computer Vision(WACV), Lake Tahoe, NV, 2018: 1616-1624.

[11] Wang X, Gupta A. Unsupervised learning of visual representations using videos[C]∥International Conference on Computer Vision(ICCV), Santiago, 2015: 2794-2802.

[12] Fernando B, Bilen H,Gavves E, et al. Self-supervised video representation learning with odd-one-out networks[C]∥Computer Vision and Pat+tern Recognition(CVPR), Honolulu, HI, 2017: 5729-5738.

[13] Walker J,Doersch C, Gupta A, et al. An uncertain future: Forecasting from static images using variational autoencoders[C]∥European Conference on Computer Vision(ECCV), Springer, Cham, 2016: 835- 851.

[14] Fan L, Huang W,Gan C, et al. End-to-end learning of motion representation for video understanding[C]∥Computer Vision and Pattern Recognition(CVPR), Salt Lake City, UT, 2018: 6016- 6025.

[15] Hara K,Kataoka H, Satoh Y. Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?[C]∥Computer Vision and Pattern Recognition(CVPR), Salt Lake City, UT, 2018: 6546- 6555.

[16] Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[J]. International Conference on Machine Learning(ICML), 2015, 1: 448- 456.

[17] Tajbakhsh N, Shin J Y, Gurudu S R, et al. Convolutional Neural Networks for Medical Image Analysis: Full Training or Fine Tuning?[J]. IEEE Transactions on Medical Imaging, 2016, 35(5): 1299-1312.

[18] Sevilla-Lara L, Liao Y, Güney F, et al. On the integration of optical flow and action recognition[C]∥German Conference on Pattern Recognition(GCPR), Stuttgart, Germany, 2019: 281-297.

[19] Qiu Z, Yao T, Mei T. Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks[C]∥International Conference on Computer Vision(ICCV), Venice, 2017: 5534-5542.

[20] Zhao S, Liu Y, Han Y, et al. Pooling the Convolutional Layers in Deep ConvNets for Video Action Recognition[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2018, 28(8): 1839-1849.

作者简介

胡正平 男, 1970年生, 四川仪陇县人。燕山大学教授, 博士导师, 目前为中国电子学会高级会员, 中国图像图形学会高级会员, 研究方向为模式识别。

E-mail: hzp@ysu.edu.cn

张瑞雪 女, 1994年生, 黑龙江齐齐哈尔人。燕山大学信息科学与工程学院硕士研究生, 主要研究方向为视频分类。

E-mail: 2625941087@qq.com

张 璇 女, 1994年生, 河北石家庄人。燕山大学信息科学与工程学院硕士研究生, 主要研究方向为微表情识别。

E-mail: 1159652666@qq.com

李淑芳 女, 1981年生, 河北滦南人。燕山大学信息科学与工程学院博士研究生, 主要研究方向为模式识别。

E-mail: lishufang116003@sina.com.cn

赵梦瑶 女, 1995年生, 黑龙江牡丹江人。燕山大学信息科学与工程学院博士研究生, 主要研究方向为视频异常检测。

E-mail: zhaomengyao0826@126.com