由于当前的互联网通信中存在着信道干扰、路由延迟、网络拥塞等情况,而无线信道中的随机比特错误与突发错误等问题进一步恶化了信道条件,使得信道传输存在“不可靠性”,随着高清晰度(如4K,8K的超高清视频)、高帧率(如60 fps,120 fps)的视频需求日益增长,原始视频数据量也愈发庞大,若直接对其进行传输,会造成网络中传输成本的大大增加以及存储空间容量要求的提升。为了顺应时代发展,满足高清及超高清视频传输的需求,国际电信联盟(ITU-T)的视频编码专家组VCEG(Video Coding Experts Group)和ISO/IEC运动图像专家组MPEG(Moving Picture Experts Group)成立联合视频工作组JCT-VC(Joint Collaborative Team on Video Coding),携手制定了新一代“高效的视频编码标准——HEVC(High Efficiency Video Coding)”较H.264/AVC编码性能提升了约50%,对码流、编码效率、计算复杂度及系统延时之间的关系进行了较好的优化。然而高效的HEVC视频编码去除了大量的相关信息,一旦传输过程中受到干扰,有效信息的丢失会导致严重的视频重建质量退化。因此人们在提升了HEVC视频编码标准的压缩性能的同时,也使视频码流传输的鲁棒性面临更严峻的挑战。
多描述编码是一种为解决无线通信,有损信道传输中因分组丢失、误码、延迟等原因导致的视频质量严重下降的问题而提出的联合信源信道编码技术。
在提高H.264/AVC视频编码标准容错能力的多描述编码方案中,Ottavio Campana等人[1]将经典的多描述标量量化方法应用于H.264/AVC平台,很好地适应了H.264/AVC的编码结构;Bernadini等人[2]提出了多相空间下采样多描述编码(Pholyphase Spatial Subsampling Multiple Description Coding, PSS-MDC),将源视频通过多相空间下采样生成4个子序列,然后用H.264/AVC 分别对每个子序列进行编码,生成四个比特流。即使其中三个子序列丢失,仍可以重建一定质量的视频。文献[3]中提出了一种时域多描述编码方案,对于某一子描述附加其他描述中包含帧的运动信息,并利用该信息进行重构增强后的视频。文献[4]中在变换域上,提出了一种基于离散余弦变换(Discrete Cosine Transform,DCT)系数划分的均衡多描述视频编码方案,并采用拉格朗日松弛法在冗余率失真感知上进行优化,以实现帧块间冗余度的优化分配。文献[5]提出了空频域混合多描述编码(Hybrid Multiple Description Coding, Hybrid-MDC),对视频进行空域和频域的分割,生成多个描述,并在混合多描述解码端利用残差像素的空间相关性和相邻块频域系数的相关性来进行错误隐藏。Neeraj等人[6]分别利用了视频序列的空间和时间的相关性设计来设计自适应的多描述结构。文献[7]提出了一种基于三维双树离散小波变换(3D Dual-tree Discrete Wavelet Transform, 3D-DDWT)的分层HEVC多描述视频编码。利用3D-DDWT的方向选择特性,在不进行运动估计和运动补偿的情况下解决误差匹配问题,降低了MDVC算法的复杂度。Dong等人[8]通过数据和预测模式的信息重用,从一定程度上降低了MDC 的计算复杂度。文献[9]提出了一种具有自适应冗余分配策略的多视点多描述视频编码方案,其编解码器的冗余度可以根据网络的不同丢包情况进行自适应调整。文献[10]中考虑了多描述编码中端到端的率失真函数,对拟合系数相应地进行了修正,提出了一种新的多描述视频编码帧内编码方法,能够在MDC视频流中有选择地将合适的帧编码为I帧,并进行了描述间的冗余率优化。文献[11]中作者面向HEVC平台,在时域多描述编码框架中,引入了基于视觉显著性的决策模块进行冗余率分配,提高了描述解码时的感知质量。
近年来,在面向图像多描述编码方面,Zhu[12]等人,提出了一种新型的空间多相下采样编码结构,并提出一种压缩补偿算法,以便解码端获得更好的插值效果,而后结合空、频混合域多描述编码的系数特点,提出了一种压缩约束的中心解码去伪影算法,提升中心解码时的视频质量。文献[13]提出了一种新的基于卷积神经网络的图像编码MDC框架,该框架能够有效地利用图像的上下文信息来压缩图像,此类多描述图片编码方案为多描述视频编码框架设计提供了新的思路。然而,运用在图像编码上的方法不能直接运用在视频编码上,需要根据具体方法重新设计编码框架。虽然适合H.264的方法能够给我们提供一定的参考,但其与HEVC的编码块划分方法相去甚远,因此也无法将现有面向H.264的研究成果直接移植到HEVC上,需要根据编码结构进行改进。而如何将多描述编码思想和HEVC编码标准进行结合,在编码结构的设计与网络自适应的冗余率失真优化方面存在一定难度,也值得进一步研究。
考虑到多描述编码结构本身增加了码率,应尽量减少额外的开销。因此本文面向HEVC视频编码标准,结合其独有的CTU四叉树编码结构以及灵活的PU划分模式等提出了一种基于参数重用的多描述编码方法。文中其他部分内容组织如下:第2节介绍基于参数重用的HEVC多描述视频编码方法。实验结果在第3节进行讨论分析。第4节为结论部分。
首先对原始视频进行空间梅花下采样,下采样方式如图1所示,生成4个行列交错的子序列X1p、X1d、X2p、X2d,该采样方式能在维持子序列之间的相关性的同时保证其独立性。为了合理设计多描述编码结构,将子序列分为进行标准编码的直接编码子序列X1p、X2p与基于参数重用的简化编码子序列X1d、X2d。而后,X1p与X1d合并生成描述1即X1,X2p与X2d合并生成描述2即X2。进行码流打包后,生成的B(X1)、B(X2)分信道传输。
图1 梅花下采样生成多个描述示意图
Fig.1 The diagram of multiple description generation by polyphase down-sampling
为了分析从属于同一描述的两个子序列的编码信息相关性,我们对同一描述两个子序列的对应位置编码单元(Coding Unit, CU)分割深度以及预测单元(Prediction Unit, PU)划分模式进行相似性统计,结果如图2所示。从中可以看出,对于从属于同一描述的两个子序列,使用不同量化参数(Quantification Parameter, QP)进行编码的条件下,依然能够保持较高的结构相似性。所以考虑将这CU深度、PU划分模式及预测模式等参数进行复用,减少编码开销。
图 2 从属于同一描述的子序列编码参数相似性分析
Fig.2 Similarity analysis of coding parameters for sub-sequences belonging to one description
基于这样的考虑,本文提出了一种基于参数重用的多描述编码方法,其整体框架如图3所示。在编码端,对子序列X1p,X2p经过标准HEVC编码器编码,称为直接编码子序列。而X1d、X2d可以利用直接编码子序列的编码信息进行简化的编码,称为间接编码子序列。
以描述1为例,对子序列X1p进行标准编码的同时,导出对应的编码参数,而X1d则重用X1p的编码信息,经由简化的编码器编码,将X1p和X1d两个子序列编码后生成的码流进行打包生成B(X1),而在解码端对码流进行分析得到分别进行标准的解码、参数重用的解码,生成子序列以供后续的边缘插值重建和中心数据融合重建。
图3 参数重用的多描述编码框架
Fig.3 The framework of the parameter reused multiple description coding scheme for HEVC
本文所提出的与参数重用的多描述视频编码方案流程如下:
(1)对输入的原始视频进行梅花下采样,生成四个子序列X1p、X1d、X2p、X2d。
(2)使用HEVC标准编码器对X1p、X2p,两个直接编码子序列进行编码,并导出对应的编码参数:CU的深度信息、PU的分割模式信息、帧内预测模式信息。
(3)对于X1d,X2d进行编码时,判断当前编码帧类型,若为I帧则跳转步骤(4),若为非I帧则跳转步骤(5)。
(4)对于I帧编码时读取对应的直接编码子序列中的CU深度信息、PU的分割模式信息、帧内预测模式信息,跳过原有的预测过程,直接将读取的信息,作为编码的最优选择。
(5)对于非I帧编码,读取对应的直接编码子序列中的CU深度信息、PU的分割模式信息,同样直接将读取的信息,作为编码的最优选择。
(6)对于编码完成后的X1p、X1d进行码流打包生成B(X1),作为描述1在独立信道中进行传输。同理,可生成描述2。
(1)边缘解码重建
当解码端只收到单一描述的时候,首先进行码流分析并分离,得到单一描述的两个子码流信息,以描述X1为例,对子码流分别进行标准解码与基于参数重用的边缘解码后可得到视频序列假设接收到的单个描述边缘解码后的视频图像由若干个5×5的像素块组成,每个5×5像素块如图4所示。
图4 解码后的视频5×5像素块
Fig.4 The 5×5 pixel block of the reconstructed video
为了补偿丢失的描述信息,我们使用文献[14]中的算法进行插值,假设图4中P0为一个待插值像素点,可通过对与P0相邻的12个已知像素点(P1~P12)加权平均进行估计,P1~P12对应的权重系数分别为{-0.04775,-0.04775,-0.04775,0.3455,-0.4775,0.3455,0.3455,-0.4775,0.3455,-0.04775,-0.04775,
-0.04775}。
(2)中心解码重建
当解码端接收到全部描述时,首先,同时对两个描述进行码流分析并分离,得到4个子码流信息同理,对使用标准解码器进行解码,对使用基于参数重用的边缘解码器进行解码。解码得到每个描述对应的序列并按照梅花下采样的方式,对其进行像素交织复原。
为了验证本文的多描述方案效果,本文采用HEVC官方测试平台HM16.9作为测试环境,并以低时延的P帧(Low Delay P, LDP),随机访问(Random Access, RA)两种配置模式分别进行实验。表1为实验中所使用的测试序列。
在LDP模式下,分别在量化参数QP值为22,27,32,37时对测试序列进行编码。实验中设置了三组对照组,分别是原始视频的标准解码重建、多描述中心解码重建、多描述边缘解码重建。其中原始视频,使用对应序列的中心码率作为固定码率进行编码。客观比较结果如图5所示,由于多描述的编码结构是在增加冗余信息的基础上编码的,当信道条件良好时,无论是多描述中心解码重建还是边缘解码重建,其效果均不如原始视频的标准编解码效果。然而,当信道受到干扰时,丢失少量信息便会破坏视频的相关结构,视频重建质量严重受损。多描述编码结构可以保证即使在完全丢失一个描述的情况下,依然可以得到较好的视频重建质量。从图5我们还观察到,在比特率较低的情况下(如图5(a), 5(b)),中心解码质量与边缘解码效果接近,随着比特率的提升,二者的差距逐渐增大。随着视频图像分辨率的增加,(如图5(g), 5(h))本文所提出的算法在低码率到高码率情况下均能逼近其中心解码效果,有效地提高了视频编码的容错性能。此外,在低码率时,较高分辨率视频序列的冗余信息开销大,影响了编码效率,故其边缘重建效果甚至优于中心重建效果。
表1 所选测试序列
Tab.1 Test sequences selected
视频序列分辨率帧数BlowingBubbles416×240200RaceHorses416×240200Keiba832×480200BQMall832×480200FourPeople1280×720200Johnny1280×720200Kimono1920×1080200ParkScene1920×1080200PeopleOnStreet2560×1600100Traffic2560×1600100
图5 本文方法与HEVC标准视频解码质量比较(PSNR)
Fig.5 Reconstructed PSNR comparisons of HEVC and the proposed MDVC
为了说明本算法的先进性,我们与同为面向HEVC多描述编码方法的文献[11]进行了对比实验。在RA模式下,以固定码率512, 1024,2048, 4096 kbps进行编码,本文方法与文献[11]中两种模式的客观质量对比如图6、图7所示。从图6(a)中可以看出,本文方法的中心解码质量略优于文献[11]的两种模式解码质量,但是如图6(b)、7(b)所示,在相同比特率下,本文方法的边缘解码质量明显优于文献[11]两种模式的边缘解码效果,PSNR平均上升了2.3 dB。实验结果表明本方法在保证高清视频可靠传输方面具有较好的鲁棒性。
图6 本文方法与文献[11]两种模式多描述 编码重建质量比较(ParkScene序列)
Fig.6 PSNR comparisons of two modes in reference [11] and the proposed for “ParkScene” sequence
图7 本文方法与文献[11]两种模式多 描述编码重建质量比较(Kimono序列)
Fig.7 PSNR comparisons of two modes in reference [11] and the proposed for “Kimono” sequence
图8、图9分别比较了高分辨率视频“FourPeople”(1280×720)和“PeopleOnStreet”(2560×1600)的重建主观质量。相较于标准重建,本文所提出的HEVC多描述编码方法可以保证即使一个描述完全丢失,其重建的视频质量仍有良好的表现,有效地提高了HEVC视频编码的容错性能。
此外,实验中对直接编码子序列与间接编码子序列的编码时间分别进行了统计。实验结果表明,得益于参数重用机制,多描述编码过程所耗费的时间大大减少,且随着分辨率的提升,间接编码用时也逐渐减少,对于高清视频的间接编码节省时长可达91.7%以上。因此,本文所提出的方法不仅提高了在有损信道中高清视频传输的鲁棒性,而且达到了高编码效率、低计算复杂度的目标。
图8 序列FourPeople主观重建质量比较
Fig.8 Subjective quality comparisons of the “FourPeople” sequence reconstructed by HEVC and the proposed MDVC
图9 序列PeopleOnStreet主观重建质量比较
Fig.9 Subjective quality comparisons of the “PeopleOnStreet” sequence reconstructed by HEVC and the proposed MDVC
本文面向HEVC视频编码标准,提出了一种基于参数重用的HEVC多描述编码方案。其多描述编码结构将视频分解为互有相关、同等重要的两个描述,分信道进行传输,在解码端即使只接收到单个描述,也能获得较好的重建质量,从而提高了HEVC视频编码标准的容错能力,保证了视频经不可靠信道传输后的重建质量;其参数重用机制降低了编码开销和计算复杂度。实验结果表明,本文所提出的HEVC多描述编码方案,在有损信道中,对于高清视频能够有效对抗信道的干扰,重建出一定质量的视频。
[1] Campana O, Contiero R, Mian G A, et al. An H.264/AVC Video Coder Based on a Multiple Description Scalar Quantizer[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2008, 18(2): 268-272.
[2] Bernardini R, Durigon M, Rinaldo R, et al. Polyphase spatial subsampling multiple description coding of video streams with H264[C]∥International Conference on Image Processing, 2004: 3213-3216.
[3] Kibria R, Kim J. H.264/AVC-based multiple description coding for wireless video transmission[C]∥International Conference on Communications, 2008: 429- 432.
[4] Matty K R, Kondi L P. Balanced multiple description video coding using optimal partitioning of the DCT coefficients[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2005, 15(7): 928-934.
[5] Chia Wei Hsiao, Wen Jiin Tsai. Hybrid Multiple Description Coding Based on H.264[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2010, 20(1): 76- 87.
[6] Gadgil N J, Li H, Delp E J, et al. Spatial subsampling-based multiple description video coding with adaptive temporal-spatial error concealment[C]∥Picture Coding Symposium, 2015: 90-94.
[7] Chen Jing, Liao Jie, Yang Yuhang, et al. HEVC and 3D dual-tree discrete wavelet transform based multiple description video coding[J]. Journal of Computational Methods in Sciences and Engineering, 2017, 16(4): 955-965.
[8] Dong Meng, Zeng Huanqiang, Chen Jing, et al. Multiple Description Video Coding Based on Adaptive Data Reuse [J]. Journal of Visual Communication and Image Representation, 2016, 38: 378-385.
[9] Chen Jing, Liao Jie, Zeng Huanqiang, et al. Multiple Description Coding for Multi-view Video[C]∥Advanced Concepts for Intelligent Vision Systems, 2015: 876- 882.
[10]Mohammad Kazemi, Razib Iqbal, Shervin Shirmohammadi. Joint Intra and Multiple Description Coding for Packet Loss Resilient Video Transmission[J]. IEEE Transactions on Multimedia, 2018, 20: 781-795.
[11]Majid M, Owais M, Anwar S M, et al. Visual saliency based redundancy allocation in HEVC compatible multiple description video coding[J]. Multimedia Tools and Applications, 2018, 77(16): 20955-20977.
[12]Zhu Shuyuan, He Zhiying, Meng Xiandong, et al. A New Polyphase Down-Sampling-Based Multiple Description Image Coding[J]. IEEE Transactions on Image Processing, 2020, 29: 5596-5611.
[13]Zhao Lijun, Bai Huihui, Wang Anhong, et al. Multiple Description Convolutional Neural Networks for Image Compression[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 29(8): 2494-2508.
[14]Lee Chiman, Zeng Bing. A novel interpolation scheme for quincunx-subsampled images[C]∥International Symposium on Circuits and Systems, 1999: 147-150.
Reference format: Wang Feifeng, Chen Jing, Zeng Huanqiang, et al. HEVC Multiple Description Video Coding with Parameters Reuse[J]. Journal of Signal Processing, 2020, 36(9): 1567-1573. DOI: 10.16798/j.issn.1003- 0530.2020.09.022.
王飞锋 男, 1996年生, 福建莆田人。华侨大学信息科学与工程学院硕士研究生, 主要研究方向为图像和视频处理。
E-mail: 1332191050@qq.com
陈 婧 女, 1980年生, 福建厦门人, 华侨大学信息科学与工程学院副教授, 博士, 主要研究方向为图像和视频处理。
E-mail: chenjing8005@hqu.edu.cn
曾焕强 男, 1984年生, 福建惠安人, 华侨大学信息科学与工程学院教授, 博士, IEEE高级会员。主要研究方向为视频编码、图像处理、计算机视觉。
E-mail: zeng0043@hqu.edu.cn
蔡灿辉 男, 1954年生, 福建泉州人。华侨大学工学院教授, 博士。IEEE高级会员, 信号处理编委会委员, 电子学会高级会员。近年主要研究方向为图像处理、数字视频、模式识别、多媒体通信等。
E-mail: chcai@hqu.edu.cn