随着云计算应用程序、远程桌面、网络会议等新兴需求的不断出现,屏幕内容视频作为特殊的视频类型获得了越来越多的关注。针对屏幕内容图像、视频的质量评价[1-2],屏幕内容视频(Screen Content Video, SCV)编码等方面的研究成为了学术界和产业界的热点。在针对屏幕内容视频编码方面,国际电信联盟(Video Coding Experts Group, VCEG),国际标准化组织(International Organization For Standardization, ISO)和国际电工委员会(International Electrotechnical Commission, IEC)于2014年1月联合启动了基于HEVC屏幕内容编码扩展标准[3]的制定工作,并于2016年制定了高效视频编码标准(HEVC)的扩展标准——HEVC-SCC(Screen Content Coding)。与传统的相机拍摄视频(Camera-Captured Video, CCV)不同,SCV通常是计算机生成的内容,如文本、计算机图形、图形用户界面,或相机拍摄的内容和计算机生成的内容的组合。屏幕内容视频中的图像块通常由几个主要颜色支配,复杂纹理少,有许多或重复出现的图案和文字,对比度高且有锐利的边缘。考虑到屏幕内容视频的这些特点,HEVC-SCC 测试模型(SCC Test Model, SCM)可以在视频质量与HEVC相当的情况下降低55%的码率[4]。
为了提高屏幕内容视频的编码性能,HEVC-SCC增加了四种编码工具:帧内块复制(Intra Block Copy, IBC)[5],调色板模式(Palette Mode, PLT)[6],自适应颜色变换(Adaptive Color Transform, ACT)[7- 8],自适应运动矢量分辨率(Adaptive Motion Vector Resolution, AMVR)[9]。这些新的编码工具显著提高了编码效率,但同时也给编码器带来巨大负担。
HEVC-SCC沿用了HEVC递归四叉树编码单元(Coding Unit, CU)的分割结构和多角度帧内预测模式,其模式选择、CU划分过程,以及附加的SCC编码工具使得编码复杂度增加数倍。现有的SCM模型软件采用的是穷尽搜索的方法,通过检查当前CU的每个可能模式,使每个CU都以最佳模式和划分进行编码。为了降低HEVC-SCC的编码复杂度并保持一定的视频质量,学者们提出了一些解决方案[10-17]。文献[10]利用屏幕图像具有锐利边缘的特点,提出用方向导数滤波器来提取图像的边缘方向特征,并将该特征用于屏幕内容图像质量评价。文献[11]提出了一个分层哈希设计和相应的块匹配方案,以显著降低基于哈希的块匹配的复杂性,在随机接入和低时延模式下节省了12%和16%的编码时间。文献[12]提出了一种变换跳过模式决策的快速算法,以降低HEVC-SCC变换跳过工具的复杂性,但变换过程中只减少了28.2%的编码时间。文献[13]基于屏幕内容视频无噪声的特点提出了一种帧内预测快速算法,以降低大面积平坦区域的视频编码过程的复杂性,该算法只针对纹理简单的CU,对纹理复杂的CU不作处理。文献[14]提出了一种自适应搜索方案,简化了IBC模式的块匹配搜索过程,进而降低了编码器的计算复杂度。由于只考虑了降低HEVC-SCC编码工具的复杂度,不适合自然内容视频和屏幕内容混合的场景。文献[15]利用CU活跃值和梯度信息,跳过不必要的IBC模式检查。对于屏幕内容视频,该算法忽略了PLT模式对HEVC-SCC帧内预测复杂度的影响。文献[16]和[17]将CU分成自然内容CU和屏幕内容CU,并对两种类型的CU提出不同的算法,如果增加不同类型CU的纹理分析,进行模式预判,有望进一步降低计算复杂度。
与传统的算法相比,这些算法主要对大量平滑区域或者只包含屏幕内容的视频有较好的提升,但对于自然内容与屏幕内容混合的视频则提升不明显。因此,本文提出了结合内容特性与纹理类型的HEVC-SCC帧内预测快速算法,利用屏幕内容视频边缘锐利和具有大面积均匀平坦区域的特点,将编码树单元(Coding Tree Unit, CTU)分为自然内容CTU,简单屏幕内容CTU和复杂屏幕内容CTU,然后根据CTU类型筛选预测模式,提高模式选择及编码的效率。
本文其他章节安排如下:第2节介绍屏幕内容与自然内容的差异以及纹理类型预判。第3节是本文提出的基于内容特性与纹理类型的HEVC-SCC帧内快速预测算法。实验结果在第4节中分析讨论。第5节给出结论。
HEVC-SCC的编码除了沿用HEVC的四叉树结构的编码树单元分割方式,递归地决定不同尺寸CU的模式决策之外,引入了IBC和PLT模式,使得HEVC-SCC的帧内预测复杂度很高,尤其是IBC模式增加了约60%的编码时间。考虑到屏幕内容具有与自然内容不同的特征,如:不包含传感器噪声的区域,大量均匀平坦的区域,锐利边缘,以及大量重复的图案或有限数量的不同颜色值。由于传统的HEVC快速模式和划分决策算法都是基于自然视频序列编码提出的,没有很好地考虑屏幕内容的特性。在基于HEVC的SCC中,进行模式选择过程需要计算RD代价,这使得计算复杂度非常高。如果可以根据不同的CTU类型自适应地跳过不必要的预测模式的RD的代价计算,则可以有效地减少编码复杂度。因此,本文基于内容特性与纹理类型将CTU分为3类,然后针对不同分类提出各自的模式选择方案来减少编码复杂度。
为了直观看出自然内容与屏幕内容图像的差异,本文在“BasketballScreen”测试序列的第一帧用黑色方框标出不同的区域,如图1所示。
图1 “BasketballScreen”序列的第一帧
Fig.1 The first frame of sequence “BasketballScreen”
“区域1”表示只包含自然内容的区域,其内容较丰富,边缘较平滑;“区域2”表示只包含屏幕内容的区域,像素值取值较少(大面积白色背景区域),边缘较锐利。图2给出了区域1和区域2经过DCT变换后的能量分布。白色的点所在的区域表示DCT系数较大,能量较集中;深色的点所在区域表示DCT系数较小,颜色越深,其能量越低。由于自然内容,图像的边缘区域较为平滑,因此,DCT变换后大部分能量集中在低频区域,中高频部分系数很小(黑色点)的区域较大,如图2(a)和(c)所示。对于屏幕内容,由于边缘较锐利,中高频系数较多,从图2(b)和(d)可以看出,其能量分布较分散,未呈现明显的能量集中现象。因此,本文利用屏幕内容图像和自然内容图像在频率域统计特性的特点,分成自然内容CTU和屏幕内容CTU。
图2 自然图像与屏幕图像的DCT变换后的能量分布。(a)是 图1中区域1的DCT能量分布;(b)是图1中区域2的DCT能 量分布;(c),(d)分别是(a),(b)各取一个CTU的DCT能量分布
Fig.2 The DCT energy distribution comparison between nature and screen content image. (a) is the DCT energy distribution for region 1 of
Fig.1; (b) is the DCT energy distribution for region 2 of
Fig.1; (c), (d) are details for (a) and (b), respectively
根据以上分析,作为屏幕图像和自然图像CTU的判断值S[18]定义如下:
(1)
其中,ci, j表示在(i, j)处的DCT系数值。由于自然图像块的能量主要集中在极少数大幅值的低频系数上,而屏幕图像块的能量分布较分散,中高频区间内取值大的系数相对较多,因此,我们计算CTU右下角的中高频系数占比进行图像内容类别的判断。通过实验,将判断的阈值TH3设为0.055。如果S大于TH3,判定当前CTU为屏幕内容CTU。否则,为自然内容CTU。在编码过程中,由于逐个判断CTU的复杂度很高,为了简化计算过程,本文先计算一帧图像的DCT系数和之比进行预判再计算CTU的预测值S。整帧图像的预测值PS的计算公式如下:
(2)
其中,H是一帧图像的高,W代表一帧图像的宽。ci, j表示在取宽、高分别为0.1W和0.1H的图像内(i, j)处的DCT系数值,i的范围为(0.5H~H), j的范围为(0.5W~W)。本文判断自然图像的预测值PS设为TH1,用于判断屏幕图像的预测值PS为TH2,由实验得TH1,TH2分别为0.008和0.014。如果PS在这个范围之间,则该图像定义为混合内容图像。
为了提前判断屏幕图像纹理的复杂度,本文根据屏幕内容图像具有大量均匀平坦区域的特点,选择Roberts算子来进行纹理复杂度的判断,从而跳过不必要的模式选择过程。
Roberts算子是一种利用局部差分算子寻找边缘的2×2模板,它采用对角线方向相邻两像素之差近似梯度幅值检测边缘,公式如下:
(3)
(4)
G(x,y)=|gx|+|gy|
(5)
(6)
其中, f(x,y)表示位置(x,y)处的亮度分量,n和m表示当前PU的高度和宽度,G(x,y)表示当前PU在(x,y)处的梯度幅值。当梯度和小于阈值T0时,判定为简单区域。否则,判定为复杂区域。通过实验,梯度阈值T0设为50。
基于屏幕内容和自然内容图像的DCT系数分布差异以及屏幕内容的纹理类型分析,可知S和PS值越大,该CTU判断为屏幕内容CTU的概率越大。对于自然内容CTU,选择35种传统帧内预测模式,跳过属于SCC模式的判断。当SRoberts值小于梯度阈值时,表示当前CTU的纹理较简单,可以提前预判模式,将DC,PLANAR,水平和垂直模式作为候选模式,跳过IBC和PLT模式;反之,表示当前CTU的纹理信息丰富,包含许多锐利边缘区域,选择IBC和PLT模式。
图3是算法的整体流程图,具体步骤描述如下:
图3 本文算法流程图
Fig.3 Flowchart of the proposed algorithm
1)帧内预测开始,计算一帧图像的预判值PS,如果PS>TH2,则判断该帧图像为屏幕图像帧;如果PS 2)只对混合图像内的CTU计算S,如果S 3)对于屏幕内容CTU,计算当前CTU块的SRoberts值。当SRoberts小于T0时,判定当前CTU为简单屏幕内容CTU;否则,为复杂屏幕内容CTU。 4)对于自然内容CTU,选择35种传统帧内预测模式,跳过IBC和PLT模式。 5)对于简单屏幕内容CTU,从DC,PLANAR,水平和垂直模式中选择一种作为最佳模式,跳过IBC和PLT模式。 6)对于复杂屏幕内容CTU,跳过传统帧内模式,选择IBC和PLT模式。 7)帧内预测结束。 为了验证本文算法的有效性,采用HEVC-SCC测试平台SCM- 8.3作为测试环境[19],分别对8个测试的视频序列进行编码性能评估。所有视频序列均为4∶4∶4采样格式,使用全帧内模式(All Intra, AI),编码量化参数(quantification parameter, QP)设为22,27,32,37。测试序列及参数如表1所示。 本文使用BDBR和ΔTime评价提出算法的编码性能。BDBR[20]表示的是原始HEVC-SCC编码器与本文算法之间比特率变化的公式,ΔTime的公式如下: (7) 其中,timeproposed和timeanchor分别表示本文算法下的平均编码时间和原始SCC编码器在全帧内模式下的平均编码时间。 表1 测试序列及参数 视频序列分辨率类别帧数Console1920×1080TGM0-99Map1280×720TGM0-99SlideShow1280×720TGM0-99WebBrowsing1280×720TGM0-99MissionControlClip22560×1440M120-219MissionControlClip31920×1080M0-99Robot1280×720A0-99Kimono11920×1080CC0-99TGM: 运动的图形和文本M: 混合内容CC: 相机拍摄内容A: 动画 表2给出了所提算法与文献Duanmu[21]、Lei[22]、Yang[23]在相同编码平台下实验结果的比较。由表2可看出,与SCM- 8.3相比,所提算法在BDBR增加1.82%的情况下,平均减少38.55%的编码时间。其中,“SlideShow”序列的编码时间节省达到48.37%。这是因为本文算法与纹理复杂度有关,平坦区域多的屏幕内容序列能节省更多编码时间,而“SlideShow”序列包含大面积不变的平坦区域。对于TGM和M序列,与算法[21]相比,所提算法编码时间减少9.21%,BDBR下降0.37%;对于A和CC序列,所提算法节省5.8%编码时间,BDBR只增加0.58%。相较于[22]算法,本文算法对于TGM和M序列编码时间减少9.43%,BDBR下降0.81%。Lei[22]、Yang[23]等人的算法节省的编码时间与本文相近,但BDBR增加分别为所提算法的1.55倍和1.72倍。 表2 本文算法与其他HEVC-SCC帧内快速算法的比较 测试序列Duanmu[21]BDBR/%ΔTime/%Lei[22]BDBR/%ΔTime/%Yang[23]BDBR/%ΔTime/%本文算法BDBR/%ΔTime/%Console1.87-28.122.87-23.407.38-42.832.07-43.74Map1.55-19.161.23-20.052.84-41.661.23-34.87SlideShow2.82-52.472.32-55.583.69-34.451.89-48.37WebBrowsing1.91-28.176.02-26.755.00-53.002.28-40.72MissionControlClip22.86-33.91.71-25.492.51-38.541.71-37.85MissionControlClip32.03-24.611.69-33.812.90-34.151.81-36.15Robot1.18-29.365.21-46.910.59-28.191.65-36.76Kimono11.23-25.751.52-75.550.13-36.181.92-29.95平均(TGM+M)2.20-31.072.64-30.854.05-40.771.83-40.28平均(A+CC)1.21-27.563.37-61.230.36-32.191.79-33.36平均(全部)1.93-30.192.82-38.443.13-38.631.82-38.55 图4给出了测试序列“WebBrowsing”和“MissionControlClip2”的率失真曲线,将本文算法与HEVC-SCC原始算法的率失真曲线进行比较。可以看出,所提算法的率失真曲线和HEVC-SCC 测试模型SCM- 8.3算法的率失真曲线非常接近。这表明本文算法可以有效降低编码器的计算复杂度,而视频质量损失可忽略不计。 图4 本文算法与HEVC-SCC原始算法的率失真曲线比较 (a)WebBrowsing (b) MissionControlClip2 本文基于内容特性和纹理类型将CTU划分为不同类型,并且针对每个类型设计不同的处理方案,略过HEVC-SCC 编码过程中一些不必要的步骤,进而实现计算复杂度的降低。实验结果表明,在全帧内模式下,该算法相较于SCM- 8.3可以平均节省38.55%的编码时间,BDBR增加1.82%。与其他HEVC-SCC快速编码算法相比,本文算法具有一定的性能优势。 [1] Yang H, Fang Y, Lin W. Perceptual Quality Assessment of Screen Content Images[J]. IEEE Transactions on Image Processing, 2015, 24(11): 4408- 4421. [2] Gu K, Zhou J, Qiao J, et al. No-Reference Quality Assessment of Screen Content Pictures[J]. IEEE Transactions on Image Processing, 2017, 26(8): 4005- 4018. [3] Xu J, Joshi R, Cohen R. Overview of the emerging HEVC screen content coding extension[J]. IEEE Transaction on Circuits & System for Video Technology, 2016, 26(1): 50- 62. [4] Jiang Q, Shao F, Lin W, et al. Optimizing multistage discriminative dictionaries for blind image quality assessment[J]. IEEE Transaction on Multimedia, 2018, 20(8): 2035-2048. [5] Pang C, Sole J, Guo L, et al. Non-RCE3: Intra motion compensation with 2-D MVs. Document JCTVC-N0256, Jul. 2013. [6] Pu W, Karczewicz M, Joshi R, et al. Palette mode coding in HEVC screen content coding extension[J]. IEEE Journal on Emerging and Selected Topics in Circuits and System, 2016, 6(4): 420- 432. [7] Zhang L, Xiu X, Chen J, et al. Adaptive Colo-Space transform in HEVC screen content coding[J]. IEEE Journal on Emerging & Selected Topics in Circuits & Systems, 2016, 6(4): 446- 459. [8] Marpe D, Kirchhoffer H, George V, et al. Macroblock-Adaptive residual color space transforms for 4: 4: 4 video coding[C]∥IEEE International Conference on Image Processing. IEEE, 2006: 3157-3160. [9] Li B, Xu J, Sullivan G, et al. Adaptive motion vector resolution for screen content. Document JCTVC-S0085, Oct. 2014. [10]Lin J, Wang M, Xie W. A Lightweight Quality Assessment of Screen Content Images using Directional Derivative Filters[C]∥IEEE 3rd International Conference on Signal and Image Processing. IEEE, 2018: 292-296. [11]Xiao W, Shi G, Li B, et al. Fast Hash-based Inter Block Matching for Screen Content Coding[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 28(5): 1169-1182. [12]Lee D, Yang S, Jeon B. Fast Transform Skip Mode Decision for HEVC Screen Content Coding[C]∥IEEE International Symposium on Broadband Multimedia Systems and Broadcasting. IEEE, 2015: 1- 4. [13]Tsang S, Chan Y, Siu W. Fast and efficient intra coding techniques for smooth region in screen content coding based on boundary prediction samples[C]∥IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2015: 1409-1413. [14]Zhang H, Zhou Q, Shi N, et al. Fast intra mode decision and block matching for HEVC screen content compression[C]∥IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2016: 1377-1381. [15]Tsang S, Kuang W, Chan Y, et al. Fast HEVC screen content coding by skipping unnecessary checking of intra block copy mode based on CU activity and gradient[C]∥Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, Dec, 2016. [16]Lu Y, Liu H, Lin Y. Efficient coding mode and parition decision for screen content intra coding[J]. Signal Processing: Image Communication, 2018, 68(2018): 249-257. [17]Duanmu F, Ma Z, Wang Y. Fast CU partition decision using machine learning for screen content compression[C]∥IEEE International Conference on Image Processing. IEEE, 2015: 4972- 4976. [18]Yang Y, Shen L, Yang H, et al. A content-based rate control algorithm for screen content video coding[J]. Journal of Visual Communication and Image Representation, 2019, 60: 328-338. [19]Yu H P, Cohen, Rapaka K, et al. Common conditions for screen content coding test. Document JCTVC-Q1015, Mar. 2014. [20]Bjontegaard G. Calculation of Average PSNR Differences between RD-curves. Document VCEG-M33, Apr. 2001. [21]Duanmu F, Ma Z, Wang Y. Fast mode and partition decision using machine learning for intra-frame coding in HEVC screen content coding extension[J]. IEEE Journal on Emerging & Selected Topics in Circuits & Systems, 2016, 6(4): 1-15. [22]Lei J, Li D, Pan Z, et al. Fast intra prediction based on content property analysis for low complexity HEVC-based screen content coding[J]. IEEE Transactions on Broadcasting, 2017, 63(1): 48-58. [23]Yang H, Shen L, An P. An efficient intra coding algorithm based on statistical learning for screen content coding[C]∥IEEE International Conference on Image Processing. IEEE, 2017: 2468-2472.4 实验结果及分析
Tab.1 Test sequences and parameters
Tab.2 Comparisons of the proposed algorithm with state of the art HEVC-SCC fast intra coding algorithms
Fig.4 RD curves of the proposed algorithm compared with HEVC-SCC standard (a)WebBrowsing (b) MissionControlClip2 5 结论
Reference format: Ou Jianshan, Chen Jing, Zeng Huanqiang, et al. Fast Intra Prediction Algorithm for HEVC-SCC Based on the Content Property and Texture Mode[J]. Journal of Signal Processing, 2020, 36(3): 382-388. DOI: 10.16798/j.issn.1003- 0530.2020.03.008.
欧健珊 女, 1995年生, 广东中山人。华侨大学信息科学与工程学院硕士研究生。主要研究方向为图像和视频处理。
E-mail: 919155287@qq.com
陈 婧 女, 1980年生, 福建厦门人。华侨大学信息科学与工程学院副教授, 博士学位。主要研究方向为图像处理和视频编码。
E-mail: chenjing8005@hqu.edu.cn
曾焕强 男, 1984年生, 福建惠安人。华侨大学信息科学与工程学院教授, 博士学位, IEEE高级会员。主要研究方向为视频编码、图像处理、计算机视觉。
E-mail: zeng0043@hqu.edu.cn
朱建清 男, 1987年生, 福建莆田人。华侨大学工学院副教授, 博士学位。主要研究方向为模式识别与机器视觉。
E-mail: jqzhu@hqu.edu.cn
蔡灿辉 男, 1954年生, 福建泉州人。华侨大学信息科学与工程学院教授, 博士学位。IEEE高级会员, 信号处理分会委员, 电子学会高级会员。近年主要研究方向为图像处理、数字视频、模式识别、多媒体通信等。
E-mail: chcai@hqu.edu.cn