随着通信技术、多媒体技术的不断发展,各类视频已经深入人们的生活。但是网络视频在传输过程中,视频质量会受到各种因素的影响,诸如:网络因素、图像编码、终端性能等[1-2]。因此如何准确评估视频质量,提升用户体验(Quality of Experience, QoE),已经显得越来越重要了。目前已经有较多的ITU-T学术组织、高等院校研究网络视频质量评估,并制定了相关标准。
视频质量评估主要分为主观、客观两种方法。主观评估需要用户观看视频,并通过人的视觉感受给出分值。MOS (Mean opinion score)、DSIS (Double stimulus impairment scale)、DSCQS (Double stimulus continuous quality scale)、ACR(Absolute Category Rating)是典型的主观评估方法,ITU给出了相关标准和实施步骤[3- 4]。主观评估方法贴近人眼的视觉感受,能够准确评估视频质量,且有助于检验客观评估的准确性。尽管如此,该方法也存在一些缺点,如成本高、步骤多、实时性不好,使得它们实用性较差。
客观评估主要分为全参考、部分参考、无参考三种方法,它们主要依据图像、网络等相关指标进行评估。PSNR(Peak Signal to Noise Ratio)、SSIM(Structural Similarity)等方法[5-6],就是根据视频图像进行评估,虽然它们计算方法简单,但是不同损伤的视频,有时得出的评估值会相同,降低了评估的准确性;Kongfeng Zhu提取了不同的影响指标,再通过线性拟合的方法构造了客观评估模型[7],但是这种方法模型固定,适用性小;Maria Torres Vega等人提出一种深度学习的方法[8],该方法准确性较好,但是存在训练时间长、指标多等问题;Markus Fiedler考虑了丢包率对视频质量的影响[9],该方法仅从网络指标的角度建立了评估模型,应用范围小;其他的文献还有提到使用层次分析法、混合多个指标[10-11],构建客观评估模型。
国内宋佳润等人提出了一种包层视频质量评估模型[12],重点分析视频包头信息,评估视频质量,提高了主客观相似度,降低了均方根误差;余春艳等人提出了一种基于运动剧烈程度的无参考视频质量评估模型[13],对客户端接收到的码流进行分析,建立了受损宏块的失真持续效应和运动剧烈程度与视频质量之间的联系,减少了计算量、提高了主客观相似度;刘河潮等人针对H.264/AVC网络视频在网络传输过程中[14],研究了误码对视频质量的影响,提出了一种无参考的丢包失真评估方法,提高了评估的准确性。
网络视频质量评估方法,在近十年来获得了广泛的关注,各种评估方法层出不穷,但是视频质量评估的研究还存在大量问题:(1)现有方法没有综合考虑影响视频质量的因素,有的侧重考虑视频帧的像素,有的侧重考虑网络性能指标,影响因素较单一;(2)现有的方法根据某些影响因素,构建了相对固定的数学评估模型,不具有普遍适用性;(3)现有的方法无法根据实际测试的情况,及时调整数学评估模型,致使某些使用场景主客观相似度较低。网络视频质量评估仍需进行大量的研究,才能有效地提高客观评估的准确性。
本文重点分析了影响视频质量的:网络、应用、图像等指标,为了建立它们与视频质量的关系,采用了模型控制的方法,构建了三层评估模型,并对每个模糊层赋予了不同权值,同时对比了两种去模糊化方法,进一步提高了评估的准确性。本文给出了对应的仿真实验,验证了该方法的有效性,它能够较好地提高主客观相似度。
该方法的优点主要体现在以下几个方面:(1)综合考虑了三种不同类型的影响指标,它们能够较为全面地反映视频质量;(2)采用模糊控制的评估方法,能够灵活地调整推理过程,以便得到更为准确的客观值;(3)引入权重值区分三层模糊推理值的重要性,进一步提高主客观相似度。本文的结构如下:第2节详细介绍了需要提取的影响指标、实验系统;第3节提出了采用模糊控制的评估模型;第4节重点分析了仿真实验结果;第5节总结了当前的工作,并对下一步工作进行了展望。
网络视频质量的优良和影响指标相关,本章详细介绍与视频质量有主要关系的三组影响因素,并搭建实验平台提取对应的指标。
如表1所示,是常用的视频质量影响指标,本文选择了三组具有代表性的指标。网络指标:带宽、丢包率能够反映网络环境,它们会对视频质量产生较大的影响;应用指标:缓冲次数、缓冲时间[15],单位时间内这两项指标越高,会造成视频反复缓冲,降低用户体验;图像指标:模糊度[16]、块效应[17],由于视频是由每帧图像所组成,因此每帧图像的好坏,将直接影响视频质量,计算这两项指标的平均值,可以较好的反映出视频质量。
表1 常用影响指标
Tab.1 The common impair index
序号特征1初始化时间[15]2缓冲次数[15]3缓冲时间[15]4模糊度[16]5块效应[17]6比特率[18]7压缩比[18]8信噪比[19]9量化参数[20]10带宽[21]11丢包率[21]12延时[21]
如图1所示,是本次实验系统,它由Web服务器、高性能交换机、网络模拟器和接收终端组成。服务器端配置了Ubuntu 16.10 和 Apache 2.4.2,用来提供视频片段;交换机主要是调节带宽,模拟现实的网络环境;网络模拟器可以仿真不同的丢包率;接收终端安装了Firefox61.0浏览器用以接收视频。鉴于视频网站多用Flash格式的视频,测试中选择了FLV格式的(Flash Video)视频文件存在于Web服务器中,Web接收端只需要通过浏览器,就可以成功建立连接实现视频点播。实验中测试了不同网络环境下的六段视频,视频信息如图2和表2所示。
图1 实验系统
Fig.1 Experimental system
实验以“篮球赛”为例,实验指标设置如表3所示,带宽在20~11 Mbps之间,丢包率在1%~10%之间,总共进行100次测试。测试过程中,终端浏览器会记录播放日志,可计算出每分钟的缓冲次数、缓冲时间;图像指标根据上述文献提供的公式,抓取视频帧,求出每帧图像的模糊度和块效应,再对每帧的值进行平均,得出对应的指标值。
图2 测试视频
Fig.2 Test videos
表2 视频信息
Tab.2 The information of videos
视频名称分辨率比特率/Mbps火箭640×4803.75演唱会1280×72013.8麋鹿1920×108015篮球赛1920×108020鲜花1920×108015童话故事1920×108020
表3 实验指标
Tab.3 The experimental index
带宽/Mbps丢包率/%20,19,18,17,16,15,14,13,12,11 1,2,3,4,5,6,7,8,9,10
测试指标的同时,还按照ITU-R Rec.BT.1788标准安排了18名人员观看视频,给出主观MOS值(1~5分制)。如图3所示,当固定带宽=20 Mbps后,丢包率逐渐增加时,视频的业务指标值会相应增加,导致用户经常性等待视频缓冲,尤其是缓冲次数过多,用户将无法观看或者观看时间太短;此外视频图像出现模糊度、块效应等现象,使得画质也受到损失,导致视频可观赏性下降,严重影响了视频质量,降低了用户体验。
从测试结果可以看出,选取的影响指标和视频质量有较大的关联性。网络指标的变化,会引起网络环境恶化,导致视频观看时经常出现卡顿现象,同时视频图像出现模糊、块状效应,降低了视频质量。下一步将利用模糊控制的方法,对这些指标进行推理,得出视频质量客观评估值。
图3 实验数据
Fig.3 Experimental results
模糊控制是由美国控制论学者L.A.扎德提出,它是研究和处理模糊性现象的一种数学理论和方法[22]。如图4所示,模糊控制过程主要由模糊化接口、知识库、模糊推理和输出解模糊接口组成。模糊控制的核心主要取决于模糊规则、推理算法、以及去模糊化算法等因素。
图4 模糊控制
Fig.4 Fuzzy control
模糊化接口是把输入数据通过一定的映射关系,转化为一系列模糊等级,这里的映射关系称为隶属函数。知识库提供必要的定义,所有输入输出变量以及对应的论域、规则表、模糊子集都放在知识库里。模糊推理根据模糊控制规则表,对输入的一系列条件进行综合评估,以得到模糊输出量,最后进行去模糊化处理,得到视频质量客观值。如图5所示,本文提出采用模糊控制的客观评估模型,它的具体步骤如下。
(1)变量定义:
网络、应用、图像这三组指标构建了三层模糊控制模型,它们分别作为模型的输入,再推理出每层的客观值(MOSi),为了综合考虑每层推理出的客观值,对每层赋予了不同权值,最后得出总的客观评估值(MOS)。
(2)模糊化
对输入的应用指标采用单点模糊运算,即输入点对应的模糊变量值为1,具体计算公式(1):
(1)
其中x代表输入的实际值,μ(x)代表输入量模糊后的值。以带宽为例当输入20时,仅在这点μ(x)=1其余点均为0。以此类推,根据输入的实际值,会得到对应的模糊值。
图5 评估模型
Fig.5 The assessment model
然后把输入的指标划分为5个等级(分别是负大(NB)、负中(NM)、零(ZE)、正中(PM)、正大(PB),代表指标从差到好),给出每个指标对应的隶属度函数。如图6所示,仍然以带宽为例,把输入的带宽范围(11~20)划分为5个等级,这样每个输入的指标都可以找到对应的概率值了。
图6 带宽的隶属度函数
Fig.6 The membership function of bandwidth
例如:其他几个等级对应的隶属度函数也可以照例给出。这样每个指标都可以依次给出对应的隶属度函数了,需要说明的是,推导的客观MOS值也是划分为5个等级。
(3)模糊规则表
模糊规则表是模糊推理的关键,表4是根据用户经验,实验中设定的模糊控制规则表,该表中包含25条规则。
例如R1:当输入A是PB,B是PB时,代表这两个指标都较好,推理出的结果也较好;
………………………………………
R25:当输入A是NB,B是NB时,代表两个指标都较差,推理出的结果也较差。
以网络视频指标为例,如果输入的带宽较低(NB)、丢包率较高(NB),则得到的客观值也就越低(NB)。按照制定好的规则表,每次根据输入值,就可以得出对应的推理结果。
表4 模糊规则
Tab.4 The fuzzy rules
AB PBPMZENMNBPBPBPMZENMNBPMPMPMZENMNBZEZEZEZENMNBNMNMNMNMNMNBNBNBNBNBNBNB
(4)推理过程
设输入的模糊指标为A′和B′,根据它们所处的取值范围选择需要用到的规则,其中Ai和Bi代表每条规则的隶属度函数,Ci代表需要推导的客观值隶属度函数,R是推理中用到的规则集合,最后使用公式(4)进行最大-最小法计算得到模糊值C′。
Ri=(Aiand Bi)→Ci
(2)
(3)
C′=(A′ and B′)°R
(4)
式中三种模糊逻辑运算:and运算、蕴含运算→用于求交,合成运算°表示最大-最小方法。 按照上述四个步骤,每次输入不同的影响指标,经过计算就可以得到对应的MOSi模糊值。
(5)去模糊化
实验数据经过推理之后,需要进行去模糊化处理,才能得到一个清晰的输出MOSi,本次实验对比了两种去模糊化方法:最大隶属度函数法、加权平均法。
最大隶属度法:选取推理结果模糊集合中隶属度最大的元素作为输出值。
MOSi=max μk (k=1,...,m)
(5)
加权平均法:对于具有m个输出量化级的离散论域情况,进行平均化处理。
(6)
完成上述所有步骤后,将会得到三层清晰的客观值MOSi,为了体现不同层对客观值MOS的影响,赋予不同权值。这里分别设置为0.4,0.3,0.3。因为考虑到网络指标变化是引起应用指标、图像指标变化的原因,所以网络指标权值设置较大,其他两个相等,即:
(7)
如图7所示,上述评估模型,是在MATLAB R2014a下搭建了Simulink仿真平台,实验过程中每次提取三组影响指标,再根据上一节提到的模糊推理步骤,推导出客观MOS值。由于不同文献提出的客观评估方法,应用场景和影响指标不同,而经典客观评估方法稳定性较好,适用场景多[23];为了体现该方法的准确性,本文主要对比了经典客观评估方法。该方法具体和PSNR、SSIM、MSSIM (Multi Scale SSIM)、VIF (Visual Information Fidelity) [24]、MOVIE(Motion-based Video Integrity Evaluation)[25]和线性回归[26]等方法作了比较。线性回归的方法是使用三组影响因素,线性拟合客观评估模型,即:
(8)
其中αi表示影响因素的参数,xi表示影响因素。
图7 MATLAB Simulink 仿真平台
Fig.7 The simulation platform of MATLAB Simulink
表5、表6分别给出了上述方法的Spearman和Pearson主客观相似度,从表中数据可看出,本文所提的方法均好于以往的评估方法,它有效地提高了客观评估的准确性。
表5 Spearman相似度
Tab.5 The similarity of Spearman
算法火箭演唱会麋鹿篮球赛鲜花童话故事平均值PSNR0.6120.6020.6210.5950.6240.6160.612SSIM0.7170.7020.7220.6980.7250.7180.714MSSIM0.7860.7620.7930.7510.7660.7630.770VIF0.6530.6410.6610.6480.6710.6420.653MOVIE0.8130.8020.8210.7960.8230.8150.811线性回归0.8460.8340.8500.8260.8490.8410.841最大隶属度法0.9120.9010.9210.8970.9250.9150.912加权平均法0.9310.9120.9410.9080.9340.9330.927
表6 Pearson相似度
Tab.6 The similarity of Pearson
算法火箭演唱会麋鹿篮球赛鲜花童话故事平均值PSNR0.6170.6080.6240.5970.6280.6190.616SSIM0.7190.7050.7260.7010.7280.7220.717MSSIM0.7890.7650.7960.7630.7690.7680.775VIF0.6590.6450.6670.6520.6760.6470.658MOVIE0.8150.8040.8230.7980.8240.8170.813线性回归0.8480.8350.8520.8270.8510.8430.842最大隶属度法0.9150.9060.9250.9010.9260.9170.915加权平均法0.9330.9150.9460.9110.9350.9360.929
如图8所示,给出了“篮球赛”的主客观值,从结果可以看出,模糊控制评估模型具有较好的主客观线性关系,客观值更贴近主观值,说明该方法相比其他几种方法,能够得到更为准确的客观值。该方法相比其他几种方法具有以下优点:(1)一个评估模型中综合考虑了不同的影响因素;(2)模糊推理过程可控,可以根据实际的推理效果,及时调整推理模型;(3)对不同层的推理结果,进行了权重均衡。所以本文提出的方法,可以提高评估的准确性。
图8 主客观值
Fig.8 The subjective and objective scores
本文提出了一种基于模糊控制的网络视频质量评估方法,该方法综合考虑网络指标、应用指标、图像指标对视频质量的影响,构建了三层模糊控制模型;为了进一步提高客观评估的准确性,根据指标的重要性,赋给了每层客观值不同权值,同时给出了两种不同的去模糊化方法;通过仿真实验对比了其他六种经典的客观评估方法,结果显示所提出的方法主客观相似度均有提高。
该方法具有较好的实用性,较全面考虑了不同影响指标,同时根据实测数据构建了评估模型,提高了评估的准确性。下一步还将考虑更多的影响因素,改进推理过程,调整权值,继续完善评估模型。
[1] Bampis C G, Li Zhi, Katsavounidis I, et al. Recurrent and Dynamic Models for Predicting Streaming Video Quality of Experience[J]. IEEE Transactions on Image Processing, 2018, 27(7): 3316-3331.
[2] 刘春阳, 朱琦. 无线视频通信中带宽分配策略[J]. 信号处理, 2015, 31(6): 737-743.
Liu Chunyang, Zhu Qi. Bandwidth Allocation Scheme over Wireless Video Communication[J]. Journal of Signal Processing, 2015, 31(6): 737-743.(in Chinese)
[3] Moss F M, Wang Ke, Zhang Fan, et al. On the Optimal Presentation Duration for Subjective Video Quality Assessment[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2015, 26(11): 1977-1987.
[4] Li Fan, Shuang Fu, Liu Ziyi, et al. A Cost-Constrained Video Quality Satisfaction Study on Mobile Devices[J]. IEEE Transactions on Multimedia, 2017, 20(5): 1154-1168.
[5] Demirtas A M, Reibman A R, Jafarkhani H. Full-Reference Video Quality Estimation for Videos With Different Spatial Resolutions[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2015, 26(11): 1988-2000.
[6] Hu Sudeng, Jin Lina, Wang Hanli, et al. Objective Video Quality Assessment Based on Perceptually Weighted Mean Squared Error[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 27(9): 1844-1855.
[7] Zhu Kongfeng, Li Chengqing, Asari V, et al. No-reference video quality assessment based on artifact measurement and statistical analysis[J]. IEEE Transactions on Circuits and System for Video Technology, 2014, 25(4): 533-546.
[8] Vega M T, Mocanu D C, Famaey J, et al. Deep learning for quality assessment in live video streaming[J]. IEEE Signal Processing Letters, 2017, 24(6): 736-740.
[9] Fiedler M, Hossfeld T, Tran-Gia P. A generic quantitative relationship between quality of experience and quality of service[J]. IEEE Network, 2010, 24(2): 36- 41.
[10] Youssef Y B, Mellouk A, Afif M, et al. Video Quality assessment based on statistical selection approach for QoE factors dependency[C]∥IEEE Global Communications Conference 2016. Washington, DC: USA, 2016: 1- 6.
[11] Zhang Fan, Bull D R. A perception-based hybrid model for video quality assessment [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2015, 26(6): 1017-1028.
[12] 宋佳润, 苏洪磊, 杨付正. 网络视频质量包层评估模型研究[J]. 西安电子科技大学学报, 2013, 47(6): 37- 43.
Song Jiarun, Su Honglei, Yang Fuzheng. Packet Layer Assessment Model for Networked Video Quality[J]. Journal of Xi Dian University, 2013, 47(6): 37- 43.(in Chinese)
[13] 余春艳, 吴丽丽, 陈国龙, 等. 基于运动剧烈程度的无参考视频质量评价模型[J]. 光子学报, 2013, 42(7): 864- 871.
Yu Chunyan, Wu Lili, Chen Guolong, et al. A No-reference Assessment Model for Video Quality Based on Movement Activity[J]. Acta Photonica Sinica, 2013, 42(7): 864- 871.(in Chinese)
[14] 刘河潮, 常义林, 陈玉峰. H.264/AVC网络视频的丢包失真评估[J]. 哈尔滨工业大学学报, 2014, 46(5): 81- 86.
Liu Hechao, Chang Yilin, Chen Yufeng. H.264/AVC video quality assessment over IP network based on packet loss[J]. Journal of Harbin Institute of Technology, 2014, 46(5): 81- 86.(in Chinese)
[15] K. P. Mok R, W. W. Chan E, K. C. Chang R. Measuring the Quality of Experience of HTTP Video Streaming[C]∥12th IFIP/IEEE International Symposium on Integrated Network Management and Workshops 2011. Dublin: Ireland, 2011: 485- 492.
[16] Kawano T, Yamagishi K, Watanabe K, et al. No Reference Video Quality Assessment Model For Video Streaming Services[C]∥2010 18th International Packet Video Workshop, HongKong: China, 2010: 158-164.
[17] Zheng Xu, Yang Bo, Liu Yanwen, et al. Blockiness Evaluation for Reducing Blocking Artifacts in Compressed Images[C]∥2009 Digest of Technical Papers International Conference on Consumer Electronics, Las Vegas, NV: USA, 2009: 1-2.
[18] Hameed A, Dai Rui, Balas B. A Decision-Tree-Based Perceptual Video Quality Prediction Model and Its Application in FEC for Wireless Multimedia Communications[J]. IEEE Transactions on Multimedia, 2016, 18(4): 764-774.
[19] Zhao Zhenbing, Yuan Jinsha, Gao Qing, et al. Wavelet image de-noising method based on noise standard deviation estimation[C]∥2007 International Conference on Wavelet Analysis and Pattern Recognition, Beijing, China, 2007: 1910-1914.
[20] Chen Zhibo, Liao Ning, Gu Xiaodong, et al. Hybrid Distortion Ranking Tuned Bit stream-Layer Video Quality Assessment[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 26(6): 1029-1042.
[21] Nightingale J, Wang Qi, Grecos C, et al. The impact of Network Impairment on Quality of Experience (QoE) in H.265/HEVC Video Streaming[J]. IEEE Transactions on Comsumer Electronics, 2014, 60(2): 242-250.
[22] Xu Qiwei, Luo Xiaoxiao, Jiang Xiaobiao, et al. Research on double fuzzy control strategy for parallel hybrid electric vehicle based on GA and DP optimisation [J]. IET Electrical Systems in Transportation, 2018, 8(2): 144-151.
[23] Al-Naji A, Lee S H, Chahl J. Quality index evaluation of videos based on fuzzy interface system[J]. IET Image Processing, 2017, 11(5): 292-300.
[24] Moorthy A K, Seshadrinathan K, Soundaratajan R, et al. Wireless Video Quality Assessment: A Study of Subjective Scores and Objective Algorithms[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2010, 20(4): 587-599.
[25] Moorthy A K, Choi L K, Bovik A C, et al. Video Quality Assessment on Mobile Devices: Subjective, Behavioral and Objective Studies[J]. IEEE Journal of Selected Topics in Signal Processing, 2012, 6(6): 652- 671.
[26] Khan A, Sun Lingfen, Ifeachor E. QoE Prediction Model and its Application in Video Quality Adaptation Over UMTS Networks[J]. IEEE Transactions on Multimedia, 2012, 14(2): 431- 442.