责编 | 夕颜
头图 | CSDN付费下载自视觉中国
2020年7月1日晚上(日内瓦韶光),第十九次JVET会议在线上落下帷幕,新一代国际视频编码标准VVC初版(Versatile Video Coding version 1)[1] 在这次会议上正式定稿。接下来的两天里,JVET委员会的两个上层组织(parent body)分别用各自的办法认可了VVC标准:国际电信同盟ITU-T的SG16 (study group 16)批准VVC标准并正式定名为ITU H.266,而国际标准化组织ISO/IEC的MPEG事情组在第131次会议闭幕大会上批准VVC成为ISO/IEC 23090-3 FDIS(final draft international standard)并正式启动各个国家末了的投票过程。从2018年4月JVET在美国圣迭戈召开会议,评估各大公司提交的提案书(response to joint call for proposals)并设立了第一个VVC测试模型(VVC test model 1.0)开始,到2020年7月由于疫情将JVET会议从原操持在日内瓦ITU-T总部改成网会的形式召开,VVC标准共经历十次会议,总计六千多份技能提案的激烈谈论,初版终于成功定稿。

比较起现在在业界广泛利用的H.265/HEVC标准和H.264/AVC标准,H.266/VVC标准的制订考虑了更多样的视频格式和内容,旨在为已有和新兴的视频运用供应更加强大的压缩性能以及更加灵巧易用的功能。因此它的定稿将会给环球视频业界带来巨大的影响,商用VVC编解码器的成熟可以大幅度降落本钱,提升效率,同时与5G网络更新换代的步伐相合营,匆匆成更多的新兴视频运用的大规模推广。VVC的标准制订过程也代表着包括阿里巴巴在内的中国各家互联网公司第一次参加国际视频标准的制订,因此,VVC标准对中国视频业界的意义尤其重大。在这篇文章里,让我们来一起回顾一下VVC标准的制订过程,它所供应的前辈的压缩工具,强大的压缩性能和灵巧功能,以及达摩院XG实验室视频标准团队对VVC标准的贡献。
国际标准化组织ISO/IEC MPEG和国际电信同盟ITU-T VCEG简介
提及对业界影响最深的国际视频标准,不得不先说一下两个重磅国际标准组织:国际电信同盟ITU-T和国际标准化组织ISO/IEC。从组织架构上来说,国际电信同盟和国际标准化组织都是联合国下属的技能部门。这两个组织所涉及的标准化范围非常广泛,涵盖了通信行业,多媒体行业,AI行业,以及其它数不胜数的行业,遍及大家当代生活的各个方面。这两家组织在视频编解码标准化方面的委员会分别是VCEG (video coding experts group,正式名称为ITU-T/SG 16/WP3/Q.6)和MPEG(moving picture experts group,正式名称是ISO/IEC JTC1/SC 29/WG 11)这两个事情组。如图 1所示,这两个视频标准事情组都是从90年代初开始就制订视频编解码标准,到H.266/VVC已经是他们制订的第6代视频标准,也是这两强联手共同制订的第4代国际视频标准。这两强联合所制订的视频标准对技能的变革和产品的推动都有深刻影响,比如MPEG2(也是ITU H.262)引领了仿照电视到数字电视的变革,H.264/AVC引入了高清视频和互联网视频,并在各种端设备上(包括电视,手机,电脑,机顶盒等)全面落地,而H.265/HEVC则成功引入了超高清4K和HDR 视频。H.264/AVC和H.265/HEVC这两个视频标准是通过技能的变革来推动了商业上的巨大变革的成功案例。它们大幅度推广了视频运用,提高了用户体验,对业界产生的深远影响也让它们分别得到了国家电视艺术及科学学院所颁布的电视界最大声誉:黄金时段艾美奖。
图 1. 各代国际视频标准“族谱”
读到这里,大家可能都想问,为什么几十年过去了,标准组织还在勤学不辍的制订新的视频编解码标准?答案实在很大略,便是由于虽然同期内信息论和网络传输技能的迅猛发展给消费者带来了更多的带宽,但是光靠带宽的增长自身远远知足不了越来越多的视频运用对高效率高质量视频数据传输的需求;因此,供不应求的局势造成带宽资源的本钱一贯居高不下。为理解决这个问题,每一代视频标准的迭代更新都有一个必要条件,便是必须在视频画面质量保持不变的条件条件下,新的标准比较上一代视频标准的压缩性能要翻倍,也便是可以担保用一半的成本来实现同样的画质和用户体验。如图 2所示,这个目标在过去的每一次标准更新换代中都做到了,也同样代表着视频业界对最新一代标准VVC的期待。
图 2. 视频标准更新换代的性能目标:2x的压缩性能
VVC标准化进程概述
虽然从正式的标准化流程来说,VVC标准的制订是从2018年4月圣地亚哥会议开始的,但是实在早在2015年10月,VCEG和MPEG就已经成立了JVET (joint video exploration team)联合技能委员会,并设立JEM(joint exploration model)参考平台,在此平台根本上专注开拓比HEVC更加前辈的视频编解码技能(图 3)。通过2年多在编解码技能上耕耘和积累,到2017年,在PSNR(peak signal to noise ratio)指标保持不变的情形下, JEM比较HEVC的参考测试模型HM已经可以做到34%的编码效率提升,为开始开拓新一代视频标准奠定了主要的技能根本。同期内,JVET也致力研究360全景视频,为支持AR 和VR等新兴视频运用打根本。2016年内JVET建立了360Lib 这个参考平台,为360度全景视频的前后处理,编解码和全景视频质量评估等主要技能点定义了一整套全链路处理流程和质量评估体系。
图 3. VVC正式标准化开始之前,经历了3年的技能积累
2017年10月,ITU-T VCEG和ISO/IEC MPEG正式共同发布了新一代标准的技能搜聚书(joint call for proposals)[2]。这个技能搜聚书中不只包括了已经在业界广泛利用的标准动态范围(standard dynamic range,简称SDR)视频格式,同时还包括了高动态范围视频(high dynamic range,简称HDR)和360全景视频两种新兴视频格式,是ITU-T和ISO/IEC两个标准组织历史上第一次发布多视频格式的技能搜聚书。经由半年的准备事情,2018年4月圣地亚哥会议上,JVET共收到了来自全天下各地共32个单位所提交的共23份提案(response to joint call for proposals),个中性能最高的提案在同样PSNR指标下比较HM可以提升40%以上的编码效率,充分证明下一代标准的编解码技能已经成熟 [3]。鉴于这个联合技能搜聚书的成功,在圣地亚哥会议上,JVET正式更名为 joint video experts team,并将下一代标准命名为versatile video coding,简称VVC,并建立了初版VVC测试模型(VVC test model)VTM-1.0 [4]。
从2018年4月到2020年7月,JVET委员会共召开了10次会议,经历了100多个高强度会议事情日,处理了来自全天下各地几十家公司和单位的6000多份技能提案。两年的韶光内,VVC标准顺利通过committee draft (CD),draft international standard(DIS)和final draft international standard(FDIS)三个主要里程碑(图 4),战胜了疫情的影响,并在2020年7月按时发布了VVC标准初版!
[1]
图 4. VVC标准化进程的紧张里程碑
做为一个主流视频标准, VVC产品型态将广泛触及视频家当链的各个环节:视频内容会涵括专业制作的版权内容,日常生活中拍摄的UGC,会议视频,直播视频,点播视频,体育赛事,HDR视频,全景视频,监控视频等多种视频类目,而设备上也会广泛覆盖手机,电脑,摄像头,机顶盒,电视,头戴式设备等多种终端。考虑到不同终真个软硬件能力相差悬殊,尤其是移动端更需特殊关注功耗,JVET在制订VVC标准的过程中,不仅追求卓越的压缩性能,同时也始终倍加关注VVC编解码算法的繁芜度,以担保VVC标准的实现繁芜度不超过目前软硬件的实现能力,以促进VVC标准可以早日在端上有软硬件的实现并早日在业务和运用中落地。在视频编解码这个领域,绝大多数的运用处景都存在着编码一次解码多次的不对称性(比如直播点播广播等),因此和历届标准一样,相对付编码器的繁芜度来说,VVC标准对解码器的繁芜度掌握得更紧。如图 5显示,VVC测试模型在从VTM-1.0到VTM-9.0的版本迭代过程中,在压缩性能大幅度提升的同时,解码器的繁芜度一贯基本持平,比较HEVC的解码繁芜度不超过两倍。同时,编码的繁芜度与压缩性能基本保持康健的正比关系。截至到VTM-9.0,VVC的性能基本稳定,在同样PSNR的条件下,比较HEVC对高清和超高清视频均匀码率节省达到39%。在后面的章节里我们会看到,如果不用PSNR而是用主不雅观质量做为衡量基准,这样的压缩效率的提升可以换算为50%以上的码率节省。
图 5. VTM的性能及繁芜度蜕变史
灵巧的块划分大幅度提高编码性能
为了提高压缩性能, VVC比较HEVC增加了30多种新的编码工具(图 6),覆盖了稠浊视频编解码系统框架中的每个模块,对包括块划分,帧内及帧间预测,残差编码,变换量化, CABAC熵编码,环路滤波等模块都做了一定程度的改进。
图 6. VVC编码工具一览
由于VVC中的编码工具浩瀚,篇幅有限在这里不一一赘述。我们就只拿VVC所支持的块划分来做个大略的例子。VVC的编码单元(Coding Tree Unit,简称CTU)最大可以覆盖到128x128亮度像素区域,同时除了支持四分树,也支持二分树和三分树的块划分。如图 7所示,由于VVC的块划分更加灵巧,比较H.265/HEVC标准而言,VVC可以用更大的块划分来高效率的表达视频内容中相对平缓的区域,而对付纹理细致边缘信息丰富的区域,VVC可以通过二分树和三分树的办法做到更加细致的表达。其余,VVC还支持几何划分模式这种非矩形形状的划分方法,因此可以更加精准地描述物体的轮廓。
图 7. VVC支持更加灵巧的块划分
VVC为多种视频格式供应卓越的压缩性能
前面提到过,ITU-T VCEG和ISO/IEC MPEG 每次发布新一代的国际视频标准,其最主要的任务便是在视频质量相同的条件下,将压缩性能翻倍,也便是带宽(或存储)本钱减半。VVC标准也肩负着一样的性能目标。
在标准开拓过程中,JVET标准委员会须要进行大量的核心实验,来网络编码工具的压缩性能和繁芜度数据,并根据核心实验的数据来决定是否采纳一个新的编码工具。为了可以快速网络到压缩性能和繁芜度的数据,标准开拓的过程中一样平常采取大家公认并易于打算的客不雅观性能指标做为压缩效率的衡量,比如PSNR便是一个常常被利用的客不雅观质量评估方法,可以用来衡量经由压缩后的视频比较原始视频的失落真度。
如表 1所示,在PSNR保持不变的条件下, VVC参考软件VTM-9.0比较于HEVC来说,在不同分辨率的视频均匀可以节省码率37.3%,而且分辨率越高,码率节省越多,对4K超高清视频来说,码率节省可以达到40%以上 [5]。
表 1. VVC在不同分辨率的SDR视频上的客不雅观性能增益(基于PSNR的质量评估)
但是对视频质量评估而言,比PSNR这个客不雅观质量远远更加主要的是主不雅观质量。国际标准 ITU-R rec. BT500-14 对视频主不雅观质量的评估制订了一套严谨的评估方法和步骤 [6],通过让视力正常的人群对视频质量打分并进行严格的统计剖析的方法来得到视频主不雅观质量均匀分(mean opinion score ,简称MOS)和MOS的可信度(confidence interval)。这样所得到的MOS才是对视频质量最威信的评估,也是每次在新一代标准定稿往后,正式比拟新旧两代标准的压缩性能的时候必须利用的质量评估方法。2020年上半年VVC标准即将定稿之际,JVET委员会就已经开始动手预备VVC的性能验证测试(VVC verification testing)事情, 开启基于视频主不雅观质量的压缩性能验证事情 [7]。如图 9所示,从目前网络到的初步主不雅观测试结果上看,在4K视频内容上,在同样的主不雅观质量条件下,VVC 可以达到50%-55%的码率节省 [8]。VVC性能验证测试的正式结果预期将在10月份发布。其余解释一下,为了有效地防止压缩算法的过拟合问题,担保测试结果的公允性,正式的性能验证测试所利用的视频内容都是在标准开拓过程中从来没有利用过的视频内容。
图 9:两个4K序列的初步主不雅观测试结果
前面提到VVC标准的全称是Versatile Video Coding,以是第一个V代表着VVC“多才多艺“的一壁。由于最近几年视频采集处理技能的迅猛发展,除了传统的SDR视频内容,HDR和360全景视频等新兴视频内容开始走入消费者的生活。同时,由于远程办公的兴起,在视频会议场景中更多的时候须要对屏幕内容(如PPT,文档,xls等)进行分享。比较起图 7中摄像头采集的自然视频内容,图 10所示的屏幕视频内容富含笔墨,高频信息丰富,须要不同的编码工具。为了更好的支持屏幕内容编码,VVC将HEVC的屏幕编码扩展(HEVC screen content coding extension)中所支持的几个屏幕编码工具也纳入了VVC main profile,为屏幕内容编码供应更广泛的硬件解码支持。
图 10:屏幕内容示例
对付高动态范围HDR视频,VVC同时考虑到了业内广泛利用的HLG(hybrid log-gamma)和PQ (perceptual quantizer)两种紧张变换函数(transfer function)。对付HDR视频,VTM参考编码器中支持块级QP调度的算法来适应HDR视频更大的亮度动态范围和更宽的色彩空间,提升HDR视频(尤其是基于PQ的HDR视频)的压缩性能。同时JVET委员会也通过一个叫做HDRTools的参考平台对HDR视频处理和质量评估等方面供应全面的技能支持。表 2显示在PSNR保持不变的条件下,VVC比较于HEVC可以在HLG和PQ两种HDR视频上达到快40%的码率节省 [9]。同时,VVC性能验证测试中也包括HDR视频格式,将通过正式主不雅观质量测试的方法来确认VVC相对付HEVC在HDR视频上的性能增益,正式测试结果预期将在2020年内发布 [7]。
表 2. VVC在HLG和PQ两种HDR视频上的客不雅观性能增益(基于PSNR的质量评估)
对付360全景视频来说,在VVC尚未正式开始的JEM时期,JVET委员会就采纳了360Lib参考平台,并将360Lib与HM,JEM和后来的VTM相结合形成一套完全的参考平台系统,并在这个平台的根本上,对360全景视频的投影,压缩和质量评估等关键技能问题进行了深入的研究。ITU-T和ISO/IEC联合发布的VVC技能搜聚书中也包括了360全景视频这一主要视频类目。因此,VVC标准从一开始就充分考虑到AR和VR这些新兴的视频运用,在VVC标准开拓过程中针对这些运用的需求进行了深度的算法优化。VVC标准支持一个叫做水平环抱运动补偿(Horizontal wrap-around motion compensation)的编码工具,可以显著提高equi-rectangular projection(ERP)投影格式的主不雅观质量(ERP是目前业界利用最广泛的全景视频投影格式)[10]。
其余,VVC还支持一些比ERP更加前辈的投影格式(比如generalized cubemap projection,简称GCMP)[11]。实验证明将这些前辈的投影格式与核心VVC编码器结合后,可以进一步提高全景视频的压缩性能。同时,VVC编码器还可以针对不同的投影格式进行采样密度的剖析,并相应调度块级QP,这样的策略也可以用来提高全景视频的压缩性能。由于全景视频相机的可视角度(field of view)远远高于传统相机,因此在对全景视频进行数字化采样是,必须利用超高清及以上的分辨率才能担保全景视频的质量。4K超高清对全景视频只是最低哀求,业界更多的是利用6K和8K这样的超高清分辨率来表达全景视频。这样高的视频分辨率对全景视频采集,处理,及压缩这些环节的算力都提出了很大的寻衅。因此,VVC标准中供应了更多的并行化处理工具(如子图像,矩形slice等)来更好的支持AR和VR这样的新兴视频运用。
一样平常相机是在二维平面上对视频旗子暗记进行采集,而全景视频相机是基于球面对视频旗子暗记进行采集,然后将在球面上采集到的视频旗子暗记投影到平面上。由于这个特性,在客不雅观视频质量评估的时候,一样平常意义上的PSNR并不适宜直接套用在全景视频上。针对这个技能问题,JVET委员会设计了WS-PSNR (weighted spherical PSNR)这个改进后的PSNR指标对全景视频进行客不雅观质量的评估 [11]。表 3中显示了VVC在同样的WS-PSNR指标之下,比较HEVC可以做到33%的码率降落 [12]。当然,与SDR视频和HDR视频一样,VVC在全景视频上的性能增益也一样须要通过主不雅观质量测试的方法来进行正式的评估 [7]。前面所提到的VVC性能验证测试事情中也包括360全景视频这个类目,目前正在推进中,正式主不雅观测试结果预期将在2020年内发布。
表 3. VVC在360全景视频上的客不雅观性能增益(基于WS-PSNR的质量评估)
结语
在经历了JEM上的三年标准前期技能积累,两年多的标准化,三个主要里程碑,几千篇技能提案,100多个会议事情日,数十个核心实验和专题谈论组一轮又一轮的激烈谈论之后,VVC终于成功出身!
这是视频编码标准史中的一个里程碑,标志着视频编码技能迈上了一个新的台阶,将推动全体视频行业又一次家当改造。VVC的成功制订离开不环球几百位视频编码专家的费力汗水和付出!
VVC是包括阿里巴巴在内的多个中国互联网公司第一次入场参与制订的国际视频标准。在制订过程中,达摩院XG实验室的视频标准团队对VVC中的多个编码工具做出了主要的技能贡献,个中包括亮度映射与色度缩放(luma mapping with chroma scaling,简称LMCS),几何划分,调色板模式,变换跳过模式的残差编码,参考帧重采样等多个编码技能。同时,我们这个标准团队的成员也担当过核心实验和专题谈论组的主席,做过代理主席主持过JVET大会,JVET分会和一些技能小组的会议谈论。在VVC性能验证评测这个主要事情中,团队成员是全景视频类目测试的卖力人,主导测试环境的定义并帮助天生多个测试码流。我们为VVC标准所做的这些贡献,既是XG实验室视频团队的荣幸,也是阿里巴巴作为一家中国互联网公司应有的技能担当和社会义务。
目前,XG实验室视频技能团队已启动VVC标准的软件编解码器项目研发,未来将用于提升直播、短视频等新业态的视频质量和用户体验。
参考文献
[1]. Versatile Video Coding (Draft 10), http://phenix.it-sudparis.eu/jvet/doc_end_user/current_document.php?id=10399
[2]. Joint Call for Proposals on Video Compression with Capability beyond HEVC, http://phenix.it-sudparis.eu/jvet/doc_end_user/current_document.php?id=3361
[3]. Report of results from the Call for Proposals on Video Compression with Capability beyond HEVC, http://phenix.it-sudparis.eu/jvet/doc_end_user/current_document.php?id=3540
[4]. Versatile Video Coding (Draft 1), http://phenix.it-sudparis.eu/jvet/doc_end_user/current_document.php?id=3538
[5]. JVET AHG report: Test model software development (AHG3), http://phenix.it-sudparis.eu/jvet/doc_end_user/current_document.php?id=10370
[6]. Methodologies for the subjective assessment of the quality of television images, https://www.itu.int/rec/recommendation.asp?lang=en&parent=R-REC-BT.500-14-201910-I
[7]. VVC verification test plan (Draft 3), http://phenix.it-sudparis.eu/jvet/doc_end_user/current_document.php?id=10416
[8]. Results of dry run subjective assessment of SDR UHD verification test, http://phenix.it-sudparis.eu/jvet/doc_end_user/current_document.php?id=10385
[9]. JVET AHG report: Coding of HDR/WCG material (AHG7), http://phenix.it-sudparis.eu/jvet/doc_end_user/current_document.php?id=10374
[10]. Algorithm description for Versatile Video Coding and Test Model 9 (VTM 9), http://phenix.it-sudparis.eu/jvet/doc_end_user/current_document.php?id=10156
[11]. Algorithm descriptions of projection format conversion and video quality metrics in 360Lib (Version 10), http://phenix.it-sudparis.eu/jvet/doc_end_user/current_document.php?id=9677
[12]. JVET AHG report: 360° video coding tools, software and test conditions (AHG6), http://phenix.it-sudparis.eu/jvet/doc_end_user/current_document.php?id=9366
作者先容:
叶琰,阿里巴巴达摩院XG实验室视频标准团队卖力人,代表阿里巴巴参与VVC标准制订,曾任代理主席主持过JVET大会,并多次担当VVC制订过程中的核心实验和专题谈论组主席。