2022寒假一刷新一代高效视频编码原理、标准、实现(万帅)——第一章

文章目录

一、为什么要视频编码 / 视频压缩 ?

答:未经压缩的原始视频数据量惊人,无法用于实际的传输或存储。视频编码的目的是尽可能去除视频数据中的冗余成分,减少表征视频的数据量。

二、什么是视觉暂留效应

答:当连续播放图像每秒超过24帧以上时,人眼无法分辨出单幅的静止画面,图像序列看上去是平滑连续的视觉效果。(这样连续的画面叫做视频)

三、视频概念

视频一般指的是数字视频,本质而言是一系列内容连续的数字图像,按时间顺序排列而成。
图像是视频的基本单位。
区别静止图像,视频中完整图像被称为帧(frame),由许多帧按照时间顺序组成的视频也称为视频序列。
视频序列中的每一幅图像,都是由NxM个像素组成,视频序列可以表示为三维矩阵,NxM表示每幅图像的像素值,形成视频的空间域,第三个维度代表视频的时间域。
彩色视频需要三个三维矩阵,分别代表基本的色彩分量,或亮度和色度分量。
帧率:每秒播放的帧数目,单位fps。

四、视频数据量计算

标清电影格式(720p,1280×720),3个色彩分量,像素均为8比特,帧率30fps,则一秒的数据量:
= 1280x720x3x8x30 = 6.64×10^8比特

五、有损压缩和无损压缩

数据压缩:设法减少表达这些信息所用的数据量
无损压缩:数据压缩后,所携带的信息没有损失,通过重建可以完全恢复为原来的数据。常用于:文本文件、程序文件、特殊场合的音频或图像压缩(完美音质的音乐制作、精确诊断的医学图像、来之不易的遥感图像等)
有损压缩:以一定的失真为代价,换取更高的压缩比。常用于:人类认识的音频、图像和视频。

图像往往包含很多细节,细节在频域里表现为大量的高频信息,人眼对细节/高频信息 并不敏感,压缩时丢掉的高频信息不会被人眼所察觉。

六、衡量压缩算法优劣的两个参数:码率、失真

有损压缩追求:
在质量损失一定下获得最高的压缩比(最低的码率);在码率一定的条件下,视频的质量最好。
视频还应该考虑在时间域的质量,即帧率的变化。
视频的时间域失真常见于网络视频传输的场景,传输中的视频数据遇到带宽变化,容易在接收端产生停顿等令人观看不适的现象。

七、视频编码标准

视频编码标准只规定了编码码流的语法语义和解码器,只要求视频编码后的码流符合标准的语法结构,解码器可以根据码流的语法语义进行正常解码。
意思是只对编码器进行规定,规定其编码后的码流符合标准即可。

在编码器输出的码流中,数据的基本单位是语法元素,每个语法元素由若干个比特组成,表征了某种特殊的物理意义,如预测类型、量化参数等。
视频编码标准的语法规定了各个语法元素的组织结构,而语义则阐述语法元素的具体含义。
编码器输出的比特流中,每比特都隶属于某个语法元素,每个语法元素都在标准中有相应的解释。

可见,视频编码标准规定了编码后码流的语法语义,也就阐明了从比特流中提取语法元素并进行解释的方法,也就是视频的解码过程。

八、制定视频编码标准的两大组织:ITU-T, ISO/IEC

ITU-T:国际电信联盟电信标准化部门(International Telecommunication Union-Telecommunication Standardization Sector, ITU-T)
ISO/IEC:国际标准化组织 / 国际电工委员会(International Organization for Standardization Commission, ISO)/ (International Electrotechnical Commission, IEC)

ITU-T:制定H.26X,包括H.261、H.263(H.263+、H.263++),基于网络传输的视频通信,例如可视电话、会议电视等
ISO/IEC的MPEG(动态图像专家组):制定MPEG系列,视频存储、广播电视、网络流媒体等

合作:[H.262 / MPEG-2] [H.264 / AVC] [H.265 / HEVC] [H.266 / VVC]

九、编码框架

混合编码框架:包含帧内预测、帧间预测、变换量化、去方块滤波、样点自适应补偿、熵编码
在这个编码框架图中,虚线代表的是控制信息,实线代表的是数据流,Encoder最终的输出是编码完成后的码流。

2022寒假一刷新一代高效视频编码原理、标准、实现(万帅)——第一章
2022寒假一刷新一代高效视频编码原理、标准、实现(万帅)——第一章

(1)代表的是预测模块,包括帧内预测和帧间预测,帧内预测用于消除空间冗余;帧间预测则主要用于消除时间上的冗余。帧内预测所使用的帧我们称为I帧;帧间预测所使用的帧分为P帧和B帧,P帧指的是向前预测帧,而B帧指的是双向预测帧。
(2)代表的是变换和量化,在(2)模块的左边有一个特殊的数据处理符号,这个符号下面还有一个减号,此处代表的是求残差,就是说,我们从(1)模块中得到的预测后的图片和原始图片的差值,称为残差。可以看到,变换和量化的输入就是刚刚得到的残差。
(3)这个一个完整的解码器,包括反量化、反变换、滤波。之所以编码器中要有一个完整的解码器,是因为编码器中最重要的是模块(1)预测模块,而做预测是要有参考帧的,基于已有的参考帧才可以对当前帧做帧内或者帧间预测。为了实现编码器和解码器的一致性(简单点说,就是我们用电脑或者其他的什么东东看HEVC的视频的时候,我们得到HEVC的比特流后,只需要一个解码器就可以了,通过解码器,我们得到一幅幅的图片,解码器在解码的时候其参考图片是前面已解码的图片,为了预测的准确性,编码器和解码器做预测的时候所参考的图片必须是一样的,所以在编码器中存在了一个完整的解码器,这个解码器的作用就是为了实现参考帧的一致性)。
(4)这个模块是从码流的视角进一步对视频流压缩,主要是消除编码冗余。

————————————————
版权声明:框架说明为CSDN博主「Duanxx」的原创文章,遵循CC 4.0 BY-SA版权协议。
原文链接:https://blog.csdn.net/daunxx/article/details/38365571

新的编码技术:
基于四叉树的灵活块分割结构、
不同角度的帧内预测模式、
自适应的运动矢量预测AMVP、
合并技术Merge、
可变尺寸的离散余弦变换、
模式依赖的离散正弦变换、
性能更好的CABAC、
新的样点自适应补偿器等。

Original: https://blog.csdn.net/weixin_42427696/article/details/122602834
Author: Mr.Twenty-one
Title: 2022寒假一刷新一代高效视频编码原理、标准、实现(万帅)——第一章

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/645015/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球