2022寒假一刷新一代高效视频编码原理、标准、实现（万帅）——第一章

2023年6月22日上午6:03 • 人工智能 • 阅读 71

文章目录

一、为什么要视频编码 / 视频压缩？
二、什么是视觉暂留效应
三、视频概念
四、视频数据量计算
五、有损压缩和无损压缩
六、衡量压缩算法优劣的两个参数：码率、失真
七、视频编码标准
八、制定视频编码标准的两大组织：ITU-T, ISO/IEC
九、编码框架

一、为什么要视频编码 / 视频压缩？

答：未经压缩的原始视频数据量惊人，无法用于实际的传输或存储。视频编码的目的是尽可能去除视频数据中的冗余成分，减少表征视频的数据量。

二、什么是视觉暂留效应

答：当连续播放图像每秒超过24帧以上时，人眼无法分辨出单幅的静止画面，图像序列看上去是平滑连续的视觉效果。（这样连续的画面叫做视频）

三、视频概念

视频一般指的是数字视频，本质而言是一系列内容连续的数字图像，按时间顺序排列而成。
图像是视频的基本单位。
区别静止图像，视频中完整图像被称为帧(frame)，由许多帧按照时间顺序组成的视频也称为视频序列。
视频序列中的每一幅图像，都是由NxM个像素组成，视频序列可以表示为三维矩阵，NxM表示每幅图像的像素值，形成视频的空间域，第三个维度代表视频的时间域。
彩色视频需要三个三维矩阵，分别代表基本的色彩分量，或亮度和色度分量。
帧率：每秒播放的帧数目，单位fps。

四、视频数据量计算

标清电影格式（720p，1280×720），3个色彩分量，像素均为8比特，帧率30fps，则一秒的数据量：
= 1280x720x3x8x30 = 6.64×10^8比特

五、有损压缩和无损压缩

数据压缩：设法减少表达这些信息所用的数据量
无损压缩：数据压缩后，所携带的信息没有损失，通过重建可以完全恢复为原来的数据。常用于：文本文件、程序文件、特殊场合的音频或图像压缩（完美音质的音乐制作、精确诊断的医学图像、来之不易的遥感图像等）
有损压缩：以一定的失真为代价，换取更高的压缩比。常用于：人类认识的音频、图像和视频。

图像往往包含很多细节，细节在频域里表现为大量的高频信息，人眼对细节/高频信息并不敏感，压缩时丢掉的高频信息不会被人眼所察觉。

六、衡量压缩算法优劣的两个参数：码率、失真

有损压缩追求：
在质量损失一定下获得最高的压缩比（最低的码率）；在码率一定的条件下，视频的质量最好。
视频还应该考虑在时间域的质量，即帧率的变化。
视频的时间域失真常见于网络视频传输的场景，传输中的视频数据遇到带宽变化，容易在接收端产生停顿等令人观看不适的现象。

七、视频编码标准

视频编码标准只规定了编码码流的语法语义和解码器，只要求视频编码后的码流符合标准的语法结构，解码器可以根据码流的语法语义进行正常解码。
意思是只对编码器进行规定，规定其编码后的码流符合标准即可。

在编码器输出的码流中，数据的基本单位是语法元素，每个语法元素由若干个比特组成，表征了某种特殊的物理意义，如预测类型、量化参数等。
视频编码标准的语法规定了各个语法元素的组织结构，而语义则阐述语法元素的具体含义。
编码器输出的比特流中，每比特都隶属于某个语法元素，每个语法元素都在标准中有相应的解释。

可见，视频编码标准规定了编码后码流的语法语义，也就阐明了从比特流中提取语法元素并进行解释的方法，也就是视频的解码过程。

八、制定视频编码标准的两大组织：ITU-T, ISO/IEC

ITU-T：国际电信联盟电信标准化部门（International Telecommunication Union-Telecommunication Standardization Sector, ITU-T）
ISO/IEC：国际标准化组织 / 国际电工委员会（International Organization for Standardization Commission, ISO）/ （International Electrotechnical Commission, IEC）

ITU-T：制定H.26X，包括H.261、H.263(H.263+、H.263++)，基于网络传输的视频通信，例如可视电话、会议电视等
ISO/IEC的MPEG（动态图像专家组）：制定MPEG系列，视频存储、广播电视、网络流媒体等

合作：[H.262 / MPEG-2] [H.264 / AVC] [H.265 / HEVC] [H.266 / VVC]

九、编码框架

混合编码框架：包含帧内预测、帧间预测、变换量化、去方块滤波、样点自适应补偿、熵编码
在这个编码框架图中，虚线代表的是控制信息，实线代表的是数据流，Encoder最终的输出是编码完成后的码流。

（1）代表的是预测模块，包括帧内预测和帧间预测，帧内预测用于消除空间冗余；帧间预测则主要用于消除时间上的冗余。帧内预测所使用的帧我们称为I帧;帧间预测所使用的帧分为P帧和B帧，P帧指的是向前预测帧，而B帧指的是双向预测帧。
（2）代表的是变换和量化，在（2）模块的左边有一个特殊的数据处理符号，这个符号下面还有一个减号，此处代表的是求残差，就是说，我们从（1）模块中得到的预测后的图片和原始图片的差值，称为残差。可以看到，变换和量化的输入就是刚刚得到的残差。
（3）这个一个完整的解码器，包括反量化、反变换、滤波。之所以编码器中要有一个完整的解码器，是因为编码器中最重要的是模块（1）预测模块，而做预测是要有参考帧的，基于已有的参考帧才可以对当前帧做帧内或者帧间预测。为了实现编码器和解码器的一致性（简单点说，就是我们用电脑或者其他的什么东东看HEVC的视频的时候，我们得到HEVC的比特流后，只需要一个解码器就可以了，通过解码器，我们得到一幅幅的图片，解码器在解码的时候其参考图片是前面已解码的图片，为了预测的准确性，编码器和解码器做预测的时候所参考的图片必须是一样的，所以在编码器中存在了一个完整的解码器，这个解码器的作用就是为了实现参考帧的一致性）。
（4）这个模块是从码流的视角进一步对视频流压缩，主要是消除编码冗余。

————————————————
版权声明：框架说明为CSDN博主「Duanxx」的原创文章，遵循CC 4.0 BY-SA版权协议。
原文链接：https://blog.csdn.net/daunxx/article/details/38365571

新的编码技术：
基于四叉树的灵活块分割结构、
不同角度的帧内预测模式、
自适应的运动矢量预测AMVP、
合并技术Merge、
可变尺寸的离散余弦变换、
模式依赖的离散正弦变换、
性能更好的CABAC、
新的样点自适应补偿器等。

Original: https://blog.csdn.net/weixin_42427696/article/details/122602834
Author: Mr.Twenty-one
Title: 2022寒假一刷新一代高效视频编码原理、标准、实现（万帅）——第一章

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/645015/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

NLP经典论文：ELMo 笔记

NLP经典论文：ELMo 笔记论文介绍模型结构文章部分翻译 * Abstract ELMo: Embeddings from Language Models –…

人工智能 2023年5月30日
0085
常用的UCI数据集

数据集信息：每条记录表示二维图形上的 100 个点。当按顺序（从 1 到 100）绘制为 Y 坐标时，这些点将创建一个山丘（地形中的”凸起”）或一个山谷（地…

人工智能 2023年6月30日
0067
Transformer中的encoder和decoder在训练和推理过程中究竟是如何工作的

Transformer中的encoder和decoder在训练和推理过程中究竟是如何工作的苦苦冲浪，找不到答案 Transformer结构（随便冲浪均可查到） Transform…

人工智能 2023年5月27日
0086
7种不同的数据标准化(归一化)方法总结

数据的归一化是数据预处理中重要的的一步，很多种方法都可以被称作数据的归一化，例如简单的去除小数位，而更高级归一化技术才能对我们训练有所帮助，例如 z-score 归一化。所以本文…

人工智能 2023年6月16日
0098
图像分割之–mmsegmentation使用

1、构建环境参考mmsegmentation使用说明：创建虚拟环境 conda create -n mmsegmentation python=3.8 进入虚拟环境 conda…

人工智能 2023年7月21日
0071
不平衡分类（二）-过采样（SMOTE）【Synthetic Minority Over-Sampling Technique ，“人工少数类过采样法“】

SMOTE的全称是Synthetic Minority Over-Sampling Technique 即”人工少数类过采样法”，非直接对少数类进行重采样，…

人工智能 2023年7月1日
0067
input输入框小写字母自动转换成大写字母的几种方式

input输入框输入小写字母自动转换成大写字母有两种方法： 1.用js onkeyup事件，即时把字母转换为大写字母：html里input加上 <input type=&qu…

人工智能 2023年6月29日
0089
全局坐标系与车身坐标系转换

在学习资料满天飞的大环境下，知识变得非常零散，体系化的知识并不多，这就导致很多人每天都努力学习到感动自己，最终却收效甚微，甚至放弃学习。我的使命就是过滤掉大量的无效信息，将知识体系…

人工智能 2023年6月2日
0059
维度和指标（metrics and dimensions）

维度和指标是什么？维度和指标大家或多或少都有接触过。属于数据分析领域的基础知识，在分析报告或者分析工具中时有出现，因此大家对此要有所了解。维度和指标的英文分别是metrics …

人工智能 2023年7月17日
0090
tensorrt部署YOLOv5模型记录【附代码，支持视频检测】

训练出来的模型最终都需要进行工业部署，现今部署方案有很多，tensorflow和pytorch官方也都有发布，比如现在pytorch有自己的Libtorch进行部署【可以看我另一篇…

人工智能 2023年7月13日
0078
通用化BP神经网络-激活函数

学习来源：日撸 Java 三百行（71-80天，BP 神经网络））_闵帆的博客-CSDN博客激活函数与求导式激活函数是改变BP神经网络线性特征的转换函数, 是用于forward…

人工智能 2023年6月25日
0082
缓存P27，28，29

一级缓存：准备工作：新建一个项目：复制这三个文件。并且再pom.xml中导入lombox的环境。再pojo中新建一个实体类User package com.Li.pojo; …

人工智能 2023年6月30日
0065
Pytorch归一化(MinMaxScaler、零均值归一化)

归一化：归一化就是要把需要处理的数据经过处理后（通过某种算法）限制在你需要的一定范围内。首先归一化是为了后面数据处理的方便，其次是保证程序运行时收敛加快。归一化的具体作用是归纳统一…

人工智能 2023年7月21日
0063
视频监控智能交通数据集（目标检测、跟踪）

前言总结一下视频监控的数据集，用于目标检测、跟踪，持续跟新中……….。一、UA-DETRAC 数据集 UA-DETRAC是一个具有挑战性的真…

人工智能 2023年6月17日
0083
Pytorch+cpp_cuda extension 课程一

以下学习来源于 youtube AI 葵老师的系列课程为了方便后续学习我将它上传到了我的 BliBli 上，国内的同学可以点击访问。 github code如果github打不开，…

人工智能 2023年6月27日
0068
7-FreeSwitch-mrcp-plugin-with-freeswitch（亲测可用，自我整理）

文章目录 mrcp-plugin-with-freeswitch 主要目的和技术援助方式第一步安装freeswitch * 1.下载 FreeSWITCH源码： 2.安装依赖库…

人工智能 2023年5月25日
00166

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

2022寒假一刷新一代高效视频编码原理、标准、实现（万帅）——第一章

文章目录

大家都在看