音视频技术入门课-02 音频从采集到输出涉及哪些关键参数？

2023年6月7日上午11:59 • Linux • 阅读 104

我们平常听到的自然界的声音，比如说鸟鸣、水流，其实是一种模拟信号，声音是振动产生的一种声波，通过气态、液态、固态的物理介质传播并能被人或动物感知的波动现象。声音的频率一般会以赫兹（Hz）表示，指每秒钟周期性振动的次数。而声音的强度单位则用分贝（dB）来表示。现如今我们在电脑上、Pad 上、手机上听到的音乐、声音等音频信号，均为数字信号。

我们说的话或者在自然界中听到的一些声音，比如鸟鸣，水流等，都是通过空气振动来传输的模拟信号，我们可以通过麦克风或者拾音器采集到声音的模拟信号，然后将模拟信号转换成数字信号，这个过程可以通过麦克风来做，也可以通过音频的转换器来做，转换成数字信号之后将数字信息存储起来，或者输出到扬声器，扬声器会根据数字信号产生一定频率的振动，然后通过空气传播模拟信号到我们的耳朵里面，我们就听到了对应的声音。

在这个流程里我们需要了解一个基本的操作，就是先采集到模拟信号，然后通过 ADC（模数转换）将模拟信号转换成数字信号以后，再通过 PCM（Pulse Code Modulation）脉冲编码调制对连续变化的模拟信号进行采样、量化和编码转换成离散的数字信号，从而实现音频信号的采集。另外，也可以将采集的音频信号输出到扬声器、耳机之类的设备。

PCM 文件就是未经封装的音频原始文件，或者叫做音频”裸数据”。不同的扬声器、耳机设备，甚至是声卡输出设备，对音频的裸数据支持的情况不一样，有的设备支持单精度浮点型数据、有的设备支持双精度浮点型数据、有的设备支持无符号型数据、有的设备支持有符号型数据。因为输出的数据类型的支持不同，所以 PCM 采样数据的格式在输出之前，需要转换一下。这些数据的格式我们通常称之为采样数据格式。

音频 PCM 数据的输入和输出是需要有一个频率的。，通常我们人耳能够听到的频率范围是在 20Hz～20kHz 之间，为了保证音频不失真，音频的采样频率通常应该在 40kHz 以上，而理论上采样率大于 40kHz 的音频格式都可以称之为无损格式。现在一般的专业设备的采样频率为 44100Hz（也称之为 44.1kHz）。并且 44.1kHz 是专业音频中的最低采样率。当然要听到更高采样率，比如 96kHz、192kHz 采样频率中的细节的话，就取决于耳朵和对应的设备了。

在数字音频领域常用的采样率与对应的使用场景：

• 8000 Hz 主要是电话通信时用的采样率，对于传达人们说话时的声音已经足够了；
• 11025 Hz、22050 Hz 主要是无线电广播用的采样率；
• 44100 Hz 常用于音频 CD，MP3 音乐播放等场景；
• 48000 Hz 常用于 miniDV、数字电视、DVD、电影和专业音频等设备中。

采集不同方位的声源，然后通过不同方位的扬声器播放出来就产生了不同的声道。其实我们常见的声道内容除了左声道、右声道，还有立体声等，当我们听到的音频声道比较多，比如听交响乐的时候，立体感会尤为明显，示意图如下：

实际上，音频的声道布局不仅仅是上图这么简单。音频技术发展至今，声道布局远比图片显示的复杂得多

采样的位深度，也叫采样位深，它决定了声音的动态范围。平时，我们常见的 16 位（16bit）可以记录大概 96 分贝（96dB）的动态范围。也可以理解为每一个比特大约可以记录 6dB 的声音。同理，20bit 可记录的动态范围大概是 120dB，24bit 就大概是 144dB。

计算公式如下：

dB = 20 * log(P1/P2)
其中 P1/P2 可以看作是一个整体的阈值，当声音采样深度为16bit时，P1/P2=65535，即dB≈96；
当 P1/P2 的具体值不确定时，则有 dB = 20 * log( Audio data )

举个例子，我们假定 0dB 为峰值，那么音频的振动幅度就需要以向下延伸计算，所以音频可记录的动态范围就是”-96dB～0dB”。而 24bit 的高清音频的动态范围就是”-144dB～0dB”。由此可见，位深度较高时，有更大的动态范围可利用，可以记录更低电平的细节。

但位深度并不是越大越好，也不是越小越好，不同的场景有不同的应用。

44dB 属于人类可以接受的程度，55dB 会使人感觉到烦躁，60dB 会让人没有睡意，70dB 会令人精神紧张，85dB 长时间听会让人感觉刺耳，100dB 会使人暂时失去听觉，120dB 可以瞬间刺穿你的耳膜，160dB 会通过空气振波震碎玻璃，200dB 可以使人死亡。

通常为了高保真，我们会选择使用 32bit，甚至 64bit 来表示音频。而常规音频通话使用 16bit 来表示即可，当然条件有限的话，8bit 也可以，但它是底线。因为 8bit 的音频表示，听起来有时候会比较模糊。

所谓码率，我们通常可以理解为按照某种频率计算一定数据量的单位，重点体现在”率”上面，我们常用的码率统计时间单位为秒，所以码率也就是一秒钟的数据量，通常我们用 bps（bits per second）来表示，也就是每秒钟有多少位数据。而我们平时所说的码率，可以简单理解为每秒钟存储或传输的编码压缩后的数据量。

那这个音频码率是怎么算出来的呢？

例如我们有一个双声道立体声、采样率是 48000、采样位深是 16 位、时长为 1 分钟的音频，它的存储空间占用计算应该是：

声道数×采样率×采样位深×时长=2×48000×16×60=92160000b=11520000B=11.52MB

码率应该是：

92160000b÷60s=1536000bps=1536kbps=1.536Mbps

音频的码率可以间接地表示音频的质量，一般高清格式的码率更高。

我们在传输音频文件的时候经常会看到文件名后面有 MP3、AAC 这样的后缀，其实这些都是音频编码的格式。因为音频在传输和存储时，如果直接存储 PCM 音频数据的话，消耗的带宽或者存储空间会比较多，所以我们为了节省传输带宽或者存储，通常会选择对音频数据做编码压缩处理。

我们在互联网上常见的音频编码有 AAC、MP3、AC-3、OPUS，个别地方还可能会使用 WMA，但是从兼容性来看，AAC 和 OPUS 更出众一些。目前 AAC 应用于众多音乐播放器和音乐格式封装中，OPUS 常见于语音通信中。

现在使用 AAC 编码格式的次数越来越多了，为什么大家突然都开始用 AAC 做音频编码了，以前很火的 MP3 呢？其实 MP3 也还在用，只不过 MP3 的音频编码压缩方式相对于 AAC 来说，性价比低了一些。对比二者的高音质，AAC HEv2 无论是从码率、清晰度还是音频的还原度来说，都比 MP3 更优秀。

做音频压缩的时候，也需要考虑自己的音频用于哪些场景，比如做音频通话的话可以考虑使用 OPUS，因为基于 OPUS 的音频，处理语音更方便一些，例如回声消除，降噪等。如果是做音乐压缩，我们可以考虑 AAC，因为 AAC 支持的音质与硬件兼容性更好一些。如果还要效果更好，但不太要求兼容性的话，AC-3 是一个不错的选择，因为杜比之类的音频，尤其是在全景声音乐压缩的场景下，使用 AC-3 做音频压缩效果更好，能够听到的细节会比 AAC 压缩的音频更多一些。

当我们播放一段 PCM 音频的时候，声音听上去比正常声音显得更尖更细，但是速度是正常的，是什么原因呢？

参考答案：

参考链接：

Original: https://www.cnblogs.com/xyjk1002-rejuvenation/p/16649675.html
Author: miyan
Title: 音视频技术入门课-02 音频从采集到输出涉及哪些关键参数？

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/581745/

转载文章受原作者版权保护。转载请注明原作者出处！

Linux

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深入理解linux内核-进程和程序

task_struct //进程基本信息 pid 进程id号 tgid 线程组id号，与线程组领头线程pid号相同 getpid()返回该值 tasks init_struct链接…

Linux 2023年6月6日
0077
Unable to install NuGet provider for PowerShell

https://docs.microsoft.com/en-us/officeonlineserver/enable-tls-1-1-and-tls-1-2-support-in-…

Linux 2023年5月28日
0080
canal-1.1.5实时同步MySQL数据到Elasticsearch

一、环境准备 1、jdk 8+ 2、mysql 5.7+ 3、Elasticsearch 7+ 4、kibana 7+ 5、canal.adapter 1.1.5 二、部署一、创…

Linux 2023年6月13日
00112
LINUX系统虚拟机环境的安装

安装VM和Centos Step 1 去BIOS里修改设置开启虚拟化设备支持设置BIOS： 1.开机按F2 、F12 、DEL 、ESC 等进入BIOS ，一般来说可以看屏幕的左…

Linux 2023年6月7日
0091
Macbook pro 2015-mid 15寸安装Debian时所需无线网卡驱动

https://pan.baidu.com/s/1o1oUZhK17fpgxpwH6bBkRQ?pwd=6kpt 把该文件放到u盘的firmware/目录下即可。给自己留个备份，…

Linux 2023年6月6日
00142
MSSQL中Repalce函数处理长字符串时报异常的解决方案

阅文时长 | 17.99分钟字数统计 | 28788.8字符主要内容 | 1、引言&背景 2、问题还原 3、解决方案 4、官方解释 5、声明与参考资料『MSSQL中Repa…

Linux 2023年6月14日
0081
循环通过逗号分隔的shell变量

假设我有一个Unix shell变量，如下所示 variable=abc,def,ghij 我想使用for循环提取所有值(abc，def和ghij)，并将每个值传递给一个过程。脚…

Linux 2023年5月28日
0091
Java面向对象之各种变量详解

在Java中一定有很多变量让大家头疼,成员变量、类变量、局部变量等等,今天就来分别认识认识他们吧! Java面向对象之各种变量详解前言在 Java语言中, 根据定义变量位置的不…

Linux 2023年6月13日
0084
【设计模式】Java设计模式-原型模式

【设计模式】Java设计模式 – 原型模式 😄 不断学习才是王道🔥 继续踏上学习之路，学之分享笔记👊 总有一天我也能像各位大佬一样🏆原创作品，更多关注我CSDN: 一个…

Linux 2023年6月6日
00129
Linux Ubuntu 添加新用户

1. 了解配置文件 Linux下与用户信息相关的配置文件有 /etc/passwd、 /etc/group、 /etc/shadow等，其权限分别如下： /etc/passwd：保…

Linux 2023年6月14日
00129
模拟重装Kubernetes(k8s)集群：删除k8s集群然后重装

服务器版本 docker软件版本 CPU架构 CentOS Linux release 7.4.1708 (Core) Docker version 20.10.12 x86_64…

Linux 2023年6月7日
0090
Windows 10安装

使用U盘安装操作系统教程本教程介绍如何使用U盘安装操作系统，以安装Windows 10过程作为举例。 1 获取操作系统iso镜像文件获取操作系统ISO镜像文件有很多途径，此处介…

Linux 2023年6月13日
00102
使用Kotlin协程配合Retrofit发送请求

Retrofit2.6开始增加了对Kotlin协程的支持，可以通过suspend函数进行异步调用。本文简单介绍一下使用Kotlin协程配合Retrofit使用，发起网络请求。 ap…

Linux 2023年6月8日
00116
零成本搭建个人博客搭建篇

为什么要搭建个人博客尽管已经有很多成型的在线博客平台供大家使用（csdn，博客园，掘金等），但是它们都有一些很明显的弊端，例如账号以及博客内容受到监管，所有权不属于作者本人，对于…

Linux 2023年6月7日
0073
WPF 推荐一个剪贴板内容查看工具

本文来安利大家一个好用的 Windows 剪贴板的内容查看工具这是在 GitHub 上完全免费开源的应用，由 walterlv 开发的应用，详细请看 https://github…

Linux 2023年6月6日
00138
面试必问的安卓虚拟机，你真的掌握了么？——安卓虚拟机基础知识回顾

前言 21世纪，安卓虚拟机正在一步步的走入我们的生活，小到个人部分朋友在电脑上使用安卓虚拟机玩手游，大到安卓从业人员在虚拟机上面跑程序。不得不承认，对于每一位Androider 而…

Linux 2023年6月13日
00104

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

音视频技术入门课-02 音频从采集到输出涉及哪些关键参数？

大家都在看