音频处理-2 WAV格式

2023年5月23日下午9:15 • 人工智能 • 阅读 98

后续要将流量中的音频数据转为WAV格式文件，所以本节重点说下WAV格式。

WAV文件是在PC机平台上很常见的、最经典的多媒体音频文件,最早于1991年8月出现在Windows 3.1操作系统上,文件扩展名为WAV,是WaveFom的简写,也称为波形文件,可直接存储声音波形,还原的波形曲线十分逼真。WAV文件格式简称WAV格式是一种存储声音波形的数字音频格式,是由微软公司和IBM联合设计的,经过了多次修订,可用于Windows,Macintosh,Linix等多种操作系统,详述如下。

1 波形文件的存储过程

通过麦克风将声源发出的声波转换为连续变化的电信号，经过放大和抗混叠滤波后，以固定频率采样，每个采样为采样周期内检测到的电信号的幅度，然后从模拟电信号量化为二进制数表示的积分值，最后编码存储为音频流数据。为了节省存储空间，一些应用程序不得不在存储之前对采样数据进行压缩。

[En]

The sound waves emitted by the sound source are converted into continuously changing electrical signals through the microphone, and after amplification and anti-aliasing filtering, samples are sampled at a fixed frequency, and each sample is the amplitude of the electrical signal detected in a sampling period; then it is quantized from the analog electrical signal to the integral value represented by the binary number; finally, it is encoded and stored as audio stream data. In order to save storage space, some applications have to compress the sampled data before storage.

2 WAV文件的编码

编码包括了两方面内容,一是按一定格式存储数据,二是采用一定的算法压缩数据。WAV格式对音频流的编码没有硬性规定,支持非压缩的PCM(Puls Code Modulation)脉冲编码调制格式,还支持压缩型的微软自适应分脉冲编码调制Microsoft ADPCM(Adaptive Differential Puls Code Modulation)、国际电报联盟(International Telegraph Union)制定的语音压缩标准ITUG.711 a-law、ITU G.711-law、IMA ADPCM、ITU G.723 ADPCM (Yamaha)、GSM 6.10、ITU G.721 ADPCM编码和其它压缩算法。MP3编码同样也可以运用在WAV中,只要安装相应的Decode,就可以播放WAV中的MP3音乐。

下面详细介绍一下 WAV 格式文件常见的10种压缩码形式 (Compression Code)。

2.1 PCM/uncompressed

Pulse Code Modulation ，脉码调制信号。是模拟音频信号经模数转换（A/D 变换）直接形成的二进制序列，该文件没有附加的文件头和文件结束标志。 Windows的Convert工具可以把PCM音频格式的文件转换成 Microsoft 的 WAV 格式的文件。

PCM 脉码调制数字音频格式是 70 年代末发展起来的， 80年代初由飞利浦和索尼公司共同推出。 PCM 的音频格式也被 DVD-A 所采用，它支持立体声和 5.1 环绕声， 1999 年由DVD 讨论会发布和推出的。

PCM 的采样精度从14bit发展到16bit 、18bit 、20bit 直到 24bit ；采样频率从 44.1kHz发展到 192kHz 。到目前为止 PCM 这种单纯依赖提高采样规格的技术，其可改进的地方已经越来越来小。只是简单的增加 PCM 比特率和采样率，不能从底层改善它的根本问题。

2.2 Microsoft ADPCM

Adaptive Differential Pulse Code Modulation ，自适应差分脉码调制信号。是一种数据压缩算法，该算法利用了语音信号样点间的相关性，并针对语音信号的非平稳特点，使用了自适应预测和自适应量化。即对不同水平的差分序列，用一个相应参数 delta 作为平稳化参数去除差分序列的幅值，使得差分编码自动的适应数据间大幅度的跳跃。

Microsoft ADPCM 是微软标准的 WAV 格式文件采用 ADPCM 编码的文件，区分于 IMA ADPCM 文件。MS-ADPCM 编码是分块的，每块有块头信息和编码数据。对单声道信号，每块由 7 个字节组成， byte0 是块预测器 predictor ， byte1-2 是初始 delta ，byte3-4 和 byte5-6 分别是两个采样。

2.3 ITU G.711 a-law

G.711 标准也是 PCM 码的一种。是国际电报联盟 (International Telegraph Union, ITU)订定出来的一套语音压缩标准，主要用于电话。它主要用脉冲编码调制对音频采样，采样率为 8kHz 。它利用一个 64kbit/s 未压缩通道传输语音讯号。起压缩率为 1:2 ，即把16位数据压缩成 8 位。 G.711是主流的波形声音编解码器。

G.711 标准下主要有两种压缩算法。一种是 μ-law algorithm （又称 μ-law ），主要运用于北美和日本；另一种就是 a-law algorithm ，主要运用于欧洲和世界其他地区。其中， a-law 是特别设计用来方便 计算机处理的。

2.4 ITU G.711 μ-law

G.711 标准下的另一种压缩算法，主要运用于北美和日本，美国电话格式 (CCITT G.711) 就采用这种算法。

2.5 IMA ADPCM

IMA是ADPCM 中使用较多的一种算法。该算法中对量化步长的调整使用了简单的查表方法，对于一个输入的 PCM 值 X(n) ，将其与前一时刻的 X(n-1) 预测值做差值得到 d(n) ，然后根据当前的量化步长对 d(n) 进行编码，再用此 sample 点的编码值调整量化步长，同时还要得到当前 sample 点的预测值供下一 sample 点编码使用。通过此算法可将样点编码成4bit 的码流，一个符号位和三个幅度位。该算法较简单，通过查表简化了运算。编码后采用WAV 文件格式，对编码后的数据流进行了包装，由文件头和数据码流组成，文件头和标准WAV 格式文件一样，指出了音频数据所采用格式、采样率、比特率、块长度、比特数及声道数等信息。数据码流以块为单位，块头指出了该块起始的预测值和 index 值，码流中每 byte 的高四位和低四位分别对应一个 PCM 。当前该算法以其简单实用的特点广泛应用到数字音乐盒和数字录音笔中。

2.6 ITU G.723 ADPCM (Yamaha)

G.723是ITU在1996 年制订成型的一种多媒体语音编解码标准。其典型应用包括 VoIP 服务、 H.324 视频电话、无线电话、数字卫星系统、数电倍增设备 (DCME) 、公共交换电话网 (PSTN) 、 ISDN 及各种多媒体语音信息产品。 G.723 标准传输码率有 5.3kbit/s 和 6.3kbit/s 两种，在编程过程中可随时切换。该标准主要包含了编码算法和解码算法。

原理是：从采集的语音信号中解析出声道模型参数，构造一个合成滤波器，采用合适的激励源激励,编码传输的参数主要是激励源与合成滤波器的参数。 5.3kbit/s 的编码器采用代数码线预测激励（ACELP）；6.3kb/s 的编码器则采用多脉冲最大似然量化 (MP-MLQ) 激励。根据传输编码参数 ,可重构激励源与合成滤波器进行解码 ,还原出来的数字语音信号经 D/A 转换器转换成模拟语音信号。

G.723 算法对语音信号有很好的编解码效果，同时也可处理音乐和其它声音信号 ,典型输入是 64kb/s(8k ×8)或 128kbit/s(8k ×16) 的 A-law 或 μ-law 的 PCM 采样语音信号。每次处理一帧语音信号 ,每帧 240 个采样点 (30ms) 。在 5.3kbit/s 的码率下，每帧语音被压缩成 20个字节传输；在 6.3kbit/s 的码率下，每帧语音被压缩成 24 个字节传输。

2.7 GSM 6.10

是我们熟知的全球移动通讯系统 (Global System for Mobile communications) 定义的一种音频编解码标准。广泛应用于无线通信设备如手机、无线通讯终端中。音频信号被压缩至介于 5.6kbit/s 和 13kbit/s 之间，这两种码率被分别叫做半率 (Half Rate) 和全率 (Full Rate)，最初大部分只有这两种码率的编码。编码基于线性预测编码算法 (Linear Predictive Coding, LPC) 。

GSM 6.10 除了在比特率上有很出色的表现外，这种编码的音频信号在空气信道中传输有着高保真度，因此广泛使用在无线通信设备的语音信号中。在1997年，GSM 进一步开发出了一种增强型全率编解码器 (Enhanced Full Rate, EFR) ，这种编码码流比特率为 12.2kbit/s 。

2.8 ITU G.721 ADPCM

G.721 是 ITU-T 定义的一组标准协议组 G.7xx 其中之一，指的是 32kbit/s 的自适应差分脉冲编码调制 (ADPCM) 。除去上面介绍的三种，此协议组的其他码流标准如下：

G.722 ―― 64 kb/s 下的 7 kHz 音频编码
G.722.1 ―― 带有低帧损耗的具有免提操作的系统在 24kbit/s 和 32kbit/s 上的编码
G.722.2 ―― 利用自适应多频率宽带 (AMR-WB) 以 16kbit/s 多频率语音编码
G.726 ―― 40, 32, 24, 16kbit/s 自适应差分脉冲编码调制 (ADPCM)
G.727 ―― 5, 4, 3 和 2bit/s 嵌入式自适应差分脉冲编码调制 (ADPCM)
G.728 ―― 利用低延迟代码线性预测以 16 bit/s 进行语音编码
G.729 ―― 利用共扼结构－代数激励编码线性预测 (CS-ACELP) 以 8bit/s 进行语音编码

2.9 MPEG

Moving Pictures Experts Group ，动态图像专家组。 MPEG 是世界上最为著名的一种音视频压缩标准之一。 MPEG 标准主要有以下五个， MPEG-1 、MPEG-2 、MPEG-4 、MPEG-7 及 MPEG-21 等。该专家组建于 1988 年，专门负责为 CD 建立视频和音频标准，而成员都是为视频、音频及系统领域的技术专家。及后，他们成功将声音和影像的记录脱离了传统的模拟方式，建立了 ISO/IEC1172 压缩编码标准，并制定出 MPEG- 格式，令视听传播方面进入了数码化时代。因此，大家现时泛指的 MPEG-X 版本，就是由 ISO(International Organization for Standardization) 所制定而发布的视频、音频、数据的压缩标准。

MPEG 标准的视频压缩编码技术主要利用了具有运动补偿的帧间压缩编码技术以减小时间冗余度，利用 DCT 技术以减小图像的空间冗余度，利用熵编码则在信息表示方面减小了统计冗余度。这几种技术的综合运用，大大增强了压缩性能。

我们熟知的 MP3 格式的音频文件，就是 MPEG-1 layer3 的缩写。

2.10 Experimental

称为实验性音频。专门用来作音频信号处理的研究开发工作，主要包括优化压缩算法提高压缩效率的工作。这种类型的压缩码流基本不被主流解码器支持，只在一些音频专家和发烧友的实验室里能够流畅的播放出来。

Compression code 信息在WAV文件字段的第 21、22 个 byte ，通过十六进制查看器我们可以看到一个 WAV文件的压缩码类型。对应关系如下表：

WAV文件遵循RIFF规则，其内容以区块（chunk）为最小单位进行存储。所以先要了解什么是RIFF。

3 RIFF

RIFF全称为资源互换文件格式（Resources Interchange File Format），是Windows下大部分多媒体文件遵循的一种文件结构。RIFF文件所包含的数据类型由该文件的扩展名来标识，能以RIFF格式存储的数据有：

音频视频交错格式数据 .AVI
波形格式数据 .WAV
位图数据格式 .RDI
MIDI格式数据 .RMI
调色板格式 .PAL
多媒体电影 .RMN
动画光标 .ANI
其他的RIFF文件 .BND

3.1 CHUNK

chunk是RIFF文件的基本存储单元，其基本结构如下：

struct chunk
{
    uint32_t id;
    uint32_t size;
    uint8_t data[size];
};

字段名称端序类型大小说明idFOURCC大端字符4字节通常为Chunk ID，以标识块中所包含的数据。如：RIFF,LIST,fmt,data,WAV,AVI等，由于这种文件结构最初是由Microsoft和IBM为PC机所定义，RIFF文件是按照小端 little-endian字节顺序写入的。sizeData Field Size小端整形4字节块大小存储在data域中的数据长度，不包含id和size的大小。dataData Field包含数据，数据以字节为单位存放，如果数据长度为奇数，则最后添加一个空字节。

chunk是可以嵌套的，但是只有块标志为RIFF或者LIST的chunk才能包含其他的chunk。

3.2 RIFF chunk

标志为RIFF的chunk是比较特殊的，每一个RIFF文件首先存放的必须是一个RIFF chunk，并且 只能有且只有这一个标志为RIFF的chunk。RIFF的数据域的起始位置是一个4字节码（FOURCC），用于标识其数据域中chunk的数据类型；紧接着数据域的内容则是包含的subchunk，如下图：

这是一个RIFF chunk中包含有两个subchunk，可以看出RIFF chunk的数据域：

首先是 4字节的类型码(Form Type 字符大端)，比如WAV文件的类型码为”WAVE”。
接着是两个subchunk，每一个subchun有包含有自己的标识、数据域的大小以及数据域。

; 3.3 LIST chunk

除了RIFF cunk可以嵌套其他的chunk外，另一个可以有subchunk的就是LIST chunk。

上图的chuck的结构分析：

首先是RIFF文件必须的RIFF chunk，其数据域是一个subchunk，其类型为List。
其次List chuck的数据域的起始位置也有一个四字节类型码(List Type)，用于说明LIST数据域的数据内容。比如，类型码为”INFO”时，其数据域可能包括”ICOP”、”ICRD”块，用于记录文件版权和创建时间信息。
最后这个 List chunk又包含了两个subchunk。

3.4 FourCC

ourCC 全称为Four-Character Codes，是一个4字节32位的标识符，通常用来标识文件的数据格式。例如，在音视频播放器中，可以通过文件的FourCC来决定调用那种CODEC进行视音频的解码。例如：DIV3,DIV4,DIVX,H264等，对于音频则有：WAV,MP3等。对于上面的RIFF文件，则有：RIFF,WAVE,fmt,data等。FourCC是4个ASCII字符，不足四个字符的则在最后补充空格（不是空字符）。
比如：

FourCC fmt&#xFF0C;&#x5B9E;&#x9645;&#x4E0A;&#x662F;'f' 'm' 't' ' '&#x3002;

4 WAV文件格式

WAV符合RIFF规范，其基本的组成单元也是chunk。一个WAV文件通常有三个chunk以及一个可选chunk，其在文件中的排列方式依次是： RIFF chunk， Format chunk， Fact chunk（附加块，可选）， Data chunk。

以最简单的无损WAV格式文件为例，此时文件的音频数据部分为PCM，比较简单，重点在于WAV头部。一个典型的WAV文件头部长度为44字节，包含了采样率，通道数，位深等信息。如下图：

; 4.1 RIFF chunk

偏移位置大小(字节)类型端序说明0x00-0x034字符大端”RIFF”块(0x52494646)，标记为RIFF文件格式0x04-0x074整型小端块数据域大小（Chunk Size），即从下一个地址开始，到文件末尾的总字节数，或者文件总字节数-8。从0x08开始一直到文件末尾，都是ID为”RIFF”块的内容，其中会包含：fmt 块，fact 块(压缩编码格式要含有该块)，data块0x08-0x0B4字符大端类型码(Form Type)，WAV文件格式标记，即”WAVE”四个字母

4.2 Format chunk

偏移位置大小(字节)类型端序说明0x0C-0x0F4字符大端”fmt “子块(0x666D7420)，注意末尾的空格0x10-0x134整形小端子块数据域大小（SubChunk Size）其数值不确定,取决于编码格式。可以是 16、 18 、20、40 等(见4.5表)0x14-0x152整形小端编码格式(Audio Format)，1代表PCM无损格式 (见4.5表)0x16-0x172整形小端声道数(Num Channels)，值为1则为单声道，为2则是双声道0x18-0x1B4整形小端采样率(Sample Rate),主要有22.05KHz，44.1kHz和48KHz0x1C-0x1F4整形小端码率(Byte Rate)，每秒数据字节数，SampleRate * Channels * BitsPerSample / 80×20-0x212整形小端数据块对齐(BlockAlign)每个采样所需的字节数，BitsPerSample*Channels/8，在播放时需要一次处理多个该值大小的字节数据。0x22-0x232整形小端采样位数(Bits Per Sample)，单个采样位深，可选8、16或320×24-0x252对基本格式块的扩充部分(详见扩展格式块,格式块的扩充)

这个区域只需要关心 NumChannels， SampleRate， BitsPerSample 三个参数就可以了，其它的都是依据这三个计算出来的。

4.3 Fact chunk（扩展块）

当WAV文件采用非PCM编码时，扩展块才存在，并且使用的是扩展格式块，它是在基本格式块fmt扩充了一个的数据结构。此时，fmt块的fm_size为18（0x12），即4.2节图中 0x24-0x25两个字节会有00 00 填充。而PCM编码时，fmt块的fm_size为16（0x10）,就无0x24-0x25这两位。

该数据的前两个字节，表示的扩展块的长度。紧接其后的是扩展的数据区，含有扩展的格式信息，其具体的长度取决于压缩编码的类型。当某种编码方式（如 ITU G.711 a-law）使扩展区的长度为0，扩展区的长度字段还必须保留，只是其值设置为0。

偏移位置大小(字节)类型端序说明0x26-0x294字符大端”fact”子块(0x66617374)0x2A-0x2D4整形小端”fact”块长度0x2E-不定整形小端”fact”块数据，采样总数

factDataSize为，音频数据格式转换为PCM格式后的大小，如果是某种压缩格式，那么从此可以得出解压后的大小，对于解压时的计算很有好处。

4.4 Data

真正地数据区紧接在Fmt或Fact块后。

偏移位置大小(字节)类型端序说明不定4字符大端”data”子块 (0x64617461)不定4整形小端子块数据域大小（SubChunk Size）不定N音频数据 N = ByteRate * seconds

Data块中存放的是音频的采样数据，根据声道数和采样率的不同情况，布局如下（每列代表8bits）：

*8 Bit 单声道

采样1采样2数据1数据2

*8 Bit 双声道

采样1采样2声道1数据1声道2数据1声道1数据2声道2数据2

*16 Bit 单声道

采样1采样2数据1低字节数据1高字节数据1低字节数据1高字节

*16 Bit 双声道

采样1声道1数据1低字节声道1数据1高字节声道2数据1低字节声道2数据1高字节
采样2

声道1数据2低字节声道1数据2高字节声道2数据2低字节声道2数据2高字节

对于PCM数据，有以下两种的存储方式：

单声道，量化位数为8，使用偏移二进制码
除上述外，使用补码存储。

[En]

except for the above, use complement to store.*

4.5 常见的压缩编码格式

格式代码格式名称fmt 块长度fact 块1(0x0001)PCM/非压缩格式162(0x0002)Microsoft ADPCM18√3(0x0003)IEEE float18√6(0x0006)ITU G.711 a-law18√7(0x0007)ITU G.711 μ-law18√49(0x0031)GSM 6.1020√64(0x0040)ITU G.721ADPCM√65,534(0xFFFE)见子格式块中的编码格式40

Original: https://blog.csdn.net/qui910/article/details/122599359
Author: 惊天动地猪儿虫
Title: 音频处理-2 WAV格式

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/498116/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

复现tph-yolov5

Object Detection on Drone-captured Scenarios) 大四寒假，第三篇复现的论文。环境是从autodl租的3090，跑完这个程序大概23小时，…

人工智能 2023年7月9日
0067
确定神经网络的层数和隐藏层的神经元数量

转载于知乎：如何确定神经网络的层数和隐藏层神经元数量确定神经网络的层数和隐藏层的神经元数量反向传播神经网络主要由输入层、隐藏层和输出层组成，输入和输出层的节点数是固定的，对于回…

人工智能 2023年6月16日
0067
文件上传漏洞利用与防御

文件上传漏洞利用与防御文件上传漏洞文件上传绕过文件上传漏洞用户上传了一个可执行的脚本文件，并通过这个脚本文件获得了执行服务器端命令的能力漏洞危害挂黑链提高网站权重占用…

人工智能 2023年6月28日
0089
开放式的目标检测

最近做了一个很有意思的工作，可以总结为使用自然语言描述的目标的目标检测。预期使用场景是视频理解，语义检索这一类的场景。传统的目标检测技术，大概可以归纳为，采集数据、标注目标类别和…

人工智能 2023年7月9日
0049
pytorch入门——构建神经网络

从 pytorch到nlp 第一章 pytorch 之构建神经网络文章目录从 pytorch到nlp * – 前言一、构建神经网络的具体流程二、代码及其解读 *…

人工智能 2023年7月12日
0058
机器学习：支持向量机（SVM）

1，概述 1.1，概念支持向量机（SVM）是一类按监督学习方式对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面，可以将问题化为一个求解凸二次规划…

人工智能 2023年6月16日
0092
已解决ModuleNotFoundError: No module named ‘cv2’

已解决ModuleNotFoundError: No module named ‘cv2’ 文章目录报错代码报错翻译报错原因解决方法千人全栈VIP…

人工智能 2023年7月19日
0038
Python使用websocket调用实时语音识别，语音转文字

Python使用websocket调用实时语音识别，语音转文字 0. 太长不看系列，直接使用 1. Python调用标贝科技语音识别websocket接口，实现语音转文字 * 1….

人工智能 2023年5月27日
00100
Unity 工具之常用插件分类汇总（UI/VR/AR/建模/Shader/动画/网络/AI/资源/数据/区块链等）

目录一、 UI / 2D 相关二、VR/AR 游戏的常用插件三、模型构建/环境构建插件相关四、Shader 相关插件五、动画插件六、网络/网络视频语音插件七、AI …

人工智能 2023年7月26日
0054
python 处理 dataframe的汇总

1 替换示例完整代码如下： from pandas import read_excel file=’d:/student.xlsx’ df=read_excel(file,she…

人工智能 2023年7月7日
0055
Ubuntu20.04+RTX3090ti+cuda11.6+cudnn8.4.1+pytorch安装过程记录

为了快速配置基于pytorch的深度学习工作环境，现对Ubuntu20.04 +RTX3090ti +cuda11.6+ cudnn8.4.1 +pytorch安装过程进行简要记录…

人工智能 2023年6月16日
00109
python实现数值型变量分段统计

实现功能：对年龄（age）这一数值型变量进行分段统计，统计每一区间（年龄段）患者人数。实现代码： import numpy as np import pandas as pd …

人工智能 2023年7月7日
0060
《文本上的算法——深入浅出自然语言处理》读书笔记：第3章让机器人可以像人一样学习

目录第3章让机器人可以像人一样学习 3.1 何谓机器学习 3.2 逻辑回归/因子分解机 3.3 最大熵模型/条件随机场 3.4 主题模型 3.5 深度学习 3.5.1 基本概述…

人工智能 2023年5月31日
0056
第一章路径规划算法概述

第一章路径规划算法概述第一章路径规划算法概述文章目录第一章路径规划算法概述前言一、传统路径规划算法 * 1.1 Dijkstra算法 1.2 A*算法 1.3 D*…

人工智能 2023年6月15日
0078
Python使用turtle库绘制动态满屏爱心代码

情人节绘制爱心最合适了，但是单单画一个心形怎么能够满足？今天我们尝试用Python的turtle库画出一整个画布的爱心，让它们在上面动态移动。最终效果如下： ; 绘制爱心画爱心有…

人工智能 2023年7月4日
0050
matlab 回归逻辑斯蒂_逻辑斯蒂回归模型

概率无向图模型主要思想：根据现有的数据对分类边界线（decision boundary）建立回归公式，以此分类。逻辑斯蒂回归模型在线性回归模型的基础上，使用Sigmoid函数…

人工智能 2023年6月18日
0094

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30