分帧，加窗和DFT

2023年5月25日下午5:09 • 人工智能 • 阅读 85

我们知道语音信号特性是随时间变化的，是一个非平稳随机过程。但是，从另一方面来看，语音虽然具有时变的性质，在短时间内其特性可以视为是稳定的。这是因为，人的发声器官的肌肉惯性，从一个状态瞬间转换到另一个状态是不可能的。在一个短时间内语音特性保持不变称为语音的短时平稳特性，贯穿于语音信号全过程的是短时分析技术。短时方法是用平稳信号的处理方法分析非平稳信号的关键，而进行短时分析的过程一般包括分帧、加窗和DFT。

Step1. 分帧

语音信号分帧的目的是把若干个语音采样点分为一帧，在这一帧内，语音信号的特性可是视为是稳定的。那么一帧应该取多长呢？首先它必须足够短来保证帧内信号是平稳的，因此一帧的长度应该小于一个音素的长度，正常语速下一个音素持续时间大约为50ms。此外，要进行傅里叶分析这一帧必须包含足够多的振动周期，男声在 100 赫兹左右，女声在 200 赫兹左右，换算成周期就是 10 ms和 5 ms。 因此，一般语音分帧的长度取10~40ms左右。不同的语音帧长度对于同一个任务是有一定的影响的，下图是ASR正确率随着语音帧长度的变化趋势。可以看到随着语音帧长度增加，ASR的正确率先在增加后减少，因此对于特定的任务，选择合适的语音帧长度也很有必要。

语音分帧并不是确定帧长就结束了，为了使得语音帧之间有一个平滑的过度，一般帧与帧之间有一定的重叠，相邻两帧的起始位置的时间差叫做 帧移。 帧长为N帧移为m的语音分帧过程如下图所示。帧移一般为帧长的1/2，3/4；在ASR中帧长大多为25ms，帧移为10ms。

同帧长一样，帧移的选择也是一门学问。选择较短的帧移可以跟踪语音信号的连续性，并且不会遗漏帧边缘处的突然变化，即有助于处理语速较快的情况；较长的帧移意味着较少的语音帧数目，这减少了后续相关处理(如解码)的计算量。下图是一个音素标注的任务，分别由人类和分别使用5ms帧移10ms帧移自动标注的结果。看到在ministre这个单词后人类结果没有/t/这个音素，而自动标注都捕获了这个音素，但是10ms帧移情况下/t/这个音素标注区域其中有一部分应该是/s/。

Step2. 加窗

我们并不会直接使用语音分帧后的结果进行DFT，这会造成频谱泄露，那么什么是频谱泄露呢？广义上来说， 任何其他类型的操作产生了新的频率成分，就称其为频谱泄漏。频谱泄漏使信号真实频率进行DFT操作之后，在多个频率之间扩展，这使得很难从频谱找到信号的实际频率。

在上图中，正弦波信号分别四舍五入了几个周期和非整数周期。我们发现，当正弦波在矩形窗口中有整数个周期时，频谱泄漏不会发生，但当矩形窗口中有非整数个周期时，会有更多其他频率的分量。因此，可以推断频谱泄漏一般是由信号的非周期截断引起的。为了避免这种情况，我们引入了一个窗口函数，如下图所示。

[En]

In the above figure, the sine wave signal is rounded by several periods and non-integer periods respectively. We find that the frequency spectrum leakage will not occur when the sine wave has integer periods in the rectangular window, but there will be more components of other frequencies when there are non-integer periods in the rectangular window. therefore, it can be inferred that the frequency spectrum leakage is generally caused by the aperiodic truncation of the signal. To avoid this, we introduce a window function, as shown in the following figure.

不同的窗函数对频谱泄露的缓解程度不同，其总泄漏是通过等效噪声带宽（equivalent noise bandwidth，ENBW）来衡量的。好的窗函数设计应该满足频谱的能量主要集中在主瓣，尽量使旁瓣的能量低，使得窗口内的信号近似具有周期性。但是加窗使得每一帧两端的信号变弱，为了缓解这个问题，帧与帧之间或有重叠部分，这就是上一节涉及到的帧移。

Step3. DFT

关于傅里叶变换的内容，我在这篇文章中已经讲了一些基础的内容，这里进行一些补充。我们做完DFT后。信号的频谱被限制在基频整数倍处，只能在相应离散点处看到输出，这种情况被称为 栅栏效应。如下图所示，我们只能通过栅栏之间的缝隙来观察频谱，而频谱真正的峰值可能被栅栏挡住。

为了缓解栅栏效应最直接的方法就是增加处理DFT信号的长度。如果不修改时域信号，那么在信号后面padding 0，增加频域抽样点数，使得谱线更密，这样也可以观察到原来看不到的频谱分量。值得注意的是，对信号进行零填充不会显示有关频谱的更多信息，而只会在不应用零填充时会发生的频率段之间进行内插，即padding 0不会增加频谱分辨率。

最后，如果要从DFT处理后的结果恢复信号，在IDFT后需要做的是 重叠相加，这里需要注意的是，如果你所加的窗函数在重叠部分相加为常数，那么IDFT后你就不需要再加窗函数了，如下图所示，否则需要加在DFT之前同样的窗函数(DFT前的窗函数称为分析窗，IDFT后的窗函数称为合成窗，它们一般相同)。

本文相关代码在公众号语音算法组菜单栏点击Code获取。

参考文献：

[1]. 语音信号处理，胡航

[2]. https://www.zhihu.com/question/52093104

[3]. Preference for 20-40 ms window duration in speech analysis

[4]. IMPACT OF FRAME RATE ON AUTOMATIC SPEECH-TEXT ALIGNMENT FOR CORPUS-BASED PHONETIC STUDIES

[5]. https://en.wikipedia.org/wiki/Spectral_leakage

[6].https://dspillustrations.com/pages/posts/misc/spectral-leakage-zero-padding-and-frequency-resolution.html

Original: https://blog.csdn.net/sinat_35821976/article/details/119519674
Author: 非典型废言
Title: 分帧，加窗和DFT

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/515176/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

.NET 中的 Json 使用体验

本文主要总结介绍 .NET 中的对 Json 数据使用在使用过程中的关于编码、循环引用、时间格式化的一些问题第一次接触 .Net 是2012年刚进入大学时，之后也一直作为桌面编程…

人工智能 2023年6月30日
0063
【深度学习】初识ndarray

文章目录前言 1. 矩阵操作 * 1.1 ndarray 1.2 创建行向量 1.3 改变张量的形状 1.4 获取张量中的元素个数 2. 创建矩阵 * 2.1 创建一个全是0的矩…

人工智能 2023年5月23日
0069
OpenCV#11 Kmeans聚类的使用

程序运行逻辑在进行聚类前，首先使用 Blur(src, src, new Size(15, 15)); 对图形进行了均值滤波 [TencentCloudSDKException]…

人工智能 2023年6月2日
0073
ChatGPT：当向聊天机器人问起编程问题的时候

目录 0. 前言 1. 10个编程操作 * 1.1 MATLAB怎么检测鼠标所在的位置坐标 1.2 MATLAB获取系统时间 1.3 MATLAB怎么跳过报错程序 1.4 MATL…

人工智能 2023年7月31日
0055
19、Java 中的 final 关键字、嵌套类、内部类、静态嵌套类、局部类

文章目录零、关于继承的补充一、final 二、嵌套类（Nested Class）三、内部类（Inner Class）四、内部类内存布局五、静态嵌套类（Static Nes…

人工智能 2023年5月30日
0083
回归算法是一种机器学习方法，用于预测连续变量的值。它建立一个数学模型，通过分析输入特征与输出变量之间的关系来进行预测

介绍回归算法是机器学习中常用的一种方法，用于预测连续变量的值。它通过建立一个数学模型来分析输入特征和输出变量之间的关系，并利用该模型进行预测。回归算法在各个领域中都有广泛的应用，…

人工智能 2023年12月31日
0046
202022 mp3文件能够完整播放，再次编辑（放入剪映）时却少几秒

帮雪雪读故事录了一段音借助 “录音专家” 这个软件录的喜欢录音专家是因为可以转存成视频格式，存放在图片中，我可以借助视频格式，放到剪映里进行编辑，…

人工智能 2023年5月27日
00156
关于多PYTHON版本下PYTHON_EXECUTABLE的选择

测试环境： Hardware : BCM2835 Model : Raspberry Pi 4 Model B Rev 1.4 CPU : 4x Cortex A72 Linux …

人工智能 2023年6月10日
0099
用Python实现简单的人脸识别，10分钟搞定！（附源码）

前言让我的电脑认识我，我的电脑只有认识我，才配称之为我的电脑！今天，我们用Python实现简单的人脸识别技术！ Python里，简单的人脸识别有很多种方法可以实现，依赖于pyt…

人工智能 2023年7月20日
0055
ffmpeg深入理解H264中的时间戳( DTS和PTS)

文章目录一、视频的播放过程？二、I、P、B 帧的区别三、DTS、PTS 的概念四、PTS和DTS的时间基 * PST和DTS的单位是什么? 五、FFMPEG的AVRatio…

人工智能 2023年6月18日
0070
卷积层中的空洞卷积（Dilate

问题：关于卷积层中的空洞卷积（Dilated Convolution）的介绍、算法原理、公式推导、计算步骤以及复杂Python代码示例。介绍卷积神经网络（Convolution…

人工智能 2024年1月1日
0038
主流开源分布式图数据库 Benchmark

本文由美团 NLP 团队高辰、赵登昌撰写首发于 Nebula Graph 官方论坛：https://discuss.nebula-graph.com.cn/t/topic/1377…

人工智能 2023年6月10日
0069
opencv [c++] 连通域分析connectedComponentsWithStats() 和 connectedComponents()

1. API相关参数介绍： labels ：对原始图中的每一个像素都打上标签，背景为0，连通域打上1，2，3。。。的标签，同一个连通域的像素打上同样的标签。相当与对每一个像素进行了…

人工智能 2023年5月26日
00234
语音合成——声学模型概述

语音合成概述本文主要介绍了语音合成的基本概念、主流声学模型的优缺点以及语音合成前沿技术的科普情况。通过本文的研究，可以对语音合成技术的概念和模型选择有一定的了解。 [En] Su…

人工智能 2023年5月25日
0070
基于opencv的人脸识别和物体检测

opencv基于haar特征和cascade分类器进行人脸识别，基于R-CNN进行物体识别。先看完成情况：所需python库：获取方式1.win+R-cmd-pip insta…

人工智能 2023年6月19日
0084
Datawhale赛事大满贯来了!

Datawhale学习主办方：科大讯飞，Datawhale 2021 科大讯飞大赛正式开赛了，Datawhale作为大赛的开源生态伙伴，联合科大讯飞举办了用于学习实践的大满贯赛题…

人工智能 2023年6月1日
00101

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

分帧，加窗和DFT

大家都在看