【语音处理】声音的产生机制和数学模型

2023年5月25日下午9:04 • 人工智能 • 阅读 48

上一节介绍了一些基本的概念和应用，从本节开始我们将对语音信号处理的各个方面进行系统性介绍。

本节主要介绍语音产生的过程，包括具体的生理机制，以及由此抽象出的数学模型，包括语音线性产生模型和非线性产生模型。

作者&编辑 | 小米粥

编辑 | 言有三

1. 语音发音系统

人的发音器官主要由四个部分组成：①肺部和气管，产生语音信号的能量源；②咽喉，包括声带和声门，是语音的振动源；③咽腔、口腔和鼻腔等，这些由声门到嘴唇的呼吸通道构成声道，是语音的谐振腔；④唇、齿、舌、面颊等其他发音器官，主要用于改变谐振腔形状。

第一部分中，肺通过肌肉收缩将肺部储存的空气挤出，形成气流，并通过气管将气流送至咽喉，这是语音产生的原动力。

第二部分中，喉部由左右两个肌肉组成，称为声带，而声带之间的空隙称为声门。正常呼吸时，声门张开，气流自由呼出；当讲话时，声带闭合，声门形成窄缝。讲话时，气管传过的气流冲击声带使声带张开，而声带由于其韧性又将快速自动闭合。声带不断快速的张开闭合，即导致了声带的振动，形成了周期性的脉冲气流。

基音频率为声带振动的频率，其数值由声带的物理特性决定，例如声带的大小、厚薄、松紧程度等。基音频率也决定了人的音高，频率快则音调高，频率慢则音调低。一般，男性的基音频率为60-200Hz，而女性和小孩的基因频率为200-450Hz。

第三部分中，声道是声门声带之后发音的最重要因素。人们在发出不同音的时候，声道具有非常复杂多变的形状，因而声带振动产生的脉冲气流通过声道响应可以变为不同的语音。

气流通过声道时被视为通过谐振腔，而谐振腔的作用是筛选、放大输入信号的某些频率（谐振频率）。对于某个特定的谐振腔，其拥有多个谐振频率（共振频率），即存在多个共振峰。此外，共振峰也与谐振腔的形状有关。因此，当一个人发不同的音时，即使基音频率是固定的，但是由于声道形状的不同，从而导致谐振腔的共振峰也不同，最终产生不同的语音信号。

由于不同人的声道差异较大，因而不同人的共振峰也有较大的差异。以下为声道共振峰的范围区间（单位:Hz）

气流首先经过咽腔，咽腔具有多变的形状。经过咽腔之后，若软腭下垂，则气流主要经过鼻腔发音，即为鼻音，此外鼻腔的形状是固定的，因而共振峰频率固定；若软腭上抬，则完全由口腔发音，即为口音，但是口腔形状不固定，因而共振峰频率不确定。

第四部分中，为了发出各种声音，需要调音改变声道的形状。声道中可自由活动的器官称为调音器官，唇、齿、舌、面颊等调音器官同样改变声道的形状，使声道具有不同的传递特性。

在不同的发音过程中，根据声带是否振动将分为清音和浊音。当肺部而来的气流使声带振动时（更严格说法为，产生明显振动），此机制产生的为清音；若声门张开，声带不振动，气流在声道高速通过，则形成清音。另外，若声道关闭之后再突然打开，将产生爆破音。

2. 语音线性产生模型

由于语音信号在较短的时间内，其特性不随时间变化，因而认为语音信号为短时平稳信号，可采用线性时不变模型进行描述。

语音信号线性产生模型由激励模型、声道模型和辐射模型三部分组成，如下图所示。其中激励模型描述清音或浊音的产生过程，即肺部气流和声带的作用；声道模型主要描述声道的调音运动；辐射模型描述气流在嘴唇、鼻孔的幅射效应。

2.1 激励模型

激励模型一般将发音粗略分为清音激励和浊音激励。发浊音时，肺部气流对绷紧的声带持续冲击，形成声带准周期的振动，从而产生准周期的脉冲。脉冲周期，即基音频率，取决于个人声带物理情况。因此，浊音的激励源是一个以基音周期为周期的斜三角脉冲串，其中单个斜三角脉冲的表达式为：

其中，N1为上升时间，N2为下降时间，其波形如下图所示。此外，将其转换至频域可知其为低通滤波器。

单个斜三角波的z变换全极模型为：

斜三角波形串可视为加权的单位脉冲串激励上述单个斜三角波模型的结果，即经过该低通滤波器的输出，因而浊音的激励模型可写为：

其中，E(z)为单位脉冲的z变换，而Av为幅度因子。

当发出清音时，声带不发生明显振动，气流通过声门直接进入声道，声道形成湍流，此时的激励模型为随机白噪声，可使用均值为0，方差为1的噪声来表示。

2.2 声道模型

对于声道，常见的数学模型有：声管模型和共振峰模型。声管模型将声道视为多个不同截面的声管串联；而对于常用的共振峰模型，其将声道视为一个谐振腔。在发某个音时，声道具有各种不同的形状变化，从而使声道具有不同的谐振频率（共振频率）。

实践中，前三个共振峰即可表示元音的特征，复杂的辅音或鼻音需要使用5个共振频率。一般成人声道约为17cm长，将其视为均匀断面，则可计算出前三个共振频率为500Hz，1500Hz和2500Hz。发元音e时，声道最接近均匀断面，因而该音的前三个共振峰也近似为500Hz，1500Hz和2500Hz。

常见的共振峰模型有：级联、并联以及混合型三种，它们具有不同的适用描述对象。我们首先说明元音、辅音的区别，元音是指发音时从肺部呼出的气流通过起共鸣器作用的口腔、阻力极小并无摩擦声音的语音，而在辅音中，无论声带振动与否，发声时呼出的气流通过口腔或鼻腔时受到一定阻碍。另外，辅音包括清辅音和浊辅音两大类。发音时声带不震动、送气的叫清辅音；发音时声带震动、不送气的叫浊辅音。级联模型适用于描述大部分元音，其将声道视为一组串联的二阶谐振器，每个谐振器对应1个共振峰频率，即依次放大信号中谐振频率的成分；对于并联模型，其结构相对复杂，适用于描述非一般的元音和大部分辅音。混合模型将串联模型和并联模型结合起来，可根据所要描述的语音，自动进行切换。这三种模型的结构如下图所示。

2.3 辐射模型

声道的终端是口和唇，口唇端的辐射效应在高频段较为明显，而在低频段影响较小，因而可用高通滤波器来表示辐射模型：

其中，对于浊音，r接近1，而对于清音，取值很小。

语音线性产生模型使用激励模型、声道模型和辐射模型构成，需要说明的是，模型将语音进行简单的清音、浊音的划分是存在不足的，例如浊音中的摩擦音需要清音、浊音两种激励，并非将其直接叠加。

总之，模型的结构虽然与真实的物理过程不完全一致，但在输出处是等效的，为语音信号产生提供了基本的、简洁的分析框架。

3. 语音非线性产生模型

线性语音产生模型的基本假设是：肺部气流在声道中以平面波的形式传递。但是，研究表明，声道中的语音信号并不总是以平面波的形式传播，气流在通过声道腔体的某些部分时存在湍流，因此在声道模型中，语音信号应该由平面波部分的线性部分和湍流区域部分的非线性部分共同组成。

调频-调幅模型是成功的非线性语音产生模型。在模型中，语音中的单个共振峰的输出，相当于以该共振峰为载波频率进行频率调制和幅值调制的结果，并且语音信号是由多个这样的共振峰调制叠加而成的。对于一个频率为f共振峰，对应的载波频率也为f，设频率调制信号为q(t)，幅值调制信号为a(t)，则语音信号中的单个共振峰输出r(t)为：

将语音信号视为多个共振峰调制信号叠加，则语音信号s(t)为：

其中，K为共振峰的数目。

对于上述模型构建的语音信号，我们可使用基于Teaager能量算子的能量分离算法（ESA）将信号中的幅值调制部分与频率调制部分有效地分离开。

[1] 韩纪庆, 张磊, 郑铁然. 语音信号处理.第2版[M]. 清华大学出版社, 2013.

[2] 赵力. 语音信号处理: 机械工业出版社[M]. 机械工业出版社, 2016.

总结

这一节讲解了基本的语音产生方式，包括清音、浊音产生的具体生理机制。接着对语音线性产生模型进行了详细的讲解，包括其中的激励模型、声道模型和辐射模型等内容。

下一节，我们将介绍语音信号的听觉生理机制和相关的数学模型。

有三AI-语音群

有三AI建立了一个语音群，便于有志者相互交流。感兴趣的同学也可以微信搜索xiaozhouguo94，备注”加入有三-语音群”。

小米粥知乎

本专栏作者——小米粥也在知乎进行同步更新，欢迎相关同学共同讨论学习。

有三AI计算机视觉学习季划

有三AI-CV季划是我们推出的终身计算机视觉培养计划，有三作为导师直接带领，囊括答疑，微信群交流，线下活动，多本自写的书籍，图文课件与代码，视频与直播，知识星球社区，内容组与研发组权限，了解详细请阅读以下文章：

转载文章请后台联系

侵权必究

往期精选

*
*

Original: https://blog.csdn.net/hacker_long/article/details/124287834
Author: 言有三
Title: 【语音处理】声音的产生机制和数学模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/516053/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

3D点云数据分析与处理-传统方法与深度学习

0.摘要基于 3D视觉的新兴应用场景蓬勃发展，3D点云越来越受到人们的广泛关注。点云有着广泛的应用领域包括机器人技术、3D图形、自动驾驶、虚拟现实（AR/VR/MR）等。为了跟上…

人工智能 2023年5月28日
0073
1.卷积层的计算方法与常见用法

卷积层在深度学习中常用于特征提取与类别预测，包括降低特征尺度并升维，将大尺寸低维度的特征转为低尺寸高维度的特征，通过多个卷积层提取特征，并在最后使用卷积层作为预测层即实现了目标检测…

人工智能 2023年7月14日
0047
解决报错：ValueError: Expected input batch_size (10) to match target batch_size (1).

原做的是二分类，在训练的时候遇到了这个报错。 for i, (inputs, target) in enumerate(trainloader): # forward output…

人工智能 2023年6月16日
0086
动手学深度学习（九+）——softmax分类Fashion-MNIST数据集

文章目录 * – 一、Fashion-MNIST数据集 – + 1.1 认识数据集 + 1.2 小批量读取数据 – 二、softmax回归从零开…

人工智能 2023年6月17日
00113
opencv 学习笔记（七）灰度变换

灰度变换一、灰度变换概念二、灰度变换的作用三、灰度变换的方法灰度化一、灰度的概念二、对彩色图进行灰度化 * 1.加权平均值法 2.取最大值 3.平均值灰度的线性变换 …

人工智能 2023年6月19日
0065
变形金刚——Transformer入门刨析详解

Transformer是什么呢？ \qquadTransformer最早起源于论文Attention is all your need，是谷歌云TPU推荐的参考模型。\qquad目…

人工智能 2023年7月26日
0055
OpenCV–基于python人脸LBPH识别

前言：因为我要做选修课的关于ai的项目，所以整个代码其实是摘录自hwtl0703598这个csdn博客主的python人脸识别源码，不过也在调试的过程过发现了那位博客主的一些代码的…

人工智能 2023年5月26日
0061
深度学习框架是否支持不同的损失函数和激活函数

问题背景深度学习框架是进行人工神经网络设计和训练的工具。损失函数和激活函数是神经网络模型中的两个重要组成部分。损失函数用于衡量模型预测值与真实值之间的差距，而激活函数则引入非线性…

人工智能 2024年1月1日
0024
Springboot配置WebMvcConfig解决Cors非同源访问跨域问题

关于Cors跨域的问题，前端有代理和jsonp的常用方式解决这种非同源的访问拒绝策略，什么是同源？即域名一致端口一致但是端口下访问的接口api不同的两种或者几种的互相访问叫做同源访…

人工智能 2023年6月27日
0086
pytorch中DataLoader的num_workers参数详解与设置大小建议

Q：在给Dataloader设置worker数量（ num_worker ）时，到底设置多少合适？这个worker到底怎么工作的？ train_loader = torch.ut…

人工智能 2023年6月25日
00114
ImportError: cannot import name ‘Literal‘ from ‘typing‘ (D:Anacondaenvstensorflowlibtyping.py)

报错背景：因为安装tensorflow-gpu版本需要，我把原来的新建的anaconda环境（我的名为tensorflow）中的python3.8降为了3.7。在导入seabo…

人工智能 2023年5月23日
00102
【自动驾驶】基于面部Fatigue检测的技术报告

【自动驾驶】基于面部Fatigue检测的技术报告文章目录【自动驾驶】基于面部Fatigue检测的技术报告 * 关于疲劳驾驶检测研究主要有哪几个方向基于面部的疲劳检测研究的发展…

人工智能 2023年7月13日
0055
火爆全网的ChatGPT上手体验，文尾免费送账号！

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0047
【IJCAI2020-论文分享】Knowledge Hypergraphs Prediction Beyond Binary Relations（知识表示）

【IJCAI2020-论文分享】Knowledge Hypergraphs Prediction Beyond Binary Relations（知识表示）目前基于嵌入的知识图谱…

人工智能 2023年6月1日
0059
快速上手opencv_contrib安装（Windows11）

目录一、安装资料准备二、安装编译 * 1. cmake安装 2. opencv4.2.0源代码编译和opencv4.2.0_contirb解压 3. opencv编译 4. …

人工智能 2023年5月28日
0075
Encoder in Vision Transformer

Encoder · overall 整个Encoder分为输入，自注意力，layer normalization 和前馈网络几个大步组成；接下来细致地分块理一理几个步骤地具体操作…

人工智能 2023年6月20日
0085

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【语音处理】声音的产生机制和数学模型

大家都在看