语音识别平常笔记

2023年5月25日下午5:26 • 人工智能 • 阅读 88

Voice Recognition

2021年3月21日
HowardXue

语音模型发展：模板匹配（DTW） -> 统计模型（GMM高斯-HMM隐马） -> 深度学习（DNN-HMM，E2E)

音频编码：常用格式PCM的wav格式
语音采样率8khz 或16khz
6阵列mac 声源定位有空间指向性，定位后，可有效抑制其他方向的声音干扰（旁边的其他人声音）
开源工具：HTK，Kaldi, Espnet（python）
音速序列：英语48个音素 20元音 28辅音，汉语32个音素，10个元音

离散傅里叶变换（DFT）时域信号 -> 频域信号，逆傅里叶变换将频域信号恢复为时域
实际可以用快速傅里叶变换(FFT) 简化计算复杂度
加窗：分帧处理
常用的声学特征：MFCC，FBank，语谱图

HMM马尔科夫链：只根据当前事件，预测下一事件。 –双重随机过程
HMM是声学模型 -> 语音数据
RNN是语言模型 -> 文本数据，词与词之间的组合概率关系，基于统计语言模型
解码器：传统动态网络解码器Viterbi -> WFST静态网络解码器
WFST把发音词典、声学模型、语言模型（三大组件）合并成统一的静态网络 ->解码速度快

DNN的输出节点与HMM的状态节点一一对应，通过DNN的输出得到每个状态的观察值概率
不同音素（a e I …o)统一关联到DNN的输出节点

DNN使用CNN：语谱图 -> 变为图像处理，提取时域、频域feature map局部特征
RNN – LSTM， GRU
TDNN时延神经网络
CNN – TDNN-F 组合网络，CNN先提取局部频域特征，然后TDNN-F提取上下文的时域特征

E2E ASR Model，只需要输入端的语音特征和输出端的文本信息，将传统ASR三大组件融合成一个网络模型
E2E常用模型：CTC、RNN-T、Transformer
RNN-T联合建模：语音识别+说话人区别（识别后的文字后带有说话人ID）

Attention机制跟人类翻译文章时候的思路有些类似，即将注意力关注于我们翻译部分对应的上下文

序列对序列问题（sequence-to-sequence， seq2seq)，通过Encoder/Decoder对输入特征和输出结果进行序列建模
加入Attention机制，改进了seq2seq，

Espnet，特征提取：直接用kaldi原生脚本，可以进行MFCC/FBank/PLP特征的提取
特征提取后，还需对特征进行倒普均值归一化（CMVN）来使特征服从高斯分布（均值为0，方差为1）

语音数据增强：音量干扰和速度干扰(变速)

[En]

Voice data enhancement: volume disturbance and velocity disturbance (variable speed)

词典生成：数字对应字符

data2json.sh: 映射文件都打包保存在data2json.sh脚本中
Train.yaml:训练配置文件，例如选择哪个声学模型，选择CTC/Attention/Transformer结构等
Lm_train.py：语言模型训练，输出是：rnnlm.model.best
Asr_train.py: 声学模型训练
默认使用的编码器：BLSTM
Asr.recog.py: 语言识别解码器

模型部署到Edge：编译Kaldi生成动态库.so/dll -> 嵌入式ARM Linux平台编译移植Kaldi

Transformer:

Transformer: 在每个Decoder和Encoder中都采用Attention机制，特别是在Encoder，把传统的RNN完全用Attention替代
Transformer 本质上还是seq2seq结构：

未完待续。。。

Original: https://blog.csdn.net/HowieXue/article/details/117389549
Author: HowieXue
Title: 语音识别平常笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/515238/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python爬取哔哩哔哩（bilibili）视频

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月17日
0046
使用MindSpore训练及保存模型

MindSpore提供了回调Callback机制，可以在训练过程中执行自定义逻辑，这里以使用框架提供的ModelCheckpoint为例。 ModelCheckpoint可以保存网…

人工智能 2023年5月26日
0094
3D目标检测中点云的表征方式总结（一）

3D检测中点云的表征方式总结（一） 1.RSN: Range Sparse Net for Efficient, Accurate LiDAR 3D Object Detectio…

人工智能 2023年7月12日
0073
Motor-CAD— 新能源驱动电机快速设计与优化工具

Motor-CAD作为一款专业的电机设计验证工具，有着丰富的专业的电机模型库，能够辅助工程师实现电机快速参数化设计、多场耦合仿真性能评估与设计参数优化。同时，Motor-CAD集成…

人工智能 2023年6月10日
00100
pandas中合并数据集

数据集的合并🔍 1、pandas.merge() 对于数据库风格的DataFrame进行联合语法👇： pandas.merge(left, right, how=’i…

人工智能 2023年7月7日
0073
【matlab图像处理】直方图均衡化

中国史之【犬戎之祸】：公元前771年，西夷犬戎攻入西周都城镐京（今陕西西安），杀周幽王，镐京残破，于是继位的周平王东迁至雒邑（今河南洛阳）。犬戎之祸为西周与东周历史的分界事件。——…

人工智能 2023年6月18日
0099
Fer2013 数据集人脸表情识别详细代码

Fer2013 数据集人脸表情识别详细代码本文将从数据集、模型训练、模型实践应用（AI模型落地场景实际应用）几个部分完整讲解基于Fer2013 数据集的人脸表情识别项目，最终…

人工智能 2023年6月16日
00123
深度学习机器学习面试题——自然语言处理NLP,transformer,BERT,RNN,LSTM

深度学习机器学习面试题——自然语言处理NLP,transformer,BERT,RNN,LSTM 提示：&…

人工智能 2023年5月30日
00127
目标检测中的损失函数IoU、GIoU、DIoU、CIoU、SIoU

IoU损失函数 IoU损失是目标检测中最常见的损失函数，表示的就是真实框和预测框的交并比，数学公式如下：I o U = ∣ A ∩ B ∣ ∣ A ∪ B ∣ IoU =\frac…

人工智能 2023年6月16日
0054
HandlerAdapter具有什么功能呢？

转自: 下文笔者将讲述HandlerAdapter的功能简介说明，如下所示: HandlerAdapter的功能 HandlerAdapter:是一个处理器适配器Spring MV…

人工智能 2023年6月26日
0077
【SVM分类】基于支持向量机实现数据分类附matlab代码

1 简介支持向量机是利用已知数据类别的样本为训练样本，寻找同类数据的空间聚集特征，从而对测试样本进行分类验证，通过验证可将分类错误的数据进行更正。本文以体检数据为数据背景，首先通…

人工智能 2023年6月30日
0071
【自动驾驶轨迹规划之RRT算法】

目录 1 RRT算法的简介 2 RRT算法原理 2.1 算法流程 2.2 算法伪代码 2.3 算法流程图 3 RRT算法matlab实现 3.1 测试地图 3.2 distance…

人工智能 2023年6月1日
0093
[Pandas] 数据合并 pd.merge

实现类似SQL的join操作，通过pd.merge()方法可以自由灵活地操作各种逻辑的数据连接、合并等操作可以将两个DataFrame或Series合并，最终返回一个合并后的Da…

人工智能 2023年7月9日
0070
yolov5模型问题解决SPPF找不到、yolov5smlx.pt文件下载、coco128文件下载、coco128yaml文件更改、coco128数据集not exist、BrokenPipeErro

问题一：运行detect.py 报错：AttributeError: Can’t get attribute ‘SPPF’ on import…

人工智能 2023年7月9日
0090
用python爬取全国和全球疫情数据，并进行可视化分析(过程详细代码可运行)

用Python爬取最新疫情数据这次重大疫情，每时每刻数据都有可能变化，这篇博文将为大家讲解如何爬取实时疫情数据，并且分析数据，作出数据可视化的效果。报告梗概：对中国疫情分析 …

人工智能 2023年7月4日
00111
Pandas笔记 · DataFrame数据结构与构建方法

文章目录 * – 1. DataFrame数据结构 – 2. 如何构建DataFrame – + 2.1. 按行构建 + * 2.1.1. 使用…

人工智能 2023年7月7日
0085

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

语音识别 平常笔记

Transformer:

大家都在看

语音识别平常笔记