ASR入门笔记

2023年5月25日下午8:10 • 人工智能 • 阅读 78

一些参数说明

https://www.kancloud.cn/anychat-doc/anychat_handbook_video/526462

音频、音频，故名声音的频率，指人耳可以听到的声音频率在20HZ~20kHz之间的声波，称为音频，那频率就有采用率和大小，我们大自然的声音都是物理现象，称为模拟音频信号。为了方便数字化存储和传输，我们采用数字音频信号处理技术，音频采样率是指录音设备在一秒钟内对声音信号的采样次数，采样频率越高。声音的还原越真实越自然。在当今的主流采集卡上，采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级。

sample rate，取样频率：指每秒钟取得声音样本的次数。采样频率越高,声音的质量也就越好,声音的还原也就越真实，但同时它占的资源比较多。由于人耳的分辨率很有限,太高的频率并不能分辨出来。

sample size，采样值大小：它是用来衡量声音波动变化的一个参数，也可以说是声卡的分辨率。它的数值越大，分辨率也就越高，所发出声音的能力越强。
每个采样数据记录的是振幅, 采样精度取决于采样位数的大小:1 字节(也就是8bit) 只能记录 256 个数, 也就是只能将振幅划分成 256 个等级;
2 字节(也就是16bit) 可以细到 65536 个数, 这已是 CD 标准了;
4 字节(也就是32bit) 能把振幅细分到 4294967296 个等级, 实在是没必要了.

声道：指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号。
声道数：声音录制时的音源数量或回放时相应的扬声器数量。
分为单声道、双声道、多声道。

1. 输入音频处理

从waveform到MFCC逐步加深，log十分重要

最终得到的MFCC特征，就是用24维特征系数来代表一帧的声音。

; 2. 输出token

（1）Phoneme：最小的发音单元 https://en.wikipedia.org/wiki/Vowel
（2）Grapheme：最小的书写单元。中文=字，英文=字母
（3）word：中文=词，英文=word
（4）Morpheme：最小的有意义的单元。适用英文，例如：
unbreakable=un break able，类似于子词
（5）拼音
训练时英文按空格分词，中文复杂：

主流模型

1、seq2seq+attention +beam search

&#x4F8B;&#x5982;&#xFF1A;LAS&#x6A21;&#x578B;&#xFF08;Listen, Attend, and Spell
&#xFF09;
&#x7F3A;&#x70B9;&#xFF1A; not streaming

2、Sequence labeling

（1）CTC

CTC模型就是先将一段声音信号x作为输入输入到encoder中，输出h,再经过一个classifier产生token distribution,最后经过一个softmax输出最后结果。但是如果只是以上这种模型，并不能有很好的结果，因为如果token只是一个大小为V的矩阵的话，不一定每一段x会有输出，于是就会有一个Ø（NULL）便可以有效处理这种情况。
详情参见：https://blog.csdn.net/qq_45866407/article/details/105975320
缺点：条件独立，会反复生成相同的词。生成的token不能超过sample数量。
优点，可以做streaming
（2）RNN Transducer

优点：在encoder改进了RNN，一个h0可以用多个step，使得模型能输出超过sample数量的token。考虑了LM，支持streaming。
缺点：训练困难。
（3）Neural Transducer

(4) Monotonic Chunkwise Attention

总结：

; 3、Multi-task learning

核心理念：
CTC模型训练快，但是有token长度对应得限制，并且容易结巴连续生成某个token。
SL模型，没有长度限制，不会结巴。但是速度慢。
因此，考虑两个任务联合起来，加快模型收敛速度。

Transformer系列

（1）Conformer Transducer

把FFN分为两个步骤，同时用CNN来捕获局部特征

; 关于Streaming

Transfoemer结构怎么实现Streaming

triggered attention：每个节点只看当前节点之前的节点。也可以往后看一定数量的节点，主要防止要预测’我们’，当前时间只听到’我’，所以向后多听一点。
在CTC模型中，每个字只关注这个字第一次出现前的序列

; ASR相关技术:EP__EndPointer.端点检测

VAD: Voice Activity Detector.

判断是否有人说话

EOQ: End of Query.

找到对话结束点

SD: Speaker Diarization

在多人对话中将对话按人划分。

常用工具

Original: https://blog.csdn.net/weixin_42264992/article/details/125319325
Author: 飞扬々岁月
Title: ASR入门笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/515870/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

PyTorch图像分割模型——segmentation_models_pytorch库的使用

一、概要 segmentation_models_pytorch是一个基于PyTorch的图像分割神经网络这个新集合由俄罗斯的程序员小哥Pavel Yakubovskiy一手打造…

人工智能 2023年7月21日
0054
基于GAN的时序缺失数据填补前言（1）——RNN介绍及pytorch代码实现

本专栏将主要介绍基于GAN的时序缺失数据填补。提起时序数据，就离不开一个神经网络—— 循环神经网络（Recurrent Neural Network, RNN）。RNN是一类用于处…

人工智能 2023年7月22日
0076
2022年系统集成项目管理工程师考试知识点：企业信息化

很多考生在备考2022年系统集成项目管理工程师考试，为大家整理了2022年系统集成项目管理工程师考试知识点：企业信息化，供大家备考复习。企业信息化是指企业以业务流程的优化和重构为…

人工智能 2023年7月17日
0042
40、记录ROC-RK3588S-PC开发板yolov5目标检测和mpp拉海康摄像头进行解码

基本思想：喜得一个RK3588开发板，利用它完成目标检测和TCP通信一、刷机参考官网或者参考下篇博客链接: https://pan.baidu.com/s/1dJuS2xYU…

人工智能 2023年6月17日
00944
混合IP-SDN环境的仿真实验

混合IP-SDN环境的仿真实验混合IP-SDN环境的仿真实验 * 实验室名称实验名称实验原理实验目的实验设备实验步骤 – 1.在mininet中搭建如下拓扑…

人工智能 2023年6月26日
0061
深度学习环境配置记录——RTX3050

人工智能 2023年5月26日
0051
关于基于SPFCN库位检测算法的解读与源码分析

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤 1.引入库 2.读入数据总结前言 SPFCN是一个偏工…

人工智能 2023年6月10日
0064
2022年全球市场液相色谱耗材总体规模、主要生产商、主要地区、产品和应用细分研究报告

本文研究全球市场、主要地区和主要国家液相色谱耗材的销量、销售收入等，同时也重点分析全球范围内主要厂商（品牌）竞争态势，液相色谱耗材销量、价格、收入和市场份额等。针对过去五年（20…

人工智能 2023年6月11日
0070
python进行图像边缘检测

边缘检测 图像边缘是指图&…

人工智能 2023年7月30日
0068
【算法】数组中出现次数超过一半的数字

数组中出现次数超过一半的数字_牛客题霸_牛客网这道题给出3种做法，咱们一个个来~ 【方法1】用Map统计次数思路：既然它要找出现次数超过一半的数字，那就得用到统计对吧，那必然想…

人工智能 2023年6月28日
00101
【GEE笔记】有效像元（面积、数量）统计

主要内容统计掩膜后数据集像元数量统计，区域面积、数量统计，在GEE线上的Code Editor编写JavaScript代码实现相关功能：传入范围，筛选出符合条件的数据，预处理之后…

人工智能 2023年6月17日
00379
基于决策树算法对良/恶性乳腺癌肿瘤预测

本人数据结构课程设计如题所示，现给出该课设的具体设计思路及代码演示，供大家学习，交流，共同学习（部分代码借鉴GitHub大佬）内容简介：决策树(Decision Tree）是在…

人工智能 2023年6月16日
0079
如何退订语音包_怎么关闭语音助手 – 卡饭网

如何在地图上关闭语音助手？ [En] How to turn off voice assistant on Amap? 如何在地图上关闭语音助手？地图和百度地图都有语音助手的功能，…

人工智能 2023年5月27日
00128
基于BP神经网络、kmeans聚类和HC模型的火焰特征数据识别算法matlab仿真

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月31日
0069
最简单体验TinyML、TensorFlow Lite——ESP32跑机器学习（全代码）

目录前言数据采集、处理 * 导入包正弦波数据生成数据集分类模型1训练 * 模型1创建模型1训练检查训练指标模型2训练模型导出（TensorFlow Lite）模…

人工智能 2023年6月23日
0067
机器人听觉处理浅析

众所周知，人们利用外耳道收集外部声波，将其传输到鼓膜，引起鼓膜振动，然后从听小骨传递到内耳，刺激耳蜗声敏感的听觉细胞。这些细胞通过听神经将声音信息传递到大脑皮层的特定区域，这样人们…

人工智能 2023年5月23日
0084

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30