NLP基础知识之语音识别

2023年5月25日上午4:13 • 人工智能 • 阅读 84

语音识别的输出类别：

1）phoneme：输出为发音，比较简单，因为语音跟发音是一一对应的，但是需要一个词汇表，表示发音跟word的对应。

2）Grapheme：字母或者token

3）word：短语，V会很大

4）morpheme：代表含义的最小单位

5）byte：utf-8，适用于任何语言

输入特征：（具体的处理可以看下图，以MFCC为例子，如果不经过DCT，就是目前用的最普遍的fliter bank output）

那确定了输入以及输出，接下来介绍 中间的模型。

⚠️encoder：

⚠️attention：

其常见计算方式：直接乘法、加法。在transformer面试时可能会问，为什么选择乘法而不是加法计算相似度：虽然加法计算量小，但是求出来的只是中间结果（矩阵），还要再✖️矩阵才能得到标量。

⚠️decoder：

其中C为样本数量，p是label（one-hot），q是预测的概率。其中q的计算公式（softmax）为：即现扩大差距，在进行归一化。

因为p是one-hot，会使得最终预测的logits向量中目标类别zi的值会趋于无穷大，使得模型向预测正确与错误标签的logit差值无限增大的方向学习，而 过大的logit差值会使模型缺乏适应性，对它的预测过于自信，过拟合，所以有时候会使用 label smothing（soft “one-hot”）

Original: https://blog.csdn.net/m0_56618741/article/details/121163073
Author: 今天学习算法了吗
Title: NLP基础知识之语音识别

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/512123/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【python4 之列与行：index 和列相互转化stack unstack，行列重命名，改变类别标签 , 对行、列重新排序；用数据定义index/columns pivot 】

行列间的转化与拼接一、将index 和每一列的数值相互转化将a列转为index列： set_index 将index 转为列a：使用之前可以将index重命名：df.inde…

人工智能 2023年7月6日
0074
卷积神经网络学习—Resnet50（论文精读+pytorch代码复现）

前言一、Resnet论文精读 * 引入残差残差块 ResNet50模型基本构成 BN层 Resnet50总体结构二、Resnet50代码复现 * 完整代码前言如果说在CN…

人工智能 2023年6月23日
00102
一文掌握Pytorch-onnx-tensorrt模型转换

一文掌握Pytorch-onnx-tensorrt模型转换 pytorch转onnx * – 2022.4 2021.6.24———…

人工智能 2023年7月22日
00103
ES6中的函数

ES5中的函数（1）通过function关键字定义函数 function 函数名（[参数]{}）（2）函数表达式 let 变量 = function([参数]){} 注：（1）…

人工智能 2023年6月27日
0068
【需特殊处理】如何使用request.post(Python)直接发送数组类型的方式

关于api：如何使用request.post(Python)发送数组？ “值错误：太多值无法解包” | 码农家园 """ 声明…

人工智能 2023年6月28日
0082
python机器学习手写算法系列——DBSCAN聚类

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

人工智能 2023年6月2日
0078
基于Baidu Apollo EM Planner的决策规划算法总结

基于Baidu Apollo EM Planner的决策规划算法总结 EM Planner Framework EM Planner是Apollo决策规划模块的核心架构，其核心思想…

人工智能 2023年6月10日
0068
python读取文件的几种方式

下面是不同场景较为合适的数据读取方法： 1.python内置方法（read、readline、readlines）纯文本格式或非格式化、非结构化的数据，常用语自然语言处理、非结构…

人工智能 2023年7月4日
0093
智能计算：人工神经网络（ANN）

2022/5/25 文章目录神经网络 * 一、神经网络基本简介二、神将网络的典型结构三、神经网络的学习算法四、BP神经网络神经网络人类的大脑是如何工作的呢？在计算机上…

人工智能 2023年6月16日
00158
YOLO系列 — YOLOV7算法（三）：YOLO V7算法train.py代码解析

YOLO系列 — YOLOV7算法（三）：YOLO V7算法train.py代码解析先介绍下每个参数的含义（直接在代码上写吧） parser = argparse.Argumen…

人工智能 2023年7月26日
0050
Pytorch实战100例-第6天：好莱坞明星识别

### 回答1：《深度学习框架 PyTorch 入门_与实践第二版》是一本介绍 _PyTorch_深度学习框架的实用教程。该教程适合对深度学习和 _PyTorch_有一定了解的…

人工智能 2023年7月24日
0083
苞米面 Paddle 助手介绍

自己用的百度飞桨 Paddle，PaddleX 项目模板和小工具。My Paddle PaddleX project templates. 适用系统一些脚本使用 shell 编写…

人工智能 2023年6月4日
0076
OpenCV中图片图像轮廓提取-cv2.findContours()讲解

一、图像轮廓 1. cv2.findContours(img，mode, method) 找出图中的轮廓值，得到的轮廓值都是嵌套格式的参数说明: img表示输入的图片， mode…

人工智能 2023年6月18日
00158
C++ 运算符重载

完成my_string 类运算符重载： +=运算符：operator+= 下标运算符：operator[] 加法运算符：operator+ 关系运算符：> 、 Origina…

人工智能 2023年6月29日
0089
深度学习入门系列16项目实战:图像中目标识别

大家好，我技术人Howzit，这是深度学习入门系列第十六篇，欢迎大家一起交流！深度学习入门系列1：多层感知器概述深度学习入门系列2：用TensorFlow构建你的第一个神经网络深…

人工智能 2023年5月25日
00106
python爬虫与数据分析实例：哔哩哔哩排行篇简析

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月15日
0055

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

NLP基础知识之语音识别

大家都在看