李宏毅-人类语言处理(三)：语音识别-LAS

2023年5月25日下午6:54 • 人工智能 • 阅读 76

李老师讲的第一个语音模型为LAS。其中L为Listen代表模型的Encoder模块，S为Spell代表模型的Decoder，Attend代表Attention，指模型使用了注意力机制。

Listen

Listen模块即模型的encoder模块，这个模块以一个由向量组成的序列特征(如MFCC)作为输入，输出一串相同长度的向量序列。
这一模块的目标：
1.把不同的speaker的说相同的词语句子的差异和语音数据中的噪声等移除。
2.提取语音中与具体内容相关的信息。
此模块可以使用CNN或RNN。
关于Self-Attention的教学链接：https://www.youtube.com/watch?v=ugWDIIOHtPA
通常要先对输入序列做down-sampling，因为输入序列中一秒就有非常多个向量，相邻的向量信息重合度高。训练效率低。
主要做法为Listen模块在多层RNN或CNN后通过相关技术得到比输入序列短的特征向量组成的序列。CNN: Time-delay DNN
Self-Attention: truncated self-attention。

Attend

此模块将encoder的输出向量与关键字向量z 0 z_0 z 0 经过self-attention模块输出一个向量c 0 c_0 c 0 词向量输入到decoder得到decoder对应的输出和关键字向量z 1 z_1 z 1 。将z 1 z_1 z 1 重新应用到Attend模块得到c 1 c_1 c 1 ，重复此过程得到最终的输出序列。

Spell

这个模块每次输出一个size为vocabulary大小的vector，代表当前单词的分布，通过与Attend模块的结合完成自注意过程和Decoder过程。
具体过程如下图所示：

Original: https://blog.csdn.net/qq_32599109/article/details/117755495
Author: 炼丹师祖
Title: 李宏毅-人类语言处理(三)：语音识别-LAS

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/515558/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

机器学习：多分类

1，多分类形式化 1.1，分类问题给定训练样本集合，其中独立同分布，。多分类问题的目标是基于数据，从假说集合中选择一个假说，以使得期望误差：最小。对于二分类问题，可以…

人工智能 2023年7月1日
0058
TensorFlow、Keras、Python 版本匹配一览表

TensorFlow、Keras、Python 版本匹配一览表兴冲冲装完软件，发现运行不了，查了下资料，发现是TensorFlow、Keras、Python 版本匹配问题。这里提…

人工智能 2023年5月23日
0049
神经网络过拟合的判断与解决

关于过拟合是源于模型对于数据的适配性的问题。如果模型容易拟合比较震荡的函数而且数据的随机误差比较大，这个时候就容易发生过拟合现象,也导致了泛化性能不好。泛化性能差就是说在训练集上…

人工智能 2023年6月15日
0070
no module named matplotlib PyCharm无法引用matplotlib的问题

运行代码时遇到： no module named matplotlib 首先检查pip list 其次进入Anaconda Prompt 环境检查了conda list也存在mat…

人工智能 2023年5月25日
0071
＜计算机视觉二＞ labelme标定的数据转换成yolo训练格式

上一章讲了如何使用labelme标注自己的数据集，本章将继续将标注的数据转换成网络能够训练的数据格式。首先说明下，适合自己的数据格式才是重要的，本文的数据不代表一定要这么写。有可能…

人工智能 2023年5月28日
00132
Package | 解决 module ‘cv2‘ has no attribute ‘gapi_wip_gst_GStreamerPipeline‘

. 问题背景由于这个问题出现了两回，决定记录一下。实验背景是使用opencv python库进行数据预处理，遇到报错信息如下：”import cv2File &#82…

人工智能 2023年7月29日
0045
【数学建模常用模型】分类专题

这次介绍一下数模国赛常用的分类方法，以下这方法也是现在应用比较广泛的分类方法：K-近邻算法（k-Nearest Neighbors，KNN）和支持向量机（Support Vecto…

人工智能 2023年7月1日
0074
YOLOv6又快又准的目标检测框架已开源

siou精度是最高的，其次是yoloe，但是没开源：即插即用 | SIoU 实现50.3 AP+7.6ms检测速度精度、速度完美超越YoloV5、YoloX_AI视觉网奇的博客-…

人工智能 2023年6月17日
00113
OpenCV 相机校正过程中，calibrateCamera函数projectPoints函数的重投影误差的分析

OpenCV 校正过程中，calibrateCamera函数的ret和重投影误差的分析 OpenCV对相机进行校正的过程中，校正返回值retval和重投影误差的计算公式表示和分析。…

人工智能 2023年7月19日
0061
FCN全卷积网络理解及代码实现（来自pytorch官方实现）

视频链接：https://www.bilibili.com/video/BV1J3411C7zd?vd_source=a0d4f7000e77468aec70dc618794d26…

人工智能 2023年6月16日
00101
yolov5训练自己的数据集并计算mAP

目录 * – 参考文献 – 代码和权重下载 – 准备工作 – + data中新建几个文件夹 + makeTxt.py + voc_l…

人工智能 2023年7月11日
0061
【语音识别入门】特征提取（Python完整代码）

1、数字信号处理基础 1.1数字信号处理基础在科学和工程中遇到的大多数信号都是连续模拟信号，例如电压随着时间变化，一天中温度的变化等等，而计算机智能处理离散的信号，因此必须对这些…

人工智能 2023年7月26日
0050
模型训练完准确率为0的解决方法,以及模型验证方法(resize和reshape区别)

目录模型训练完准确率一直为0 完整的模型验证套路：test reshape和reszie的区别 debug方法模型训练完准确率一直为0 计算准确率或者输出看loss、准确率时，…

人工智能 2023年6月25日
0088
手写数字识别（识别纸上手写的数字）

说明使用pytorch框架，实现对MNIST手写数字数据集的训练和识别。重点是，自己手写数字，手机拍照后传入电脑，使用你自己训练的权重和偏置能够识别。数据预处理过程的代码是重点。…

人工智能 2023年5月26日
0078
python cv2导入问题解决过程

问题描述：在pycharm中利用库安装工具无法导入opencv-python 解决： 1、opencv-python的下载地址 Links for opencv-python (t…

人工智能 2023年6月19日
00101
AI识别照片是谁，人脸识别face_recognition开源项目安装使用 | 机器学习

前言最近碰到了照片识别的场景，正好使用了face_recognition项目，给大家分享分享。face_recognition项目能做的很多，人脸检测功能也是有的，是一个比较成熟…

人工智能 2023年6月4日
0078

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

李宏毅-人类语言处理(三)：语音识别-LAS

Listen

Attend

Spell

大家都在看