wenet mask原理解析

2023年5月25日下午7:44 • 人工智能 • 阅读 91

简介：

该程序主要对wenet使用的mask原理进行分析，更多详细内容参照 https://zhuanlan.zhihu.com/p/381271607

代码位置：

wenet/mask.py at main · wenet-e2e/wenet · GitHub

代码理解：

https://mp.csdn.net/mp_blog/creation/editor/122271121

原理概述：

mask: 何谓mask，简言之，即为遮蔽，露出自己想要关注的特征，如下图所示

作用：

据作者所言，引入mask主要为了解决三个问题：

1 batch padding

主要是因为一个batch中不同语音的长短不一致，所以需要在短的语音特征后补0来实现一个batch变成等长的序列。

2 自回归

在Attention Decoder中，每个word只能看到自己以及左侧的words，所以其中的attention操作实现时，每个位置只能和当前位置以及左侧的位置进行操作，所以引入了一个mask来遮挡不需要关注的信息。

3 chunk-based model

在这里主要就是动态chunk的方法，能够实现chunk在训练过程中有一半的概率是最大值，一半的概率是随机从1-25中选取，其数学逻辑如下：

下图是full attention，left attention 和chunk attention的区别：

full attention: 只在语音结束后关注整条语音；

left attention: 可以在解码过程中时刻关注之前整条语音的所有内容；

chunk attention: 可以在解码过程中时刻关注之前整条语音的最近一个chunk的内容；

Original: https://blog.csdn.net/shaoyou223/article/details/122642141
Author: 少游223
Title: wenet mask原理解析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/515767/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Enhancing State-of-the-art Classifiers with API Semantics to Detect Evolved Android Malware笔记

使用API语义增强最新分类器来检测不断发展的安卓恶意软件由于恶意软件的不断发展，机器学习分类器的性能会随着时间显著降低。先前的工作已经提出使用再训练或主动学习来改善其性能，但需要…

人工智能 2023年6月10日
0075
Python计算pandas中不同值的个数Series.value_counts()

【小白从小学Python、C、Java】【Python全国计算机等级考试】【Python数据分析考试必会题】 ● 标题与摘要 Python计算pandas中不同值的个数 Ser…

人工智能 2023年6月19日
00111
图像灰度化的三种常见方法

ⅠWhat 首先是baike给出的官方灰度化定义：灰度化，在RGB模型中，如果R=G=B时，则彩色表示一种灰度颜色，其中R=G=B的值叫灰度值，因此，灰度图像每个像素只需一个字节…

人工智能 2023年6月17日
0075
【python数据分析】：数据预处理之连续数据离散化

连续属性变换成分类属性，即连续数据离散化。在数值的取值范围内设定若干个离散划分点，将取值范围划分为一些离散化的区间，最后用不同的符号或整数值代表每个子区间中的数据值。连续数据离…

人工智能 2023年7月6日
00165
【OpenCV实战】一小时就学会了人脸识别项目，我居然被老板重用了…（python+opencv）

前言 🚀 作者：”程序员梨子” 🚀 文章简介：本篇文章主要是写了使用opencv写的简单的人脸识别小系统哦！ 🚀 **文章源码免费获取：为了感谢每一…

人工智能 2023年7月20日
0061
Pytorch中的 flatten() ，squeeze() 和 unsqueeze() 的区分

Pytorch中的 flatten，squeeze 和 unsqueeze 的区分解释举例： * 原数据 T 的输出: 原数据 T 的 flatten() 输出原数据 T 的…

人工智能 2023年5月30日
0086
YOLO系列详解：YOLOv1、YOLOv2、YOLOv3、YOLOv4、YOLOv5

一、前言 YOLO系列是one-stage且是基于深度学习的回归方法，而R-CNN、Fast-RCNN、Faster-RCNN等是two-stage且是基于深度学习的分类方法。 Y…

人工智能 2023年6月16日
00165
OpenCV 透视变换 & 图像拼接

A：OpenCV 透视变换一：OpenCV透视变换的概念仿射变换(affine transform)与透视变换(perspective transform)在图像还原、图像局部…

人工智能 2023年7月19日
0047
从三个产业侧影，打开万物智能的应用之匙

佛经说，芥菜籽必须藏起来，芥菜籽要填满苏米。将世界最高的须弥山藏在一粒小小的油菜籽里，在很小的事情上看到巨大的变化，这一幕无疑充满了禅意。 [En] The Buddhist su…

人工智能 2023年5月27日
0061
【Python-Keras】keras.layers.Dense层的解析与使用

1 Dense解析 keras.layers.Dense(units, activation=None, use_bias=True, kernel_initializer=’gl…

人工智能 2023年7月14日
0066
头歌Python实训答案——函数二

第1关：函数的参数 – 搭建函数房子的砖编程要求本关的编程任务是补全 src/Step1/plus.py文件的代码，实现相应的功能。具体要求如下：定义函数 plu…

人工智能 2023年7月5日
00108
Power BI——度量值

一、概念：度量值是用DAX公式创建一个虚拟字段的数据值，不改变源数据，也不改变数据模型，拖拽到报表上作用很大，可以随着切片器的筛选而变化，所以度量值一般在报表交互时使用。二、案…

人工智能 2023年6月11日
0091
win10 rtx3060安装cuda11.1+cudnn11.1+anaconda换源

rtx3060深度学习环境搭建下载文件 anaconda换源开始安装 * 查看cl.exe 安装CUDA11.1 安装cudnn11.1 安装pytorch 安装torchvi…

人工智能 2023年7月12日
0075
金融领域的知识图谱搭建简单实操（基于Neo4J）

Tushare ID ：475226 我国金融市场在改革开放之后取得了瞩目的成绩，并且随着信息技术的发展、金融市场的发展，金融机构都累积了非常庞大的数据量，包括了海量的交易内容和资…

人工智能 2023年6月1日
0076
时间序列的典型分解模型

1 引言时间序列的典型分解式为：X t = m t + s t + Y t X_{t}=m_{t}+s_{t}+Y_{t}X t =m t +s t +Y t 其中m t…

人工智能 2023年6月18日
0074
工商管理专业知识与实务（中级）【3】

1.企业进行综合分析常用的分析方法是（）。 A.PESTEL分析法B.SWOT分析法C.波士顿矩阵分析D.波特的”五力模型” 2.SWOT分析法中的S和T是…

人工智能 2023年7月18日
0032

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

wenet mask原理解析

大家都在看