【文献学习】Conformer: Convolution-augmented Transformer for Speech Recognition

2023年5月25日上午6:24 • 人工智能 • 阅读 66

Conformer 模块由四个模块堆叠在一起组成，即前馈模块、自注意力模块、卷积模块和最后的第二前馈模块。实验对比，在 Conformer 架构中使用单个前馈模块相比，拥有两个前馈层将注意力和卷积模块夹在中间效果更好。在 self-attention 模块之后堆叠的卷积模块最适合语音识别。

; 3.1 Muti-Headed Self-Attention 模块

【文献学习】Conformer: Convolution-augmented Transformer for Speech Recognition

这种self-attention 来源于Transformer-XL ，相对正弦位置编码方案。相对位置编码允许自注意力模块在不同的输入长度上更好地泛化，并且得到的编码器对话语长度的变化更加鲁棒。使用带有 dropout 的 prenorm 残差单元，这有助于训练和规范更深的模型。在 pre-norm 残差单元中使用具有相对位置嵌入的多头自注意力。

3.2 卷积模块

卷积模块包含一个扩展因子为 2 的pointwise卷积，通过 GLU 激活层投影通道数，然后是一维depthwise 卷积后面是 Batchnorm，然后是 swish 激活层。Batchnorm 在卷积之后立即部署，以帮助训练深度模型

; 3.3 Feed forward 前馈模块

由两个线性变换和中间的非线性激活组成。在前馈层上添加一个残差连接，然后是layernorm。

4 实验分析

简介：我只对模型感兴趣，只读模型部分

[En]

Brief: I am only interested in the model, only read the model part

5 疑问和思考

● 代码是Pytorch写的，不知道Keras能不能使用。https://github.com/lucidrains/conformer?utm_source=catalyzex.com
● 如何把该模型应用到信号处理领域，是我需要研究的问题。

Original: https://blog.csdn.net/weixin_43935696/article/details/120533326
Author: Better Bench
Title: 【文献学习】Conformer: Convolution-augmented Transformer for Speech Recognition

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/512647/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

3D知识图谱可视化

目录一、参考代码 * 1. Github参考 2. Demo参考二、为什么使用3D做图谱可视化 * 1. 背景 2. 使用D3绘制的问题 2. 2D和3D渲染的对比（D3 vs…

人工智能 2023年6月1日
00101
【python起床服务】播放起床铃+给老板发邮件辞职

【python起床服务】播放起床铃+给老板发邮件辞职 * pyttsx3 播放音频 – 1. 播放 mp3 文件 2. 人声读文本 + 测试系统的语音包播放音频的代…

人工智能 2023年5月27日
0080
3.3 柔顺控制代码实现

本文隶属于工程机械臂末端柔顺控制（Ros+Gazebo仿真实现） 0 前言之前写了一个UR5的运动学库，参考3.2 写一个UR机器人运动学库，发现该运动学库需要补充一部分内容，主…

人工智能 2023年6月16日
0073
DNN（全连接神经网络）

一. DNN网络一般分为三层 1.输入层 2.隐藏层 3.输出层简单网络如下：二.前向传播从第二层开始，每一个神经元都会获得它上一层所有神经元的结果。即每一个 y = wx …

人工智能 2023年7月26日
0045
python之whl文件解释与安装

.whl文件解释 whl文件时以wheel格式保存的python安装包，Wheel是Python发行版的标准内置包格式。WHL文件包含Python安装的所有文件和元数据，其中还包括…

人工智能 2023年6月17日
0069
【目标检测】YOLOv5：模型构建解析

前言最近在看一些目标检测的最新论文和代码，大多数都是在YOLOv5的基础上进行魔改。改的最多的基本是原版本的网络结构，这篇博文就从源码角度来解析YOLOv5中，模型是如何构建出来…

人工智能 2023年7月10日
0054
使用Tensorflow Object Detection API训练自己的数据，并使用编译成功的模型进行识别

Tensorflow提供了一个Tensorflow Object Detection API可以很方便的使用这个API进行目标识别和检测，效果还不错。但是目前网上很多资料都是基于T…

人工智能 2023年5月26日
0078
OpenCV官方教程节选

文章目录 * – 零、Opencv简介 – 一、图像处理入门（读取、显示、转换、拆分合并、保存） – + 1.1 直接显示图像 + 1.2 使用…

人工智能 2023年7月19日
0068
风控ML[15] | 风控模型报告以及上线后需要监控的内容

一个优秀的模型上线报告以及一个优秀的上线后模型监控报表，在我们日常风控建模中是非常的常用并且有用的，今天这个话题就来和大家聊聊怎么去制作优秀的模型上线报告以及上线后的模型监控报表…

人工智能 2023年6月11日
0074
记录安装torchtext会自动更新pytorch版本导致gpu加速失效问题

1.配置描述 OS：win10 显卡：Nvidia GeForce MX150 版本426.00 cuda：cuda 10.1 且无法升级到10.1之后的版本 python:3.9…

人工智能 2023年7月13日
0052
Python爬虫实战之五：requests-re多页爬取链家成都地区租房市场信息

本实战项目爬取了链家网成都地区租房的信息目录 1.爬取目标 2.爬取连接 3.技术路线 4.代码及输出模块单页爬取全代码多页爬取核心代码 5.总结全代码文件见： 1.爬取目…

人工智能 2023年7月17日
0051
手写数字识别（识别纸上手写的数字）

说明使用pytorch框架，实现对MNIST手写数字数据集的训练和识别。重点是，自己手写数字，手机拍照后传入电脑，使用你自己训练的权重和偏置能够识别。数据预处理过程的代码是重点。…

人工智能 2023年6月18日
0072
Python系列 – pip管理工具

‍‍🏡博客主页： Passerby_Wang的博客_CSDN博客-系统运维,云计算,Linux基础领域博主🌐所属专栏：『Python系列』🌌上期文章：无📰如觉得博主文章写的不错或…

人工智能 2023年7月4日
0065
2021-05-31 pandas读取文件&DataFrame查看和操作数据

一、读取数据通过 read_ csv 函数将 csv 读取到 pandas 的 DataFrame 对象； df_rating =pd.read_csv(" csv文件…

人工智能 2023年7月7日
0043
金融数据分析——DataJoy银行客户购买预测

本预测与葡萄牙银行机构的营销活动相关。这些营销活动一般以电话为基础，银行的客服人员至少联系客户一次，以确认客户是否有意愿购买该银行的产品（定期存款）。任务是基本类型为分类任务，即预…

人工智能 2023年7月16日
0050
R语言单因素方差分析（One-Way ANOVA）实战：探索性数据分析（EDA）、单因素方差分析模型结果解读（检查模型假设）、分析不同分组的差异TukeyHSD、单因素方差分析的结果总结

R语言单因素方差分析（One-Way ANOVA）实战：探索性数据分析（EDA）、单因素方差分析模型结果解读（检查模型假设）、分析不同分组的差异TukeyHSD、单因素方差分析的结…

人工智能 2023年6月19日
00427

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【文献学习】Conformer: Convolution-augmented Transformer for Speech Recognition

目录

; 3.1 Muti-Headed Self-Attention 模块

3.2 卷积模块

; 3.3 Feed forward 前馈模块

大家都在看