transformer

2023年5月28日上午6:12 • 人工智能 • 阅读 86

Encoder

输入b经过self-attention后得到向量a，运用残差连接，将a加上输入的b，得到最终输出，送入layer-normalization

layer-norm：计算输入向量的均值m和标准差

，运用上边的公式将对应的Xi转换，等式右边是Xi，不是

，输出

输出的结果送入fully-connection，同样运用残差连接，加和后的结果再次进行layer-norm，最后输出

Positional Encoding：加上位置信息

Add & Norm：residual + layer-norm

Decoder

decoder首先会接收一个special token：begin作为开始信号

最终的输出由vocabulary+概率决定，上图表格左侧是vocabulary里所有的字，比如语音识别，那么左侧就是所有的中文字，可能有一千个一万个，视具体的业务情况而定。表格右侧是每个字对应的概率，概率最大的那个就是最终的输出，上图机为0.8，其他的都很小，那么就输出机。

vocabulary最后添加一个token：end，代表结束了，decoder看到输入是end，就结束。什么时候输出end是由机器自己决定的，这就叫autoregressiive

所以decoder的输入，除了一开始的begin这个token，其它的都是上一时刻decoder自己输出的向量，此时如果上一个时刻输出了错误的向量，后续就会有问题

Masked Self-attention：计算b1时，只考虑a1，不考虑a2a3a4；计算a2时，只考虑a1a2，不考虑a3a4；计算a4时，考虑a1到a4。因为decoder的输入是顺序生成的，不是同时存在的，所以只能考虑已经存在的

encoder和decoder连接部分

Original: https://blog.csdn.net/weixin_43846919/article/details/123796652
Author: 究极菜购
Title: transformer

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530149/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

毕业设计 – 题目：基于深度学习的疲劳驾驶检测深度学习

文章目录 0 前言 1 课题背景 2 实现目标 3 当前市面上疲劳驾驶检测的方法 4 相关数据集 5 基于头部姿态的驾驶疲劳检测 * 5.1 如何确定疲劳状态 5.2 算法步骤 5…

人工智能 2023年6月17日
00126
语义分割系列20-CCNet（pytorch实现）

CCNet：《Ccnet: Criss-cross attention for semantic segmentation》本文将介绍CCNet、Criss-cross atte…

人工智能 2023年7月22日
0052
pandas读取csv相对路径_解决pandas使用read_csv()读取文件遇到的问题

如下：数据文件：上海机场 (sh600009) 24.11 3.58 东风汽车 (sh600006) 74.25 1.74 中国国贸 (sh600007) 26.38 2.66…

人工智能 2023年7月8日
0070
全连接神经网络（FCNN）

全连接神经网络（Fully Connected Neural Network），CNN、RNN、LSTM等各种神经网络都是基于全连接神经网络出发的，最基础的原理都是由反向传播而来。…

人工智能 2023年7月13日
0068
【个人笔记】UNet使用自己数据集训练（多分类）

一、UNet代码链接 UNet代码：U-Net代码（多类别训练）-深度学习文档类资源-CSDN下载二、开发环境 Windows、cuda :10.2 、cudnn:7.6.5 p…

人工智能 2023年6月15日
00116
Python组合数据类型及数据格式化

《Python高级应用》实验报告实验名称：实验4 组合数据类型及数据格式化实验日期： 4.21 姓名：汪珊珊学号： 084619248班级：计算机192 …

人工智能 2023年7月15日
0091
Go数据结构队列

二队列 2.1 队列的介绍队列是一个有序列表，可以用数组或是链表来实现。遵循先入先出的原则。即:先存入队列的数据，要先取出。后存入的要后取出 2.2 数组模拟队列思路队列本身…

人工智能 2023年6月26日
0067
数据拟合（excel）

一：目的使用excel进行数据拟合，拟合出一定的公式，分析数据的趋势，最后通过拟定好的公式，写进代码里面的数值变量，来达到目标传感器与自己传感器采集出来数据的一致性二:操作步骤…

人工智能 2023年7月26日
0053
Joint entity recognition and relation extraction as a multi-head selection problem

; Abstract 实体识别和关系抽取比较依赖NLP工具（词性标记POS、依赖关系等），本文提出一种不需要人工或工具提取特征并且能同时进行实体和关系等候区的模型，即使用CRF抽取…

人工智能 2023年6月10日
0065
《网络流量分类》部分插图

书本目录：第1章绪论 1 1.1 网络流量 2 1.1.1 网络流量的概念 2 1.1.2 网络流量的产生 2 1.2 网络流量分类 3 1.2.1 网络流量分类的概念 3 1…

人工智能 2023年7月2日
0085
OpenCV——Sobel边缘检测

目录一、Sobel算法 * 1、算法概述 2、主要函数二、C++代码三、python代码四、结果展示 * 1、灰度图 2、X方向一阶边缘 2、Y方向一阶边缘 3、整幅图像的…

人工智能 2023年7月5日
0072
Anaconda新手使用教程

Anaconda使用教程一（新手友好）前言一、python和包以及anaconda的概念关系 * 关于python与包关于anaconda 二、Anaconda安装问题 * …

人工智能 2023年7月4日
0075
【深度学习】聊一聊什么是卷积神经网络，卷积是什么意思？

目录卷积 * 举个例子 – 那么此时问：下午2点这个人体内还有什么食物？解决方法总结神经网络中的卷积 * 像素、灰度值卷积操作思考卷积核作用 &#8…

人工智能 2023年6月16日
0056
numpy矩阵求最值、均值、方差、标准差、中值、求和，众数

一、最值获得整个矩阵、行或列的最大最小值。 import numpy as np a = np.array([[1,2,3,3],[4,5,6,2],[0,8,4,9]]) pr…

人工智能 2023年6月19日
0076
数据分析—-numpy数组的三种创建方式

一、使用列表创建numpy数组 1 使用numpy创建一维数组 ; 2 使用numpy创建二维数组 3 使用numpy创建一维数组，源为不同数据类型的列表如下，源虽然是不同类型的…

人工智能 2023年7月15日
0076
解决RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cp

今天在把.pt文件转ONNX文件时，遇到此错误。报错 RuntimeError: Expected all tensors to be on the same device, b…

人工智能 2023年6月16日
0093

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

transformer

大家都在看