seq2seq总结【转载以学习、回忆】

2023年6月4日下午1:34 • 人工智能 • 阅读 201

其实对seq2seq如何解码一直不明确。现在整理一下苏神博客里关于seq2seq的知识。文章太多只放一个网址吧https://spaces.ac.cn/archives/5861

尽管整个图的线条比较多，可能有点眼花，但其实结构很简单。左边是对输入的encoder，它负责把输入（可能是变长的）编码为一个固定大小的向量，这个可选择的模型就很多了，用GRU、LSTM等RNN结构或者CNN+Pooling、Google的纯Attention等都可以，这个固定大小的向量，理论上就包含了输入句子的全部信息。

而decoder负责将刚才我们编码出来的向量解码为我们期望的输出。与encoder不同，我们在图上强调decoder是”单向递归”的，因为解码过程是递归进行的，具体流程为：

这就是一个基本的seq2seq模型的解码过程，在解码的过程中，将每步的解码结果送入到下一步中去，直到输出

训练过程

事实上，上图也表明了一般的seq2seq的训练过程。由于训练的时候我们有标注数据对，因此我们能提前预知decoder每一步的输入和输出，因此整个结果实际上是”输入X 和Y[:-1]，预测Y [1:]，即将目标Y错开一位来训练。这种训练方式，称之为Teacher-Forcing。

而decoder同样可以用GRU、LSTM或CNN等结构，但注意再次强调这种”预知未来”的特性仅仅在训练中才有可能，在预测阶段是不存在的，因此decoder在执行每一步时，不能提前使用后面步的输入。所以，如果用RNN结构，一般都只使用单向RNN；如果使用CNN或者纯Attention，那么需要把后面的部分给mask掉（对于卷积来说，就是在卷积核上乘上一个0/1矩阵，使得卷积只能读取当前位置及其”左边”的输入，对于Attention来说也类似，不过是对query的序列进行mask处理）。

「自注：这里有个问题，是解码进行了mask 而不是编码对吗。自己在实验中为啥是编码过程有了mask。要想清楚这个过程就需要明白在transformer实验中的对谁用了mask。我记得是对编码进行了mask

有关将bert作为编码器和解码器可以搜索Bert如何既当作编码器又当解码器。还要看这里https://baijiahao.baidu.com/s?id=1736572335920886109&wfr=spider&for=pc transformers中bert作编码器解码器的包」

beam search [

;](https://spaces.ac.cn/archives/5861#beam%20search)

前面已经多次提到了解码过程，但还不完整。事实上，对于seq2seq来说，我们是在建模

显然在解码时，我们希望能找到最大概率的Y，那要怎么做呢？

如果在第一步p(Y1|X)时，直接选择最大概率的那个（我们期望是目标P ），然后代入第二步p(Y2|X,Y1)，再次选择最大概率的Y 2 ，依此类推，每一步都选择当前最大概率的输出，那么就称为贪心搜索，是一种最低成本的解码方案。但是要注意，这种方案得到的结果未必是最优的，假如第一步我们选择了概率不是最大的Y1，代入第二步时也许会得到非常大的条件概率p(Y2|X,Y1)，从而两者的乘积会超过逐位取最大的算法。

然而，如果真的要枚举所有路径取最优，那计算量是大到难以接受的（这不是一个马尔可夫过程，动态规划也用不了）。因此，seq2seq使用了一种折中的方法：beam search。

这种算法类似动态规划，但即使在能用动态规划的问题下，它还比动态规划要简单，它的思想是：在每步计算时，只保留当前最优的topk个候选结果。比如取t pk=3，那么第一步时，我们只保留使得p(Y1|X)最大的前3个Y1，然后分别代入p(Y2|X,Y1)，然后各取前三个Y2，这样一来我们就有3 2 =9 32=9个组合了，这时我们计算每一种组合的总概率，

然后还是只保留前三个，依次递归，直到出现了第一个

seq2seq提升 #

前面所示的seq2seq模型是标准的，但它把整个输入编码为一个固定大小的向量，然后用这个向量解码，这意味着这个向量理论上能包含原来输入的所有信息，会对encoder和decoder有更高的要求，尤其在机器翻译等信息不变的任务上。因为这种模型相当于让我们”看了一遍中文后就直接写出对应的英文翻译”那样，要求有强大的记忆能力和解码能力，事实上普通人完全不必这样，我们还会反复翻看对比原文，这就导致了下面的两个技巧。

Attention #

Attention目前基本上已经是seq2seq模型的”标配”模块了，它的思想就是：每一步解码时，不仅仅要结合encoder编码出来的固定大小的向量（通读全文），还要往回查阅原来的每一个字词（精读局部），两者配合来决定当前步的输出。

带Attention的seq2seq

至于Attention的具体做法，笔者之前已经撰文介绍过了，请参考《Attention is All You Need》浅读（简介+代码）。Attention一般分为乘性和加性两种，笔者介绍的是Google系统介绍的乘性的Attention，加性的Attention读者可以自行查阅，只要抓住query、key、value三个要素，Attention就都不难理解了。

mask #

在seq2seq中，做好mask是非常重要的，所谓mask，就是要遮掩掉不应该读取到的信息、或者是无用的信息，一般是用0/1向量来乘掉它。keras自带的mask机制十分不友好，有些层不支持mask，而普通的LSTM开启了mask后速度几乎下降了一半。所以现在我都是直接以0作为mask的标记，然后自己写个Lambda层进行转化的，这样速度基本无损，而且支持嵌入到任意层，具体可以参考上面的代码。

要注意我们以往一般是不区分mask和unk（未登录词）的，但如果采用我这种方案，还是把未登录词区分一下比较好，因为未登录词尽管我们不清楚具体含义，它还是一个真正的词，至少有占位作用，而mask是我们希望完全抹掉的信息。

Original: https://www.cnblogs.com/nlpers/p/16435474.html
Author: nlp如此迷人
Title: seq2seq总结【转载以学习、回忆】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/568108/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

2021电赛F题数字识别和巡线部分

文章之前12月发了一次，但是我后来申请的免毕设后，用到了一些文字，所以删了这篇文章，但是还是查重了，于是我把一些程序讲解先删了，等毕设结束后再编辑加上。这次电赛我没有准备多少东西…

人工智能 2023年6月24日
0058
python怎么做彩票概率_50 个常见的 Python 数据分析小方法（上）

作为数据分析的初学者，我感受最深的就是很多时候我想分析处理下数据，无从下手，有的代码也不记得，查找使用方法又得花费时间，所以我整理了一份数据分析问答形式的专题，这里都是平时实战中常…

人工智能 2023年7月8日
0048
如何使用Label Studio实现多用户协作打标，对标记好的数据如何进行实体去重

首先进入Label Studio完成注册登录，Label Studio支持多用户协同标注，用户可通过专有链接进入Label Studio，同一链接下的所有用户均可同时对数据进行标…

人工智能 2023年6月1日
00294
Python计算机视觉之特征提取与图像匹配

目录 Python计算机视觉之特征提取与图像匹配 * 一、特征提取 – 1.1 定义 1.2 边缘 1.3 角 1.4 区域 1.5 脊二、图像匹配 – …

人工智能 2023年6月17日
0078
关于ImportError: No module named ‘tensorflow‘报错的解决

问题：在使用pycharm运行python程序时报错： ImportError: No module named ‘tensorflow’ 环境： win10 64 python…

人工智能 2023年5月23日
0079
Dataframe取特定的行/列&按行/列遍历数据的值_python处理Excel入门

文章目录取Dataframe特定的行/列 * 取特定的列 – 按列名选取列取特定的行 – 按行名选取行按数字选取行同时选取行和列 – 按…

人工智能 2023年7月7日
0065
基于神经网络的实战演练（一）-启动，运行与解读TensorFlow

本期主题：启动并运行TensorFlow 参考书籍：【AO-AZ-90-蜥蜴书-中文版-Hands on Machine Learning with Scikit Learn a…

人工智能 2023年5月26日
0088
【Mongodb数据库】的介绍和安装（windows下和ubuntu16.04下安装及启动）

目录：每篇前言：一、介绍二、windows中安装 * 1. 安装mongodb： 2. 启动mongodb的三种方法： – ①方法1（旧方法，不推荐）： ②方法2…

人工智能 2023年7月30日
0056
中文自动文本摘要生成指标计算，Rouge/Bleu/BertScore/QA代码实现

本部分讲述下如何计算生成摘要与参考摘要的指标，指标方面分为两类，一类基于n-grams计算，如Rouge-1，Rouge-2，Rouge-L，BLEU，主要衡量摘要的句法的连贯性，…

人工智能 2023年5月30日
0068
Spark-SQL之DataFrame操作大全

基本操作 Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作，在DataFrame中都可以通过调用其API接口来实现。可以参考，…

人工智能 2023年6月2日
0055
浅谈人工智能（AI）

文章目录人工智能 (AI) 一、人工智能简介 * 1.1.人工智能定义和发展历史 1.2.人工智能发展必备三要素 – 1.2.1.三要素 1.2.人工智能发展必备三要…

人工智能 2023年7月25日
0041
树莓派11bullseye换源/Opencv安装

前情梗概：笔者最近在用树莓派4B做毕设，在树莓派官网下载了树莓派11bullseye的镜像，但按照现有的网上教程操作换源下载多次失败，但不换源的话则因为网速原因完全无法下载，因为笔…

人工智能 2023年7月18日
00142
利用PaddleDetection 训练自定义VOC数据集进行目标检测

1.环境配置操作系统 Windowspython 3.8paddlepaddle-gpu 2.3.0CUDA 10.2cuDNN 7.6.5ppdet 2.2.4 2.项目结构 …

人工智能 2023年7月9日
0060
（4）绪论三：归纳偏好

通过学习得到的一个模型对应了假设空间的一个假设（这是上节假设空间的内容）归纳偏好或偏好：机器学习算法在学习过程中对某种类型假设的偏好（对于一个新西瓜来说：让一个训练好的模型来判断…

人工智能 2023年7月17日
0046
对比学习系列（五）—SimSiam

SimSiam 孪生网络已经成为无监督视觉表征学习的一种常见结构。孪生网络最大化一个图像的两个增广之间的相似性。论文提出了一个简单的孪生网络（SimSiam）在不需要负样本对、大…

人工智能 2023年6月15日
0055
NumberBox 步进器

该组件一般用于商城购物选择物品数量的场景注意：该输入框只能输入大于或等于0的整数 # 平台差异说明 App（vue）App（nvue）H5小程序√√√√ # 基本使用通过 v-…

人工智能 2023年5月30日
0093

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

seq2seq总结【转载以学习、回忆】

beam search [

seq2seq提升 #

Attention #

mask #

大家都在看