NLP-生成模型-2018：Vanilla Transformer【将长文本序列划截断为多个固定长度的段；段与段之间没有上下文依赖性；无法建模字符之间超过固定长度的依赖，关系导致上下文碎片化】

2023年5月28日下午2:55 • 大数据 • 阅读 83

NLP-生成模型-2018：Vanilla Transformer【将长文本序列划截断为多个固定长度的段；段与段之间没有上下文依赖性；无法建模字符之间超过固定长度的依赖，关系导致上下文碎片化】

; 一、Vanilla Transformer的结构

首先，作者要解决的问题是字级别的LM，相比词级别的LM，字级别LM明显需要依赖的距离特别长，比如说一句话某个位置是应该使用she还是he，是依赖于前面的主语情况，这个主语可能距离此单词位置的有十几个单词，每个单词7-8字母长度，那么这就将近100+个字符长度了，作者使用transformer的结构主要原因是他认为该结构很容易做到在任意距离上的信息传递。相对而言，RNN（LSTM）这种结构，就需要按照时间一步一步的传递信息，不能做到跨越距离。

这篇文章虽然用到了transformer结构，但与Attention is all you need这篇文章（简称原Transformer）是有差异的。原Transformer整体是一个seq2seq结构，具体的细节见此处。而Vanilla Transformer只利用了原Transformer的decode的部分结构，也就是一个带有mask的attention层+一个ff层。

如果将 “一个带有mask的attention层+一个ff层” 称为一个layer，那么Vanilla Transformer一共有64个这

Original: https://blog.csdn.net/u013250861/article/details/119336101
Author: u013250861
Title: NLP-生成模型-2018：Vanilla Transformer【将长文本序列划截断为多个固定长度的段；段与段之间没有上下文依赖性；无法建模字符之间超过固定长度的依赖，关系导致上下文碎片化】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/532189/

转载文章受原作者版权保护。转载请注明原作者出处！

赞 (0)

0

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Nginx + Docker 多阶段构建的部署学习

前几天部署了一个网站，原来我一直是发布完成之后，通过ftp把文件上传上去，有几个大佬给我说了多阶段构建，此时我就不需要发布再搞了，直接将项目添加docker支持。 #See htt…

大数据 2023年5月29日
0078
Redis Desktop Manager(Redis可视化工具)安装及使用教程

大数据 2023年11月13日
0052
sqoop入门简介 | 安装部署 | sqoop案例展示

大数据 2023年11月14日
0028
用css3和html实现创建 Christmas Tree Ornaments（baubles）

css3的出现让我们在实现一些功能效果上变得更简洁，更方便。今天用css3实现圣诞树的一些装饰品，但是支持的浏览器有限，如ie6/7/8不能很好的支持这些css3属性，但是在其他浏…

大数据 2023年5月26日
0076
linux命令_echo

echo echo 命令是 Linux bash 和 C shell中最常用的内置命令之一，通常用于脚本语言和批处理文件，用于标准输出以及显示文本内容等。echo命令在生产环境脚本…

大数据 2023年5月27日
0086
arcgis for android（一）配置Android Sutdio环境

1、做了一年多的 Android GIS开发，突然想做个深刻的总结，记录这一年两个月收获的点点滴滴和遇到的难题，给自己一个交代，不留遗憾！ 2、esri 这两年在开发接口方面做了很…

大数据 2023年11月11日
0036
redis搭建哨兵模式（哨兵模式原理）

大数据 2023年11月14日
0028
sqlite数据库使用

1. 基本操作 SQL教程（W3school）SQL教程（菜鸟）Qt中建立Sqlite使用环境的两种方式）QT中读写Sqlite数据库的三种方式Qt中操作SQLite数据库 1.1…

大数据 2023年11月12日
0050
Docker部署homeassitant

镜像下载、域名解析、时间同步请点击阿里云开源镜像站一、Docker介绍我们知道，一台物理机需要运行多个程序，然而每个程序又需要各自不同的一堆依赖，所有程序全装上的话，整个物…

大数据 2023年5月27日
00111
RocketMQ基于Docker环境下的部署及使用

一、部署目录结构构建： docker-compose.yml version: ‘3.5’ services: rmqnamesrv: image: foxiswho/rocke…

大数据 2023年5月29日
0080
PySpark基础 —— SparkSQL

大数据 2023年11月16日
0062
Kettle自定义jar包供javascript使用

我们都知道 Kettle 是用 Java 语言开发，并且可以在 JavaScript 里面直接调用 java 类方法。所以有些时候，我们可以自定义一些方法，来供 JavaScrip…

大数据 2023年6月3日
0092
python 调用c语言函数

虽然python是万能的，但是对于某些特殊功能，需要c语言才能完成。这样，就需要用python来调用c的代码了具体流程：c编写相关函数，编译成库然后在python中加载这些库，指…

大数据 2023年6月3日
0066
【Linux】使用 apt-get 查询并安装指定版本的软件

镜像下载、域名解析、时间同步请点击阿里云开源镜像站一、通过apt-get安装指定版本的软件 $ sudo apt-get install package=version vers…

大数据 2023年5月27日
00129
Redis 跳表

大数据 2023年11月16日
0046
redis 连接打满的解决

大数据 2023年11月15日
0032

亲爱的 Coder【最近整理，可免费获取】👉 最新必读书单 | 👏 面试题下载 | 🌎 免费的AI知识星球