2020.10.4论文笔记

2023年6月10日上午3:39 • 人工智能 • 阅读 64

2020.10.4论文笔记

PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL
NON-AUTOREGRESSIVE NEURAL MACHINE TRANSLATION
Insertion Transformer: Flexible Sequence Generation via Insertion Operations
Levenshtein Transformer
Non-Autoregressive Neural Dialogue Generation
LAVANAT : A Non-Autoregressive Translation Model with Look-Around Decoding and Vocabulary Attention
An EM Approach to Non-autoregressive Conditional Sequence Generation
FlowSeq: Non-Autoregressive Conditional Sequence Generation with Generative Flow

关于可控文本生成的一些文章

PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL

该文章设计了一种以实体为中心训练目标，利用弱监督的训练方式在预训练过程中学习实体的相关知识。给定输入文本，首先识别其中的实体并将其与维基百科知识库中的实体进行链接，定义原始文本为正例。随机选取文本中的实体，再随机选择同类型的其他实体名对选中实体进行替换，生成负例。训练过程即为对上下文C中出现的实体e是否被替换进行二分类预测。

进行实体替换时，首先需通过Wikidata知识库确定其实体类型，并随机选取该实体类型下的其他实体替换原实体，每个实体会通过同样的方式进行10次替换，生成10个不同的负例。相邻实体不会被同时替换，以避免多个连续的负例组成了符合事实的描述。
2020.10.4论文笔记

使用了BERT-base预训练模型，对于每个实体，取最后一层Transformer输出中该实体第一个词的前一个词和最后一个词的后一个词的隐层表示用于预测，预测通过将两表示连接后，经过一线性层，进行二分类。

; NON-AUTOREGRESSIVE NEURAL MACHINE TRANSLATION

以往的NMT模型都是采用的autoregressive的方式进行infer结果，也即模型每次基于之前生成的词去生成序列中的下一个词。这种做法的一个主要劣势就是模型在infer的时候计算速度会受这种计算方式限制，无法进行并行计算。这篇文章提出一种non-autoregressive的方式来生成翻译结果，在翻译时能够并行地输出整个句子结果。

简单的非自回归模型有很多问题，作者举例英语的”Thank you” 翻译成德语有三种形式”Danke.”, “Danke sch¨on.”, or “Vielen Dank.”，如果用这种naïve的模型很可能会翻译出来”Danke Dank.”的结果。
为了解决这个问题，作者提出引入隐含变量的方式，这个隐含变量包含了目标句子的mode信息，再用这个 mode 信息来指导 decode 过程，减小了 decoder 的搜索空间。
作者选择了Fertility predictors的结果作为隐含变量。Fertility predictors输出的是源句子中每个词的含义在目标句子中重复的次数，将Fertility值和原始输入X结合得到了decoder的输入。

non-autoregressive nmt 训练的loss 分为两部分，为上式中的translation loss 和 fertility loss，训练过程分别对翻译结果和Fertility进行监督。Fertility的监督信息有单独的判别模型进行学习。
2020.10.4论文笔记

为了帮助模型训练，作者还采用了两种辅助训练的方式，Sequence-level knowledge distillation和Fine-tuning这两种辅助方式都是为了补足fertility作为隐含变量可能不是那么完美的问题。最终，fine-tuning阶段，训练用的loss是

训练好的模型在infer的时候，采用以下三种方式：
argmax decoding: 先取最大概率的f t f_t f t ，再在得到的f t f_t f t 的基础上取最大概率的Y。
average decoding: f t f_t f t 是求均值得到的。
noisy parallel decoding: 将不同的f t f_t f t 结果得到的Y，经过训练好的auto-regressive model，取得分最高的Y。这个过程比较费时，但是所有的句子是已经生成好的，可以同时对多个句子进行算分。

Insertion Transformer: Flexible Sequence Generation via Insertion Operations

本文提出了基于插入单词（insertion）这个基本操作，可以实现能够动态控制目标语句长度的NAT模型。生成时，目标语句初始的状态都是空。模型将当前状态作为输入，输出为一次插入操作。它包括两个元素：单词和位置，即模型同时预测需要插入的单词以及它被插入的相对位置。如图中所示，这样得到的解码操作可以是序列的（每次仅插入一个词），也可以是并行的（每次插入多个词）。

Loss Functions主要有三种
Left-to-Right

Balanced Binary Tree
2020.10.4论文笔记

Uniform
不给模型施加约束，让模型自己探索生成方式

本文提出了两种停止条件
Slot Finalization在训练时引入了end-of-slot token，来和label为空的slot计算损失函数。在inference时，当且仅当全部slot location的预测都为end-of-slot时，停止继续解码。
Sequence Finalization则还是用的传统的end-of-sequence token，在全部单词都生成之后，将每个slot location都和end-of-sequence token计算损失函数。在inference时，当任意一个slot location的预测结果是end-of-sequence token时，停止解码。

; Levenshtein Transformer

通过三个操作，删除，插入placeholder，在placeholder处预测具体词实现non-autoregressive模型。

训练时使用了知识蒸馏，通过加入噪音生成训练数据，预测时加入了Penalty for Empty Placeholders。

Non-Autoregressive Neural Dialogue Generation

MMI公式计算前向概率和后向概率的的加权和作为Loss。

计算前向概率和后向概率都使用non-AR transformer作为基础模型。
(后向只用一个词估计整句话不太准确）

; LAVANAT : A Non-Autoregressive Translation Model with Look-Around Decoding and Vocabulary Attention

本文提出了LAVANAT模型，引入了Vocabulary attention(VA)和Look-Around (LA) Decoding两个新方法。

Vocabulary attention(VA) 在decode阶段与整个字典计算注意力。设解码器的输入是Z Z Z，我们让解码器中间的特征向量去关注字典W W W,，这相当于是令自注意力中的Q = Z , K = V = W Q=Z,K=V=W Q =Z ,K =V =W。
对所有字符进行这个操作，就得到了字典关注特征向量A A A，然后，把它和原来的解码器特征向量拼接起来得到[ Z ; A ] [Z;A][Z ;A ]，送到下一层。

Look-Around (LA) Decoding在正式生成字符之前，对每个位置先预测它附近的其他位置”可能”会生成哪些字符，然后再结合这种先验信息去生成自己位置的字符。

预测时具体提出几种新的解码方法，Link and Restore把周围两个词和自己都作为备选词，产生一些句子后再从中挑概率最大的。
Dynamic Bidirectional Decoding从句子中挑概率低与阈值的词重新预测。

An EM Approach to Non-autoregressive Conditional Sequence Generation

使用了EM算法，没有看懂。
提出了Corpus-level Multi-modality的概念，NAR模型完全无法解决这个问题

具体算法如下

; FlowSeq: Non-Autoregressive Conditional Sequence Generation with Generative Flow

使用了变分推断中的normalizing flows，真没看懂，以后再编辑

Original: https://blog.csdn.net/weixin_43793544/article/details/108895672
Author: 装甲独角兽
Title: 2020.10.4论文笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/595196/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

人脸识别示例代码解析（二）——人脸识别解析

上一篇我们初步分析了下示例代码facedetector的程序参数解析部分。其中参数解析的过程如下：其中第4步黄色标注的部分cascadeName,是我们人脸识别分类器的主要参数。…

人工智能 2023年7月20日
0049
分类模型——Softmax回归

分类模型——Softmax回归第一章机器学习是什么第二章深度学习是什么第三章前馈神经网络第四章卷积神经网络第五章交叉熵函数文章目录分类模型——Softmax回归前…

人工智能 2023年7月2日
00125
GCN学习笔记

Modeling Relational Data with Graph Convolutional Networks论文学习笔记1 摘要 1. 介绍 2. 神经关系模型 * 2.1…

人工智能 2023年6月10日
0083
CVPR2022论文速递（2022.3.22）！共25篇多篇3D目标检测

整理：AI算法与图像处理 CVPR2022论文和代码整理：https://github.com/DWCTOD/CVPR2022-Papers-with-Code-Demo 欢迎关注…

人工智能 2023年7月9日
0051
python 实现 xml 文件与对应图片根据标签统一重命名

在训练 yolox 模型做目标检测时，有时需要将数据集中的 xml 文件与对应的图片根据文件中的标签进行统一的重命名，故在此分享一个重命名的代码示例。假设共有 4 个标签，分别为…

人工智能 2023年7月9日
0066
pointnet++代码实现并训练自己的数据集

arXiv论文地址项目网页pointnet++代码地址 ; 安装pointnet++ 1.安装TensorFlow 安装TensorFlow，pointnet++使用的是Tenso…

人工智能 2023年5月25日
0075
MATLAB2021下载安装图文教程

wx供重浩：创享日记对话框发送：matlab免费获取下面教程中的 Matlab_ R2021a(64bit) 安装包前些天发现了一个巨牛的人工智能学习电子书，通俗易懂，风趣幽默，…

人工智能 2023年6月23日
00112
【学生网页设计作业源码】基于HTML+CSS+JavaScript简单的大学生书店(13个页面) 二手书店电子商务网站模板源码

🎉精彩专栏推荐 💭文末获取联系✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战…

人工智能 2023年6月27日
0095
Knowledge-based Systems期刊投稿经历

Knowledge-based Systems（KBS）目前是中科院升级版计算机科学-人工智能一区 Top期刊这篇论文2021.10.10投稿，2022.1.7接收，历时约三…

人工智能 2023年7月26日
00173
基于 Openpose 实现人体动作识别

作者|李秋键出品|AI科技大本营(ID:rgznai100) 引言伴随着计算机视觉的发展和在生活实践中的广泛应用，基于各种算法的行为检测和动作识别项目在实践中得到了越来越多的应…

人工智能 2023年5月26日
0080
读懂GSnet（一）：pandas读取pkl格式的多维数组，可视化理解时空数据

GSNet数据解读原始数据 * 1. all_data.pkl 2. risk_mask.pkl 3. risk_adj.pkl 4. road_adj.pkl 5. poi_a…

人工智能 2023年7月18日
0090
事理图谱入门

目录前言一.事理图谱的定义二.事理图谱中事件的定义与表示三. 事理图谱中的事件关系类型四.事理图谱中的事件属性五.事理图谱与知识图谱的区别与联系前言为了确定今后的主…

人工智能 2023年6月1日
0079
Python处理字符串数据将其转化为整型数据

这是读取到的CAN数据段：x| 00 02 51 00 01 05 00 00 0002510001050000符号位百位十位个位.0.00符号位百位十位个位.0.00 impo…

人工智能 2023年7月7日
0077
Python使用过程的 Bug 集

def test(): arr = np.random.randn(4,4) cols = [‘a’, ‘b’, ‘c’] df = pd.DataFrame(data=arr,c…

人工智能 2023年7月8日
0059
python解析json数据的三种方式

目录 * – 1、运用re、json、jsonpath包解析json思路 – 2、三种方式的json解析案例 – + （1）运用re正则表达式解…

人工智能 2023年7月4日
0059
谷歌工程师『代码补全』工具；『Transformers NLP』随书代码；FastAPI开发模板；PyTorch模型加速工具；前沿论文 | ShowMeAI资讯日报

ShowMeAI 日报系列全新升级！覆盖AI人工智能工具&框架 | 项目&代码 | 博文&分享 | 数据&资源 | 研究&论文等方向。点…

人工智能 2023年5月28日
0080

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

2020.10.4论文笔记

2020.10.4论文笔记

大家都在看