Effective Sequence-to-Sequence Dialogue State Tracking论文笔记

2023年5月25日下午2:00 • 人工智能 • 阅读 78

粗读了一下，大概是说seq2seq很好，但是怎么在DST上使用它们还没有被系统地研究过，从两个角度来研究怎么更好使用seq2seq来匹配dst任务：一个是从预训练的任务（用T5的大量不同预训练setups）；另一个是从context的形式上（full history和先前预测出的states循环作为history的summary）

觉得对我的开题有参考想精读一下

2 methods:

2.1 模型

encoder 和decoder都是transformers

encoder的输入：dialogue contexts（不是history）；decoder输出：slot1=value1， slot2=value2等等很常规的dst输入输出

两种不同的dialogue contexts输入：1.full- history ；2.recurrent- state model：只包含最近N轮的对话，1～T-N被预测的states取代，这样不仅减少了输入长度，并且摒弃了与ds无关的信息（我记得这个方法是以前的论文提出的只不过N=1）

2.2 预训练

按照预训练任务分成两类，masked span prediction 预训练的bert和 autoregressive prediction 的gpt为了研究出谁更有效率，作者团队使用T5中的denoting and prefix LM任务同时预训练encoder和decoder，三个对比

a.只用完形填空 b.继续在a的基础上预训练prefix LM c.只使用prefix LM预训练

T-5预训练在nlu的好表现使得作者好奇哪一步对dst有好处，由于dst很难定义，找了一个替代品summarization任务来做实验

选取了Pegasus，一个基于seq2seq的预训练模型作为对照组。简单总结下Pegasu，定义了一个自监督的objective GSG：通过一些启发（有可能是高rouge分）来识别出潜在的重要句子，然后把这些句子mask掉，让decoder去预测这些句子，别的模型则是randomly抹去句子，这使得这个模型处理summarization任务很卓越

3 experiments

optimizer: memory-efficient Adafactor lr=0.01 model:default sentencepiece decoder:beam search uncertainty=0.1

实验结果：

完形填空+autoregressive model的预训练模型比只有arlm的性能好即使是arlm+span也是比只有arlm性能好；span prediction的预训练对dst性能很好

2.1中提到的recurrent state性能始终没有full history好，不管取代之前history的state有多准确，另外，留下的recent turn数也会对实验有很大影响

可能的原因是：早先的prediction mistake很难被修复，而且毕竟at就是这样的，会把错的output带到下一轮的输入中，所以还是最好给full history 这样模型还能学习纠正以前的错误

Original: https://blog.csdn.net/weixin_46830886/article/details/121371326
Author: 我是汪汪酱
Title: Effective Sequence-to-Sequence Dialogue State Tracking论文笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/514474/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

帕金森造模

为模拟人类PD，理想的动物模型应具备以下一些特点： (1)多巴胺能神经元在出生时数量及形态正常，青年时期开始逐渐选择性地减少，减少量超过50％，且容易通过神经化学和神经生理学的方法…

人工智能 2023年6月1日
00103
这个AI算法，可以帮“元宇宙”虚拟人进行虚拟更换衣服

上期视频，我们制作了一个AI算法更换模特身上的衣服，本期教程，介绍一下如何来实现视频中的代码以及实现过程 AI算法，可以帮你进行虚拟换衣，元宇宙虚拟人再也不用愁衣服少了 ——1——…

人工智能 2023年7月28日
0060
系分 – 数学与经济管理

个人总结，仅供参考，欢迎加好友一起讨论文章目录系分 – 数学与经济管理考点摘要最小生成树最短路径网络与最大流量线性规划动态规划预测 – 博…

人工智能 2023年6月26日
00109
1-甲基-3-丁基咪唑四卤化铁([C4mim]FeX4,X=Cl,Br)磁性离子液体

1-甲基-3-丁基咪唑四卤化铁([C4mim]FeX4,X=Cl,Br)磁性离子液体作为反应介质和传统溶剂相比，离子液体提供了一个新的化学环境，对反应过程具有的影响力。离子液体…

人工智能 2023年6月28日
00101
Win10 下安装 CUDA Toolkit

目录 CUDA是什么 1.确认适合自己的版本 2. 安装 CUDA Toolkit 10.1 3.下载并安装与 CUDA 10.1 版本兼容的 cuDNN 4. pip 安装 py…

人工智能 2023年5月23日
00100
【图像处理：频率域平滑与锐化】理想滤波器，巴特沃思滤波器，高斯滤波器

【频率域平滑、锐化滤波器】理想滤波器，巴特沃思滤波器，高斯滤波器一、背景知识二、理想滤波器原理及实现 * 1.理想低通滤波器 2.理想低通滤波器的实现： 3.理想高通滤波器： …

人工智能 2023年6月18日
0094
汽车自动驾驶技术与产品研发仿真测试软件—panosim（一）

随着自动驾驶技术发展，自动驾驶仿真测试逐渐成为重要的环节，目前大家熟知的仿真软件有VTD、carla、carsim等等，其中各个软件有各自的应用特点。如：VTD特点为具有高保真度的…

人工智能 2023年6月10日
0092
【节点分类】python实现：4种(GNN,GAN,SAGE,APPNP)图神经网络（-dgl库-pytorch-cuda-）

信息系统建模作业，要求是使用四种不同的节点表征方法两个3k+数据集环境：pytorch cuda11.1 dgl-0.6.1（cuda环境配置指路：我发的第一篇文章） dgl库各种…

人工智能 2023年7月12日
0095
GRU(门控循环单元)，易懂。

一、什么是GRU？ GRU（Gate Recurrent Unit）是循环神经网络（RNN）的一种，可以解决RNN中不能长期记忆和反向传播中的梯度等问题，与LSTM的作用类似，不过…

人工智能 2023年6月23日
0068
【vision transformer】DETR原理及代码详解（一）

DETR: End-to-End Object Detection with Transformers 论文： https://arxiv.org/pdf/2005.12872.p…

人工智能 2023年5月26日
00103
SPARQL一种RRDF查询语言 query的学习笔记

SPARQL query的学习本文章主要是记录SPARQL的学习过程与demo的运行结果,本实践项目基于apache-jena-fuseki,demo的数据库文件为kg-demo…

人工智能 2023年6月1日
0076
教你如何用Keras搭建分类神经网络

摘要：本文主要通过Keras实现了一个分类学习的案例，并详细介绍了MNIST手写体识别数据集。本文分享自华为云社区《[Python人工智能] 十七.Keras搭建分类神经网络及M…

人工智能 2023年7月3日
00103
yolov5目标检测神经网络——损失函数计算原理

前面已经写了4篇关于yolov5的文章，链接如下： 1、基于libtorch的yolov5目标检测网络实现——COCO数据集json标签文件解析 2、基于libtorch的yolo…

人工智能 2023年7月25日
0073
什么是知识图谱？

目录前言 1.什么是知识图谱 2.知识图谱的通用表示方式 3.知识图谱的应用 3.1搜索 3.2问答 3.3辅助大数据分析 4.知识图谱的构建 4.1流程概述 4.2知识抽取 4…

人工智能 2023年7月27日
00200
卷积神经网络EfficentNet v1学习记录–Model Scaling

论文地址：《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks 》亮点：同时探索…

人工智能 2023年6月20日
00113
深度学习之基于CNN和VGG19实现猫狗大战

猫狗大战在一开始接触深度学习的时候，实现过，也写过一篇博客。但是当时的理解并不是很深，在做过之前的实验之后，再次接触猫狗大战，就有一些别的体会了。本次实验基于自己搭建的CNN与VG…

人工智能 2023年5月26日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Effective Sequence-to-Sequence Dialogue State Tracking论文笔记

大家都在看