论文阅读笔记：Neural Belief Tracker: Data-Driven Dialogue State Tracking

2023年6月10日上午1:16 • 人工智能 • 阅读 83

提示：阅读论文时进行相关思想、结构、优缺点，内容进行提炼和记录，论文和相关引用会标明出处。

文章目录

前言
Abstract
Introduction
Background
Neural Belief Tracker
*
–
Belief State Update Mechanism
Experiments
Conclusion

前言

标题：Neural Belief Tracker: Data-Driven Dialogue State Tracking
原文链接：Link
Github：NLP相关Paper笔记和实现
说明：阅读论文时进行相关思想、结构、优缺点，内容进行提炼和记录，论文和相关引用会标明出处，引用之处如有侵权，烦请告知删除。
转载请注明：DengBoCong

Abstract

belief tracker是现代口语对话系统的核心组件之一，它可以在对话的每个步骤中估算用户的目标，但是，大多数当前方法很难扩展到更大，更复杂的对话域。这是由于它们对以下方面的依赖：a）需要大量带注释的训练数据的口语理解模型；或b）手工制作的词典，用于捕获用户语言的某些语言变化。我们提出了一种新颖的Neural Belief Tracking (NBT) 框架，该框架通过基于表示学习的最新进展来克服这些问题。NBT通过推理对预先训练的单词向量进行建模，学习将其组合为用户话语和对话上下文的分布表示形式。我们对两个数据集的评估表明，该方法超越了过去的局限性，与依赖于手工制作的语义词典的最新模型的性能相匹配，并且在不提供此类词典的情况下其性能优于后者。

Introduction

下图中的示例显示了三轮对话中每个用户语句后的真实状态，从该示例可以看出，DST模型依赖于标识用户话语中的本体。

论文阅读笔记：Neural Belief Tracker: Data-Driven Dialogue State Tracking

下图给出了一个针对三个槽值对的字典的示例（传统的做法是建语义词典），我们称其为 非词化(delexicalisation)的这种方法显然无法扩展到更大，更复杂的对话域。如意大利语和德语这种词汇和形态丰富的语言。

在本文中，我们介绍了两个新模型，统称为 Neural Belief Tracker (NBT)系列，这些模型将SLU和DST结合在一起，可以有效地学习处理变化，而无需任何手工资源。

; Background

Separate SLU
Joint SLU/DST

本文提出的工作的主要动机是克服影响以前的信念跟踪模型的限制。NBT模型通过以下方式有效地从可用数据中学习

利用预训练词向量中的语义信息来解决词汇/形态上的歧义
最大化本体值之间共享的参数数量
具有学习领域特定释义和其他变体的灵活性，这使得依靠精确匹配和去词缀化作为一种可靠的策略是不可行的

Neural Belief Tracker

下图展示了该模式下的信息流

给定三个模型输入，NBT层次结构的第一层执行表示学习，从而为用户话语生成矢量表示( r ) (r)(r )，当前的候选插槽值对表示( c ) (c)(c )，系统对话动作表示为( t q , t s , t v ) (t_q, t_s, t_v)(t q ,t s ,t v )。随后，学习到的向量表示通过上下文建模和语义解码子模块进行交互，以获得中间交互向量d r , d c , d d_r,d_c,d d r ,d c ,d，这些用作最终决策模块的输入，该模块决定用户是否表达了由候选插槽值对表示的意图。

目的是根据用户的输入（User Utterance，由ASR得到的结果，当然也可以直接是用户的文本输入）和系统上一轮的回复（System Output），遍历Domain Ontology（说白了就是某个领域内slot-value对可能取值）中每一个(slot,value)对，以判断用户真实意图中包含该slot-value对的概率大小。例如上图中的Domain Ontology存在三个可能的slot-value对，分别是(food, Indian), (food, Persian), (food, Czech)。而本论文的目的便是需要分别遍历这三个可能取值，假设当前遍历到了(food, Persian)这个取值，通过表征模型可以得到它的表征c，再通过图中所示的流程，最后可以得到一个结果y，这个结果便表明了(food, Persian)这个slot-value对属于用户真实意图的可能性大小。

; Representation Learning

这里分别使用了两个模型来得到文本的表征：NBT-DNN和NBT-CNN，所有的表征学习都是建立在词向量上，论文说用专注于语义的词向量，效果会比普通的词向量好，可以看作是《同义词林》的”词向量版”。

模型的输入包括系统的前一个对话动作，用户的输入 u u u 和一个候选的slot-value对。输入 u u u 的词向量分别是 u 1 , . . . , u k u_1,…,u_k u 1 ,…,u k 。 V i n V_i^n V i n 是n个词向量的拼接。
V i n = u i ⊕ . . . ⊕ u i + n − 1 V_i^n=u_i⊕…⊕u_{i+n-1}V i n =u i ⊕…⊕u i +n −1

先看看NBT-DNN，结构如下图所示。计算累积n-gram特征向量 r 1 , r 2 , r 3 r_1, r_2, r_3 r 1 ,r 2 ,r 3 ，分别对应unigrams(1-gram)，bigrams(2-gram)和trigrams(3-gram)；再经过全连接层和非线性映射得到 r n ′ r_n^{‘}r n ′，s代表不同的slot；最后求和得到用户输入的一个表征向量 r r r。

r n = ∑ i = 1 k u − n + 1 V i n r_n=\sum_{i=1}^{k_u-n+1}V_i^n r n =i =1 ∑k u −n +1 V i n r n ′ = σ ( W n s r n + b n s ) r_n^{‘}=\sigma (W_n^sr_n+b_n^s)r n ′=σ(W n s r n +b n s ) r = r 1 ′ + r 2 ′ + r 3 ′ r=r_1^{‘}+r_2^{‘}+r_3^{‘}r =r 1 ′+r 2 ′+r 3 ′

实际上，模型应该能学到哪些utterance是更重要的，如更侧重于形容词、名词的检测。因此，论文利用了NLU上得到成功应用的CNN架构实现第二个版本NBT-CNN。CNN结构也很熟悉，词向量的输入，过卷积层，抽n-gram特征，然后是非线性激活函数，max-pooling，求和。F n s ∈ R L × n D F_n^s \in R^{L\times nD}F n s ∈R L ×n D代表卷积过滤器，m n = [ V 1 n ; V 2 n , . . . ; V k − n + 1 n ] m_n=[V_1^n;V_2^n,…;V_{k-n+1}^n]m n =[V 1 n ;V 2 n ,…;V k −n +1 n ] 是n-grams的各个拼接词向量。
R n = F n s m n R_n=F_n^sm_n R n =F n s m n r n ′ = m a x p o o l ( R e L U ( R n + b n s ) ) r_n^{‘}=maxpool(ReLU(R_n+b_n^s))r n ′=m a x p o o l (R e L U (R n +b n s ))

实际上就是一个简单的CNN模型，分别取了filter-size为1,2,3这三种，output size都是L=300。

Semantic Decoding

这个模块对表征 r r r 检测是否包含候选slot-value对 c c c，处理方法也比较简单。( c s , c v ) (c_s, c_v)(c s ,c v ) 分别是slot和value的词向量表示，投影映射成与 r r r 相同维度的向量，点积求相似度 d d d。
c = σ ( W c s ( c s + c v ) + b c s ) c=\sigma(W_c^s(c_s+c_v)+b_c^s)c =σ(W c s (c s +c v )+b c s ) d = r ⊕ c d=r⊕c d =r ⊕c
这个模块主要是计算slot-value对和用户句子的关系，简单而言的话，slot的词向量（如果有多个词则简单相加）和value的词向量（如果有多个词则简单相加），通过一个全连接层和非线性映射后得到表征c（该表征将slot和value的信息融合成一个向量），与句子表征r进行element-wise的乘积，得到d（依然是一个向量）。

Context Modelling

当用户询问时，仅从当前用户的输入还不足以抽取意图， belief tracker_应该考虑对话的上下文，特别是上一句系统的动作。论文提出了两种动作： _System Request_和 _System Confirm。

系统请求（System Request）：系统上一轮在向用户请求一个具体的信息，比如”what price range would you like?”，此时用户需要给出一个具体的信息，此时用t(q)表示”price range”这个slot；
系统确认（System Confirm）：系统上一轮在让用户在确认一个具体的信息，比如”‘how about Turkish food?'”，此时用户一般只需要回答是与不是即可，此时用(t(s),t(v))表示（food, Turkish）这个slot-value对。

第一种情景是，系统对一个特定的slot发出提问，用户一般会给出具体的value。第二种是系统询问用户，某个slot-value是否正确，用户一般只会回答对或错。这两个场景应分别计算。t q t_q t q 是request的参数，( t s , t v ) (t_s, t_v)(t s ,t v )是confirm的参数。t q , t s , t v t_q,t_s,t_v t q ,t s ,t v 都是slot/value的词向量，多个词时直接求和得到。通过系统动作，候选对 ( c s , c v ) (c_s,c_v)(c s ,c v ) 作为一个门，控制输入表征r r r的信息输出（般情况下系统要么是请求，要么是确认，那么此时t(q)为0向量或者(t(s),t(v))是零向量。）：
m r = ( c s ⋅ t q ) r m_r=(c_s \cdot t_q)r m r =(c s ⋅t q )r m c = ( c s ⋅ t s ) ( c v ⋅ t v ) r m_c=(c_s \cdot t_s)(c_v \cdot t_v)r m c =(c s ⋅t s )(c v ⋅t v )r

该机制有点类似于将候选槽值与系统请求某个槽的信息或确认某个槽值对，计算一个相似度（上面公式都是点乘），然后通过这个相似度对用户的句子表征进行一个类似于门的控制（主要是scale作用）。

Binary Decision Maker：最后的二分类决策层。ϕ d i m ( x ) = σ ( W x + b ) \phi_{dim}(x)=\sigma(W_x+b)ϕd i m (x )=σ(W x +b ) 将输入 x x x 映射到维度为size的向量，softmax二分类，完成slot-value对的存在检测：
y = ϕ 2 ( ϕ 100 ( d ) + ϕ 100 ( m r ) + ϕ 100 ( m c ) ) y=\phi_2(\phi_{100}(d)+\phi_{100}(m_r)+\phi_{100}(m_c))y =ϕ2 (ϕ1 0 0 (d )+ϕ1 0 0 (m r )+ϕ1 0 0 (m c ))

Belief State Update Mechanism

论文提出了一种简单的belief state的更新机制：先估计当前轮对话的slot-value，再更新历史记录。在嘈杂的环境中，取ASR输出的前N个最佳结果（N-best list）进行分析。对于第 t t t 轮对话，s y s t − 1 sys^{t-1}s y s t −1 表示前一个系统动作，h t h^t h t 是ASR输出的结果假设，h i t h_i^t h i t 是N-best list中的第 i i i 个，s s s 是slot，v v v 是value，NBT模型需要估计 ( s , v ) (s,v)(s ,v ) 在用户的口语输入中的概率：
P ( s , v ∣ h t , s y s t − 1 ) = ∑ i = 1 N p i t P ( s , v ∣ h i t , s y s t ) \mathbb{P}(s,v|h^t, sys^{t-1})=\sum_{i=1}^{N}p_i^t\mathbb{P}(s,v|h_i^t,sys^t)P (s ,v ∣h t ,s y s t −1 )=i =1 ∑N p i t P (s ,v ∣h i t ,s y s t )
对于当前和历史对话的belief state更新，引入一个权重系数 λ \lambda λ：
P ( s , v ∣ h 1 : t , s y s 1 : t − 1 ) = λ P ( s , v ∣ h t , s y s t − 1 ) + ( 1 − λ ) P ( s , v ∣ h 1 : t − 1 , s y s 1 : t − 2 ) \mathbb{P}(s,v|h^{1:t},sys^{1:t-1})=\lambda\mathbb{P}(s,v|h^t,sys^{t-1})+(1-\lambda)\mathbb{P}(s,v|h^{1:t-1},sys^{1:t-2})P (s ,v ∣h 1 :t ,s y s 1 :t −1 )=λP (s ,v ∣h t ,s y s t −1 )+(1 −λ)P (s ,v ∣h 1 :t −1 ,s y s 1 :t −2 )
然后对于slot s s s检测到的values，取概率最大的作为当前的goal value。

Experiments

实验仍然是task-oriented的对话任务，数据集有两个：DSTC2和WOZ 2.0。

可以看到，NBT-DNN和NBT-CNN都能超过基于语义词典的模型，当然NBT-CNN多了不同n-grams特征的权重学习，会更好一点。论文还做了不同词向量对结果影响的实验。

可以看出，专门针对语义任务的词向量Paragram-SL999对实验效果提升明显，这也很显然，先验知识更丰富，对下游的任务当然效果更佳。

; Conclusion

在本文中，我们提出了一种新颖的神经信念跟踪（NBT）框架，旨在克服当前在现实世界中的对话域中部署对话系统的障碍。NBT模型提供了将口语理解和对话状态跟踪相结合的已知优势，而无需依赖手工制作的语义词典来实现最新的性能。我们的评估证明了这些好处：NBT模型与使用此类词典的模型的性能相匹配，并且在这些词典不可用时性能大大优于它们。最后，我们证明了NBT模型的性能随着底层单词向量的语义质量而提高。据我们所知，我们第一个超越内在评估并证明语义专业化可以提高下游任务性能。在未来的工作中，我们打算探索NBT在多域对话系统中的应用，以及在英语以外要求复杂形态变化处理的语言中的应用。

Original: https://blog.csdn.net/DBC_121/article/details/108937370
Author: BoCong-Deng
Title: 论文阅读笔记：Neural Belief Tracker: Data-Driven Dialogue State Tracking

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/594836/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

neo4j中文手册（笔记）

Neo4j 官方文档本翻译笔记项目的github地址：neo4j笔记仓库本文档目前对以下内容未做详细记录 neo4j数据库与Cypher 索引 Indexes 约束 const…

人工智能 2023年6月1日
0058
知识图谱上的图神经网络

本文节选自《图神经网络：基础与前沿》一书！ —— 正文 —— 几乎所有早期的知识图谱嵌入的经典方法都是在对每个三元组打分，在实体和关系的表示中并没有完全考虑到整幅图的结构。…

人工智能 2023年6月1日
0076
pandas——玩转数据分析

panda第8讲——利用pandas计算平均值扩充数据表 import pandas as pd df=pd.read_excel(‘F:/桌面杂碎/output.xlsx’,sh…

人工智能 2023年7月16日
0059
反向传播算法的局限是什么？是否存在一些常见的问题或挑战

反向传播算法的局限性反向传播算法是深度学习中最常用的训练神经网络的方法之一。尽管反向传播算法被广泛使用且具有出色的表现，但它也有一些局限性。主要的局限性包括以下几个方面：梯度消…

人工智能 2024年1月4日
0040
二手房数据分析预测系统

©作者 | leo 随着科技的进步，信息已经成为了推动科技发展的重要元素。通过对海量数据的分析能够更好的服务于未来的生产生活，并且能够及时调整策略，未雨绸缪。今天我们为大家展示一…

人工智能 2023年7月16日
0058
[论文研读] 2021A01 知识图谱在小米的应用与探索

知识图谱在小米的应用与探索，作者为小米公司的彭力(小米公司)，发表在开放知识图谱公众号, 日期为 2020.11.18。作者彭力，ID小米AI Lab知识图谱高级软件工程师，参与I…

人工智能 2023年6月1日
0079
AIGC：Stable Diffusion(一项普通人就能实现的AI前沿科技)的简介、Stable Diffusion2.0的改进、安装、使用方法(文本到图像/图像修改/超分辨率/图像修复)之详细攻略

AIGC：Stable Diffusion(一项普通人就能实现的AI前沿科技)的简介、Stable Diffusion2.0的改进、安装、使用方法(文本到图像/图像修改/超分辨率/…

人工智能 2023年7月26日
0066
Patchwork++：基于点云的快速、稳健的地面分割方法

文章：Patchwork++: Fast and Robust Ground Segmentation Solving Partial Under-Segmentation Usi…

人工智能 2023年6月15日
0057
spark dataframe 类型转换

读一张表，对其进行二值化特征转换。可以二值化要求输入类型必须double类型，类型怎么转换呢？直接利用spark column 就可以进行转换： DataFrame datase…

人工智能 2023年6月2日
0060
Pytorch入门实战（5）：基于nn.Transformer实现机器翻译（英译汉）

本篇内容要求对Transformer有一定的了解，尤其是Transformer的入参出参、训练方式、推理方式和Mask部分。这些内容在上面的本文涉及知识点中找到。本篇最终效果： …

人工智能 2023年7月21日
0090
目标检测损失函数

目录 1、分类损失 2、smooth L1 Loss 3、IOU LOSS（Intersection over Union Loss） 4、GIOU LOSS（Generalize…

人工智能 2023年7月10日
0056
tensorflow的bert模型转为pytorch

1.目录结构解释 chinese_L-12_H-768_A-12/├── bert_config.json Original: https://blog.csdn.net/u013…

人工智能 2023年5月25日
0065
[paper] lift,splat,shooting 论文浅析

目录 00 前言 01 创新点 02 算法细节 Lift:潜在深度分布： Splat: Pillar Pooling（支柱池） Shoot: Motion Planning 03 …

人工智能 2023年7月27日
0058
YOLO系列 — YOLOV7算法（三）：YOLO V7算法train.py代码解析

YOLO系列 — YOLOV7算法（三）：YOLO V7算法train.py代码解析先介绍下每个参数的含义（直接在代码上写吧） parser = argparse.Argumen…

人工智能 2023年7月26日
0047
关于多标签分类任务的损失函数和评价指标的一点理解

关于多标签分类任务的损失函数和评价指标的一点理解之前有接触到多标签分类任务，但是主要关注点都放在模型结构中，最近关于多标签分类任务进行了一个讨论，发现其中有些细节不是太清楚，经过…

人工智能 2023年7月3日
0069
wts文件生成engine文件的方法

在电脑上(x_86平台)上获取wts文件，并将该文件转移到jetson平台上，这里以yolov5.wts为例： (备注)：获取wts文件方法可参考以下链接(只要获得wts文件，则链…

人工智能 2023年6月10日
0066

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

论文阅读笔记：Neural Belief Tracker: Data-Driven Dialogue State Tracking

文章目录

; Representation Learning

Semantic Decoding

Context Modelling

大家都在看