attention: 本文的”我”、”我们”都指作者
概述:
题目为 《对话建模的语义表示》
仍需解决的问题:1.AMR 2.feature fusion (Mangai et al., 2010) 3.dual attention
0.Abstract
尽管 神经模型在对话系统中取得了有竞争力的结果,但它们在 表示核心语义方面的能力有限,例如 忽略重要实体。为此,我们利用 抽象含义表示(AMR)来 帮助对话建模。
与文本输入相比,AMR 明确 地提供了核心语义并 减少了数据稀疏性。我们开发了一种算法来从句子级 AMR 构建dialogue级 AMR 图, 并探索两种将 AMR 合并到对话系统中的方法。对话理解和响应生成任务的实验结果表明了我们模型的优越性。
据”我们”所知,”我们”是第一个将形式语义表示用于神经对话建模的人。
摘要发现:
(1)本文要克服的问题:神经模型在核心语义(core sementics)表现上有很大的不足,比如忽略重要实体。
(2)使用的方法:利用抽象语义表示(AMR)帮助对话建模。
(3)创新点:使用AMR合并到对话系统中;
使用句子级的AMR构建dialogue级AMR的算法;
第一个将形式语义表示用于神经对话建模。
(4)优势:明显提供核心语义、减少数据稀疏性。
1.Introduction
(1)对话系统在逐渐受到大家的越来越多的注意,许多目前工作关注于social chats以及任务型对话。
(2)对话建模包含两个子任务:对话理解(dialogue understanding)以及响应生成(response generation)
(3)当前最先进的方法是采用end-to-end training方法(如seq2seq的模型用于encode对话历史,合成一句话,如图1),
图1
但是,缺点在于该神经模型在语义表示的时候会(由于端到端训练)受到虚假特征关联的影响,可能会使得到的对话与原来的对话不相关。
就像,图1中的Lamb可能被理解为简单的食物,因为没有关注整体的框中的内容,这就是nerual representation的缺点,但是我们可以通过语义信息的结构化表示来缓解这些问题,将实体视为节点并在节点之间建立结构关系,从而更好地了解真正的语义
Explicit structures are also more interpretable compared to neural representation and have been shown useful for information extraction (Strubell et al., 2018; Sun et al., 2019; Li et al., 2020; Bai et al., 2021; Sachan et al., 2021), summarization (Liu et al., 2015; Hardy and Vlachos, 2018; Liao et al., 2018) and machine translation (Marcheggiani et al., 2018; Song et al., 2019a).
(4)对于(3)中的问题,我们使用AMR对句子进行建模,突出 主要概念以及 语义关系,同时 抽象掉虚词,减少相同含义的表面形式的方差, 增加了数据的稀疏性。
(5)但是,句子中的AMR与对话中的AMR不同,由于对话中会有A和B角色的交叉话语共指链接
图2 – 共指链接、交叉话语
因此,”我们”提出了一种算法:通过添加指示说话者、相同提及和共同参考链接的交叉话语链接,自动从utterance级AMR导出dialogue级AMR。
(6)dialogue级AMR的两种方法:
① 通过 AMR到文本对齐将AMR与其相应句子中的标记合并,然后使用 图转换器对结果结构进行编码。
图3 – 先得到utterance-level AMR,再通过转换得到dialogue级AMR结构
② 分开编码AMR以及其相关结构,然后通过 特征融合(feature fusion)或者 dual attention得到结果结构。
经验证,所建立框架在对话关系提取任务的 时效性 以及响应生成任务都优于之前。
(7)AMR引入优势:深度分析和人工评估表明,AMR引入的语义信息可以帮助我们的模型 更好地理解长对话并 提高对话生成的连贯性。另一个优点就是AMR的引入增加了 模型的鲁棒性。
目标:被给定含有多个utterance的dialogue,由multiple utterance-level AMRs得到一个dialogue-level AMR。
具体方法:使用pretrained AMR parser,AMR Parsing via Graph-Sequence Iterative Inference (aclanthology.org)https://aclanthology.org/2020.acl-main.119.pdf ;
使用这个parser(解析器)将每一个utterance转换为一个AMR graph,对于包含多个句子的utterance,我们将它们解析成多个AMR图,并标记它们属于同一个utterance。
我们再将每个utterance AMR graph之间通过connection连接起来,得到dialogue AMR的graph。
我们根据Speaker、Identical Concept、Co-reference三个方面采取三种策略
① Speaker:
创造一个Dummy虚拟节点,连接每个utterance的根节点(蓝色线条: 线条上面标明speaker),Dummy用来表示这整个对话。
虚拟节点确保所有话语 AMR 都已连接,以便在图编码期间可以交换信息。
② Identical Concept(完全相同的概念):
例如这里面的两个”possible”就连接上了红色的线条。这种类型的连接可以进一步增强跨句信息交换。
③ Co-reference(句间共指):
也就是句间共指,例如”I”与”sir”、”mistake”与”it”。
表明内容之间的共指关系。
3.Baseline System
基准模型系统:使用 Transformer 对于dialogue history进行编码
Transformer:输入 对话历史—— S(Dialogue History)得到向量化的word representation—— 也就是H
S是所谓的dialogue history,emb也就是embedding(嵌入操作),至于嵌入操作是什么,知乎回答可以作为参考怎么形象理解embedding概念?https://www.zhihu.com/question/38002635 ;
3.1 Dialogue Understanding Task
分段讲解这个baseline system:
这一部分是 对话的理解任务:
以对话关系抽取(dialogue relation extraction)为例:
– 给定一个 dialogue history S 以及一个 argument pair ——(a1,a2)
– 目标是预测 a1 与 a2 之间的关系 r ∈ R
该模型
a_i 是由 h_a_i 进行表示(denote)的
损失函数,用于训练该模型
其中由 a_i -> h_a_i 的部分,是通过BERT进行计算的。
3.2 Dialogue Response Generation Task
使用了 auto-regressive Transformer decoder(自回归Transformer解码器)产生 response
- 输入:dialogue history S
- 输出:Y = {y1, y2, y3, … , y_|Y|}
Original: https://blog.csdn.net/m0_58550000/article/details/120915379
Author: Mike峰
Title: ACL2021论文笔记——Semantic Representation for Dialogue Modeling
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/532013/
转载文章受原作者版权保护。转载请注明原作者出处!