文章目录
*
– 1 简介
–
+ 1.1 创新
– 2 背景知识
– 3 任务和数据
– 4 方法
–
+ 4.1 模型一
+ 4.2 模型二
+ 4.3 模型三
+ 4.4 推理
– 5 实验
1 简介
论文题目:Open Domain Event Extraction Using Neural Latent Variable Models
论文来源:ACL 2019
论文链接:https://arxiv.org/pdf/1906.06947.pdf
代码链接:https://github.com/lx865712528/ACL2019-ODEE
1.1 创新
- 提出一个开放域事件提取任务,从新闻集群中提取无约束类型的事件。
- 提出一个大规模数据集GNBusiness,包含多种事件类型和可解释的事件模式。
- 提出一个深度隐变量模型,可以从一个新闻集群中抽取多个事件;考虑新闻集群不同报道中的相同实体提及,来提高性能。
2 背景知识
MUC4是一个广泛使用的事件模式规划和事件抽取数据集,定义了4种事件类型(Arson,Attack, Bombing,Kidnapping)和4种slot(Perpetrator,Instrument,Target,Victim)。与本篇论文提出的任务对比如下图:
从新闻中抽取事件包含两个子任务:1)schema induction: 提取指定事件类型的论元slot的事件模板。2)event extraction: 从新闻中识别具有已填充slot的事件。
Event Discovery in Tweet Streams任务提取具有新闻价值的词、段落和frame。
First Story Detection任务研究以前未报道的事件的新闻文章。
; 3 任务和数据
在open domain event extraction(ODEE)任务中,输入为一个新闻集群(包含相同事件的报道),输出为一系列事件,每个事件都包含一个触发词和一个自己模式中的事件论元列表。
从Google Business News爬取数据构造数据集,设计事件模式包括8种可能的slot(Agent,Patient, Time,Place,Aim,Old Value,New Value and Variation)。人工对数据进行标注,数据统计如下图:
4 方法
提出了三个逐渐复杂的深度隐变量模型,如下图:
; 4.1 模型一
给定一个语料库N \mathcal{N}N,对于每个实体e,从均匀分布S种取样一个slot s;从多项式分布中取样一个中心词h;使用ELMo作为上下文编码器,得到连续特征向量f f f(遵循多变量正态分布,其协方差矩阵是对角矩阵)。概率公式和算法流程如下图:
4.2 模型二
模型一忽视了不同的事件可能有不同的slot分布,因此从正态分布中,取样一个潜在事件类型向量t,然后使用t和一个多层感知机编码slot分布,取样slot s。概率公式和算法流程如下图:
; 4.3 模型三
一个共指的实体出现在新闻集群中的频率越高,越有可能是一个重要的slot,冗余的文本信息可以提供复杂的信息。因此额外引入共指的slot的归一化出现频率作为观察到的潜在变量,概率公式和算法流程如下图:
4.4 推理
将离散的潜变量s消去,获得对数似然的证据下界(ELBO):
其中D K L D_{KL}D K L 为KL散度,计算两个分布的KL散度是困难的和正态分布存在简单有效的重新参数化技巧,因此选择q w ( t ) q_w(t)q w (t )作为由w参数化的正态分布,由神经推理网络学习,如下图。
通过最大化下面的似然公式选择每个实体的slot:
为了得到最终的输出,使用Stanford dependency parser工具的POS-tags和parse trees,抽取每个实体提及中心词的谓词。基于两个规则:1)中心词的governor是VB;2)中心词的governor是NN,属于WordNet中的noun.ACT和noun.EVENT类别。
将相同共指链的实体提及的谓词合并为一个谓词集,对于集合中的每个谓词v,找到其谓词集合包含v的实体,将这些实体视为由v触发的事件的论元。最终,对论元进行排序,得到top-N 开放域事件。
; 5 实验
实验数据集为提出的GNBusiness,Schemas Matching的评价指标为P、R、F1,基于中心词计算,跟随以前的工作,将实体最右边的词或者第一个of、that、which、by以前的最右边词;Slot Coherence的评价指标为normalized pointwise mutual information (NPMI,归一化互信息,常用来表示两个词之间的共现),公式如下:
schema matching的实验结果如下图:
slot coherence的实验结果如下:
潜事件类型向量的可视化分析如下图,使用T-SNE transformation进行可视化,聚类的数目由Calinski-Harabasz Score选择(当类内之间的协方差越小,类别之间的协方差越大,Calinski-Harabasz分数越高):
Case study:
Original: https://blog.csdn.net/o11oo11o/article/details/122611460
Author: hlee-top
Title: 论文笔记 ACL 2019|Open Domain Event Extraction Using Neural Latent Variable Models
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/547995/
转载文章受原作者版权保护。转载请注明原作者出处!