论文浅尝-Event Extraction by Answering (Almost) Natural Questions

2023年6月1日下午6:07 • 人工智能 • 阅读 63

论文浅尝-Event Extraction by Answering (Almost) Natural Questions

扫码关注”自然语言处理与算法”公众号，定期更新NLP知识，还可以撩博主哦~
该文来自EMNLP2020。
论文简介：
事件抽取一般需要检测事件触发器(event trigger) 并抽取其对应的参数。现有的事件参数抽取方法严重依赖于实体识别的结果，由此引入错误传播问题。为了避免这个问题，文章引入了一种新的事件抽取范式，将事件抽取描述为一个问答(QA)任务，以端到端方式抽取事件参数。实验结果表明，该文章框架在很大程度上优于以往的方法;另外，该框架的一个额外能力是支持零样本学习(zero-shot learning)，即使训练时没有看到角色也能够提取事件参数！
论文代码：https://github.com/xinyadu/eeqa
论文地址：https://arxiv.org/abs/2004.13625

; 1.方法

文章分析了以往事件抽取研究工作的缺陷：
（1） 过于依赖实体识别。以往的工作通常采用以下形式进行事件抽取：trigger detection → entity recognition → argument role assignment。这种处理方式会出现错误传播问题。
（2） 忽略了不同论元角色之间的语义相似性。例如，在ACE2005数据集中，CONFLICT->ATTACK事件和JUSTICE->EXECUTE事件中的论元角色均指human being (who) is affected by an action.（某人被袭击了）。论文指出，如果不考虑论元角色之间的相似性会给模型的识别效果造成影响，尤其是对少样本（few shot）数据而言。

该文提出了一个端到端模型，将事件抽取建模为问答/阅读理解任务。为触发词抽取和论元抽取均设置了问题模板（question templates），在具体处理时，将事件抽取作为一个两阶段的任务。第一阶段，利用预先设定的触发词问题模板，识别文本中的触发词；第二阶段，利用预先设定的论元抽取模板识别论元。触发词识别和事件论元抽取的输入均采用以下方式：

[CLS] question [SEP] sentence [SEP]

该文针对ACE2005数据集预先设定了4中触发词问题模板：
“what is the trigger”, “trigger”, “action”, “verb”

。在具体操作时，可能是随机选取的（文中未说明哪类触发词使用哪种模板，这里是博主猜测~）。

如果对于给定的样本选取”verb”作为触发词抽取的模板，则模型的输入会是下面这种形式（以此类推~）：

[CLS] verb [SEP] sentence [SEP]

针对论元抽取的问题模板有3类，如下图所示：

第一类：仅用论元名称作为question。如”Artifact”、”Agent”等，这种很简单。

第二类：在第一类基础上进行了扩展，具体扩展策略采用以下模式：

[wh_word] is the [argument] ?

比如这里的wh_word，who for person、where for place、what for other。

argument与Template1相同。

除此之外，作者在第三类问题模板的基础上增加了触发词，即下面这种形式：

[wh_word] is the [argument] in [trigger]?

这是将能用到的信息都加进来了呀~~，够猛

这3类问题模板层层递进，以question的形式给模型引入更多、更精确的先验（语义）信息，让模型更清楚自己需要找什么。而这也是QA/MRC模型的优势。

2.模型介绍

在Figure2所示的架构中，作者分别使用 BERT_QA_Trigger模型和 BERT_QA_Arg进行触发词识别和论元识别。
在触发词识别模型中，采用BERT+softmax结构 以序列标注形式识别触发词。
在论元识别模型中，采用BERT+softmax结构 以阅读理解形式识别论元，模型会预测出论元在原始文本序列中的起始位置（start-end position），通过这个起始位置能够提取出相应的论元字段。
从模型结构来讲，该文的确很简单，博主认为该文的价值体现在 端到端的思路以及 针对触发词抽取和论元抽取设定的问题模板。不过该文说这是头一次将QA/MRC思路应用于事件抽取，博主不敢苟同，因为CCKS2019的事件抽取评测比赛上top选手的已经采用了QA/MRC方式，只不过这些国外的盆友看不到我国打工人的智慧罢了【手动滑稽】~~
有想要CCKS2019、2020评测论文的同学可以留言，我上传网盘分享一下~
言归正传，既然是端到端模型，那么在训练的时候肯定是sum loss，也就是将两部分（触发词识别和论元识别）的损失求和，然后将其最小化。

3.实验

单从实验结果来看，的确SOTA了，优秀~，不过触发词识别F1也只是达到了72.39，论元抽取目前的最高也只有53.31，各位打工人继续努力，继续刷榜。

前不久CCL2020的会议上出现一篇以阅读理解方式做事件论元抽取的论文，那篇文章是针对中文数据集来做的，同样具有不错的借鉴意义，有兴趣的同学去找下看看咯~

上面介绍了那么多问题模板，那么哪种模板对模型识别效果最有效呢~？
作者对此进行了实验分析，如下图：

实验结果表明，在触发词识别模型中，使用”verb”这个词作为question是最有效的，博主以为会是第2、3种，可能是因为触发词大多是动词（verb）。
论文浅尝-Event Extraction by Answering (Almost) Natural Questions

在论元识别中那个模板最有效呢？由上图可以看出， Template3 question + in [Trigger] 形式是效果最好的，因为Template3对argument role name的描述更详细、更精确，也就是为模型提供了更准确的先验信息。

作者在论文中进行了Error Analysis，有兴趣的同学去看下咯~

文章的最后给出了论元抽取的问题模板，这里给各位看官展示一下，大家可以根据自己特定的任务设定相似的问题模板~

Original: https://blog.csdn.net/broccoli2/article/details/109964284
Author: 西兰先森
Title: 论文浅尝-Event Extraction by Answering (Almost) Natural Questions

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/557954/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

语义分割的评价指标——PA(像素准确率)、CPA(类别像素准确率)、MPA(类别平均像素准确率)、IoU(交并比)、MIoU(平均交并比)详细总结

语义分割是像素级别的分类，其常用评价指标：像素准确率（Pixel Accuracy，PA）、类别像素准确率（Class Pixel Accuray，CPA）、类别平均像素准确率（…

人工智能 2023年5月26日
0075
neo4j构建郑州2022-年前疫情知识图谱

neo4j构建知识图谱（python编程疫情知识图谱）一、知识图谱简介历史由来什么虚头八脑的咱就直接跳过了，说一说我自己对知识图谱的理解吧。知识图谱理解起来很简单，知识+图谱…

人工智能 2023年6月1日
0097
Automatic Temporally Coherent Video Colorization

系列文章目录视频着色领域相关论文《一》文章目录前言一、着色概述二、相关方法 1.基于涂鸦的方法 2、基于参考的方法 3、基于学习的方法三、网络框架 1、生成器 2、鉴…

人工智能 2023年6月20日
0085
PCA（主成分分析法）原理以及应用+代码实现

目录前言一、为什么需要PCA？（为什么要降维）二、PCA简介三、PCA算法推导 1.投影 2.基 3.基变换的矩阵表示编辑 4.方差 5.协方差 6.协方差矩阵 7.特…

人工智能 2023年6月13日
0098
R实战 | 聚类分析

聚类分析 R中有各种各样的聚类分析函数。本文主要介绍其中的三种方法: 层次聚集、 &…

人工智能 2023年6月16日
0091
Windows10下通过anaconda python3.9版本安装tensorflow以及配置到pycharm全过程安装教程

一、安装Anaconda 1. 从官方网站下载Anaconda https://www.anaconda.com/ ; 2. 下载Anaconda之后，首先双击Anaconda安…

人工智能 2023年5月23日
00151
Python组合数据类型及数据格式化

《Python高级应用》实验报告实验名称：实验4 组合数据类型及数据格式化实验日期： 4.21 姓名：汪珊珊学号： 084619248班级：计算机192 …

人工智能 2023年7月15日
0091
多分类交叉熵函数计算过程(包含numpy和pytorch代码实现)

文章目录 1.具体示例 2.计算步骤 * 2.1 numpy代码手动实现 2.2 pytorch实现 2.3 pytorch等价实现 3.sigmoid做多分类 4. loss反向…

人工智能 2023年7月1日
00100
数字图像处理——频域滤波基础

频域滤波基础 1、频域滤波与空域滤波的关系傅立叶变换可以将图像从空域变换到频域，而傅立叶反变换则可以将图像的频谱逆变换为空域图像。这样一来，我们可以利用空域图像与频域之间的对应关…

人工智能 2023年6月18日
0088
文献翻译|新兴功率集成电路用400–600伏4H-碳化硅横向场效应晶体管的设计和制造方法

新兴功率集成电路用400–600伏4H-碳化硅横向场效应晶体管的设计和制造方法摘要：本文报道了在6英寸N+衬底上400–600伏、4H-碳化硅横向场效应晶体管的演示和制作。P-…

人工智能 2023年6月6日
0095
Python学习笔记—sep用法

Python学习笔记—sep用法文章目录 Python学习笔记—sep用法前言一、sep的用法说明二、使用步骤 * 1.查看重新分隔前的原始数据 2.读取以&#…

人工智能 2023年7月15日
0077
Leetcode 1161 最大层内元素和

给你一个二叉树的根节点  root。设根节点位于二叉树的第 1层，而根节点的子节点位于第 2层，依此类推。请返回层内元素之和最大的那几层（可能只有一层）的层…

人工智能 2023年6月4日
0073
python 使用pandas 读写excel文件

现在本地创建一个excel表，以及两个sheet，具体数据如下： sheet1： sheet2: 读取excel文件 pandas.read_excel(io, sheet_nam…

人工智能 2023年7月30日
0086
[云炬python3玩转机器学习笔记] 3-12 数据加载和简单的数据探索

读取数据和简单的数据探索 In [1]: import numpy as np In [2]: import matplotlib as mpl import matplotlib…

人工智能 2023年6月18日
0074
结合案例说说Tobit回归模型

一、Tobit模型在某些情况下，被解释变量Y的取值范围会受到限制，比如研究家庭医疗保险支出的影响因素时，某此家庭没有医疗支出即数字全部为0，也或者研究家庭收入水平时，某些样本家庭…

人工智能 2023年6月17日
0092
Python中的图像处理（第八章）Python直方图统计（1）

Python中的图像处理（第八章）Python直方图统计（1）前言一. Python准备二. Python仿真三. 小结前言随着人工智能研究的不断兴起，Python的应…

人工智能 2023年6月18日
0092

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

论文浅尝-Event Extraction by Answering (Almost) Natural Questions

; 1.方法

2.模型介绍

3.实验

大家都在看