Reading the Manual: Event Extraction as Definition Comprehension

2023年6月1日下午7:45 • 人工智能 • 阅读 85

Yunmo Chen1
Tongfei Chen1
Seth Ebner1
Aaron Steven White2
Benjamin Van Durme1
1Johns Hopkins University
2University of Rochester
{yunmo,tongfei,seth,vandurme}@jhu.edu
aaron.white@rochester.edu

精简总结

本文提出了一种事件抽取模型，使用从注释手册中提取的漂白语句来抽取事件信息。

1 介绍

本文旨在解决人工标注和机器在信息提取中的脱节，如下图所示，人类注释者使用注释指南和有限的说明性示例，传统系统使用大量标记的示例，我们的系统使用漂白的语句(源自注释指南)和标记的示例。

Reading the Manual: Event Extraction as Definition Comprehension

本文选用ACE2005数据集进行实验，
主要贡献有

一种新的事件提取方法，通过漂白语句考虑注释准则；
一个多跨度选择模型，证明事件提取方法以及零镜头和少镜头设置的可行性。

; 2 背景

传统的事件抽取工作分为三个子任务，

事件触发词检测
实体提及检测：检测事件的所有潜在参数
自变量角色预测：其中检测到的自变量和触发词之间的关系相对于每个事件类型的定义的角色集被识别

先前的工作主要采用流水线的方法或者过于关注基于黄金实体提及范围：

基于特征的方法：(Ji and Grishman,2008; Liao and Grishman, 2010; McClosky et al.,
2011; Huang and Riloff, 2012; Li et al., 2013, inter alia)
基于神经网络的方法：(Nguyen and Grish-man, 2015; Chen et al., 2015, 2017; Nguyen and
Grishman, 2018; Sha et al., 2018, inter alia)

流水线方法存在错误传播的问题，前一子任务的错误往往被传播给后一子任务，所以尝试了三个子任务的联合建模。

Yang and Mitchell (2016)尝试用手工制作的特性来联合建模这三个组件，但是仍然需要分别检测实体提及和事件触发。
Nguyen and Nguyen (2019) 使用具有共享底层表示的神经网络联合建模这三项任务。

3和4中提出的模型是本文使用的基线。

Huang et al. (2018)通过为每个事件类型规定一个图结构，并找到其学习表示与解析的AMR 。(Banarescu等人，2013)文本结构的学习表示最匹配的事件类型图结构，来实现零触发事件提取。相比之下，我们的方法放弃了显式的图形结构语义表示，如AMR。

3 公式化

漂白语句的组成：

S表示语句的标签
rk表示事先定义好的角色
Ik表示对应角色的索引

举例说明：

总体来说，本任务是给定一个漂白语句S、占位符字典R和文本标签T，返回一个字典R^，其包含事件触发词和提取的参数。见图2右下角

; 4 方法

给出一个漂白语句，但是非并行地填充占位符，却是以一种强制的规则来从左到右递增地填充。

if &#x6F02;&#x767D;&#x8BED;&#x53E5;A == &#x7A7A;&#xFF1A;
    &#x627E;&#x4E0D;&#x5230;&#x5BF9;&#x5E94;&#x7684;&#x6587;&#x672C;&#x6807;&#x7B7E;
if &#x6F02;&#x6CCA;&#x8BED;&#x53E5;A != &#x7A7A;&#xFF1A;
    &#x7528;&#x62BD;&#x53D6;&#x7684;&#x6807;&#x7B7E;&#x66FF;&#x4EE3;&#x5360;&#x4F4D;&#x7B26;

可能存在多个参数匹配同一个占位符

5 模型

1、 BERT模型

2、多参数选择器
本文的方法与MRC有两个不同：

查询不是一个自然语言的问题，而是对一个自然语言的完形填空问题
可能有多个参数填充到一个空白处，传统的只能填充一个参数

为解决上面的两个问题，本文提出了算法1

我们强制要求所有提取的跨度都来自文本中的同一个句子，但通常不需要强制要求。此外，我们的模型在单句上下文中运行，因此不考虑其他句子中的可用信息。

; 6 实验

6.1 评估指标

触发器识别:如果触发器的跨度偏移与参考触发器完全匹配，则触发器被正确识别；
触发器分类:如果触发器的跨度偏移和事件子类型与参考触发器完全匹配，则触发器被正确分类；
参数识别:如果一个参数的跨度偏移量和对应的事件子类型与引用参数完全匹配，则该参数被正确识别；
参数分类:如果一个参数的跨度偏移量、对应的事件子类型和参数角色与引用参数完全匹配，则该参数被正确分类。

对于以上每个度量，使用精度( P)、召回率( R)和F-measure (F1)来评估性能。

6.2 流程

在SQuAD 2.0数据集上预训练后，在ACE2005上进行微调，在保持其他超参数不变的情况下，我们将学习速率设置为1×10^-5，将训练周期数设置为8。在微调期间，我们采用负采样并将负采样速率设置为30%。
除了对ACE 2005的完整训练集进行微调之外，我们还考虑了一个单一流派的”部分”训练设置，其中模型仅在完整训练集的新闻线部分出现的58个文档上进行训练。

总结

我们提出了一种事件提取的方法，它使用漂白的语句来提供一个模型来访问注释手册中包含的信息。我们的模型用从文本中提取的值来逐步细化语句。我们还证明了对罕见或根本没有的事件类型进行预测的可行性。未来的工作可以将我们的方法应用于n-ary关系抽取。

Original: https://blog.csdn.net/weixin_42324313/article/details/115295191
Author: Fly-U
Title: Reading the Manual: Event Extraction as Definition Comprehension

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/558278/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

二分类负采样方法

多分类问题处理为二分类问题，需要能够正确地对正例和负例进行分类。如果以所有的负例为对象，词汇量将增加许多，无法处理。作为一种近似方法，将只使用少数负例。负采样方法：求正例作为目…

人工智能 2023年5月30日
0059
超详细Ubuntu安装PyTorch步骤

目录 STEP1：进入PyTorch官网查看安装版本和指令 STEP2：为PyTorch单独创建conda环境 STEP3：进入STEP2中创建的conda环境 STEP4：输入S…

人工智能 2023年7月23日
0088
上采样之最近邻插值、双线性插值

上采样之最近邻插值、双线性插值一、最近邻插值二、双线性插值一、最近邻插值设i+u, j+v(i, j为正整数， u, v为大于零小于1的小数，下同)为待求象素坐标，则待求象…

人工智能 2023年6月20日
00118
Python beautifulsoup4解析数据提取基本使用

Beautiful Soup是Python的一个网&#x987…

人工智能 2023年7月5日
0065
❀资源帖❀ResNet，ConvNeXt,Transformer预训练模型等

1:说在前面部分输入网页直接开始下载,一些是自己训练后的模型。 2.resnet权重文件下载地址： 2.1resnet18: https://download.pytorch.o…

人工智能 2023年7月22日
0046
猿创征文｜时间序列分析算法之二次指数平滑法和三次指数平滑法详解+Python代码实现

二次指数平滑法(Holt’s linear trend method) 1.定义 2.公式二次指数平滑值： Original: https://blog.csdn.n…

人工智能 2023年6月19日
0076
yolov5的detect.py代码详解

目标检测系列之yolov5的detect.py代码详解废话不多说，直接上代码啦！ YOLOv5 🚀 by Ultralytics, GPL-3.0 license "&…

人工智能 2023年7月23日
0056
机器学习笔记 – 互信息Mutual Information

1、概述遇到一个新的数据集时重要的第一步是使用特征效用指标构建排名，该指标是衡量特征与目标之间关联的函数。然后，您可以选择一小部分最有用的功能进行初始开发。我们将使用的度量称为…

人工智能 2023年6月19日
0077
ImageNet1K的下载与使用

0、前言 2、val集 * 2.1 下载 2.2 处理 0、前言 ImageNet不用多说，它包含了非常多的图片，总共有2w多个分类，但是显然太多。所以一般更常用的是ImageNe…

人工智能 2023年7月20日
0088
Matlab语音及音乐信号的采集、滤波

电信19-2 翁大弟一、实验目的 1、理解采样率和量化级数对语音信号的影响； 2、设计滤波器解决实际问题。二、实验原理（1）观察使用不同采样率及量化级数所得到的信号的…

人工智能 2023年5月25日
00134
智能制造数据分析综合应用方案

制造业的生产数据通过采集设备，通过时序数据库或关系型数据库存储，通过数据大屏进行展示，以供生产车间、生产控制中心、生产管理决策等不同场景的使用。目前，生产数据可视化大屏，作为智慧车…

人工智能 2023年7月18日
0059
计算机视觉项目实战-背景建模与光流估计（目标识别与追踪）

😊😊😊 欢迎来到本博客😊😊😊本次博客内容将继续讲解关于OpenCV的相关知识🎉 作者简介：⭐️⭐️⭐️ 目前计算机研究生在读。主要研究方向是人工智能和群智能算法方向。目前熟悉pyt…

人工智能 2023年7月26日
0059
一元线性回归

目录定义什么是回归？什么是线性？什么是一元？回归方程及问题求解最小二乘准则求解：极大似然估计求解：实现 python代码实现及结果图： c++代码实现：定义什么…

人工智能 2023年6月17日
0069
单目测距原理与实现（代码可运行）

Opencv3实现单目视觉测距一、前言单目视觉测距：网上有很多关于单目测距的文章，主要借鉴的是OpenCV学习笔记（二十一）——简单的单目视觉测距尝试和单目摄像机测距（pyth…

人工智能 2023年6月23日
0093
美团基于知识图谱的剧本杀标准化建设与应用

剧本杀作为爆发式增长的新兴业务，在商家上单、用户选购、供需匹配等方面存在不足，供给标准化能为用户、商家、平台三方创造价值，助力业务增长。本文介绍了美团到店综合业务数据团队从0到1快…

人工智能 2023年6月1日
0085
高光谱目标检测论文学习（1）—— Hyperspectral Target Detection:Hypothesis Testing,SNR and SA Theories

前言从这篇开始，将会学习一些高光谱目标检测的论文，我仍然把这篇文章放到了读论文专栏里，但是不对其进行顺序编号了，因为这个方向是比较小众的。今天来学习这篇TGRS2021的最新论文…

人工智能 2023年6月21日
0087

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Reading the Manual: Event Extraction as Definition Comprehension

6.1 评估指标

6.2 流程

大家都在看