[论文笔记] A Joint Neural Model for Information Extraction with Global Features

2023年6月1日下午6:27 • 人工智能 • 阅读 108

2020 ACL会议《A Joint Neural Model for Information Extraction with Global Features》
论文地址

该论文提出一个名为ONEIE的信息抽取框架，增加一个全局特征，在实例之间和子任务之间进行联合决策。

Introduction

大多数的信息抽取的联合学习模型使用task-specific分类对独立实体进行标记而不是使用实体之间的交互信息。论文提出名为ONEIE的端到端信息抽取框架，整个过程分为四个操作阶段：

对输入语句进行编码（Embedding）；
识别句中的实体（Entity）和事件（Event）并用结点（Node）进行表示；
使用句内信息（Local classifier）计算所有结点及其连接（Link）的标签分数（Label Score）；
解码（Decoding）时使用束搜索（Beam search）找到全局最优图。

在解码阶段加入全局特征（Global Feature）捕捉实例之间（cross-instance）和子任务之间（cross-subtask）的联系（Interaction）。同时ONEIE框架没有使用任何特定语言的语法特征（Language-specific feature），所以很容易适应新语言。

[论文笔记] A Joint Neural Model for Information Extraction with Global Features

; 2. Task

Entity Extraction 根据提前定义（Pre-defined）的实体分类识别语句中提及的实体。
Relation Extraction 对给定的实体对分配关系类型。
Event Extraction 涉及识别非结构语句中的事件触发语（Event trigger: the word or phrases that most clearly express event occurrences）及这些词语和短语的论据（Arguments: the words and phrases for participants in those events），并将这些短语根据类型和语法规则进行分类。一个Argument可以是一个实体、时间表达式或数值等。

对信息抽取的任务作如下规定：
对于给定的句子，目的是提取一个信息表示图：G = ( V , E ) G=(V,E)G =(V ,E )，其中V V V和E E E分别表示结点集和边集。

对于任意结点v i = < a i , b i , l i > ∈ V v_i=v i =∈V表示一个实体（Entity）或事件触发器（Event trigger），其中a a a和b b b分别表示结点起始和结束词语的索引（indices），l l l表示结点类型标签（Node type label）。

对于任意边e i j = < i , j , l i j > ∈ E e_{ij}=e i j =∈E表示两个结点之间的关系，其中i i i和j j j分别表示两个相关结点的索引，l i j l_{ij}l i j 表示关系类型。

Approach

ONEIE框架对给定的语句进行信息网络提取，分为以下四步：encoding，identification，classification和decoding。我们使用预训练的BERT模型进行编码，然后对语句中的实体和事件触发器进行识别。之后计算所有的结点和相关的边的类型标签分数（Type label scores）。在解码阶段，我们使用束搜索（Beam Search）探索输入语句可能的信息网络。

3.1 Encoding

输入一句包含L L L个词的语句，使用预训练的BERT模型将每个词表示为x i x_i x i 。实验发现使用最后三层BERT在大多数的子任务上表现较好。

3.2 Identification

这一阶段将识别句中的实体提及和事件触发器，并表示为信息网络中的结点。我们使用前馈神经网络FFN计算每个词的分数向量y ^ i = F F N ( x i ) \hat{y}_i=FFN(x_i)y ^i =F F N (x i )，y ^ i \hat{y}_i y ^i 表示一个标签在目标标签集（Target tag set）中的分数。

之后使用CRF层捕捉标签之间的联系，计算tag path z ^ = { z 1 ^ , . . . , z ^ L } \hat{z}={\hat{z_1},…,\hat{z}L}z ^={z 1 ^,…,z ^L }的分数:
s ( X , z ^ ) = ∑ i = 1 L y ^ i , z i ^ + ∑ i = 1 L + 1 A z ^ i − 1 , z ^ i s(X,\hat{z})=\sum{i=1}^{L}{\hat{y}{i,\hat{z_i}}}+\sum{i=1}^{L+1}{A_{\hat{z}{i-1},\hat{z}{i}}}s (X ,z ^)=i =1 ∑L y ^i ,z i ^+i =1 ∑L +1 A z ^i −1 ,z ^i

其中X = { x 1 , . . . , x L } X={x_1,…,x_L}X ={x 1 ,…,x L }是输入语句中每个词的向量表示，y ^ i , z i ^ \hat{y}{i,\hat{z_i}}y ^i ,z i ^是分数向量y ^ i \hat{y}_i y ^i 在第z ^ i \hat{z}_i z ^i 条路径的组合，A z ^ i − 1 , z ^ i A{\hat{z}{i-1},\hat{z}{i}}A z ^i −1 ,z ^i 是矩阵A中z ^ i − 1 \hat{z}{i-1}z ^i −1 到z ^ i \hat{z}_i z ^i 的转移分数。同时，我们在A中添加两个特殊的标签< s t a r t > , < e n d > ~~,分别作为z ^ 0 \hat{z}_0 z ^0 和z ^ L + 1 \hat{z}~~{L+1}z ^L +1 来表示词语序列的开始和结束。

训练阶段时，我们最大化标准标签路径的对数似然估计：
log ⁡ p ( z ∣ X ) = s ( X , z ) − l o g ∑ z ^ ∈ Z e s ( X . z ^ ) \log{p(z|X)}=s(X,z)-log{\sum_{\hat{z}\in Z}{e^{s(X.\hat{z})}}}lo g p (z ∣X )=s (X ,z )−l o g z ^∈Z ∑e s (X .z ^)
其中Z Z Z是输入语句中所有可能标签路径的集合。

所以我们定义实体识别阶段的损失函数为：
L I = − log ⁡ p ( z ∣ X ) L^I=-\log{p(z|X)}L I =−lo g p (z ∣X )

3.3 Classification

将每个识别出的结点表示为v i v_i v i ，之后使用分离的针对特定任务的前馈神经网络来计算每个结点的标签分数：
y ^ i t = F F N t ( v i ) \hat{y}_{i}^{t}=FFN^t(v_i)y ^i t =F F N t (v i )
其中t t t表示一个特定的任务。

为了获得i − t h i-th i −t h和j − t h j-th j −t h结点之间边的标签分数，我们连接它们的跨度表示（Span Representation），将向量表示为：
y ^ k t = F F N t ( v i , v j ) \hat{y}{k}^{t}=FFN^t(v_i,v_j)y ^k t =F F N t (v i ,v j )
对于每个任务，训练目标是最小化以下交叉熵损失：
L t = − 1 N t ∑ i = 1 N t y i t log ⁡ y ^ i t L^{t}=-\frac{1}{N^t}\sum{i=1}^{N^t}{y_i^{t}\log{\hat{y}^{t}_{i}}}L t =−N t 1 i =1 ∑N t y i t lo g y ^i t
其中，y i t y_i^{t}y i t 是向量的正确标签，N t N^t N t是任务t t t中的实体数量。

如果忽略结点和边的内在依赖关系（Inter-dependencies），我们可以直接通过每个任务的最高分数来预测标签，之后生成局部的最佳图G ^ \hat{G}G ^。最佳图G ^ \hat{G}G ^分数的计算方法为：
s ′ ( G ^ ) = ∑ t ∈ T ∑ i = 1 N t max ⁡ y ^ i t s'(\hat{G})=\sum_{t\in T}\sum_{i=1}^{N^t}{\max{\hat{y}_i^t}}s ′(G ^)=t ∈T ∑i =1 ∑N t max y ^i t
其中，T T T是任务的集合，将s ′ ( G ^ ) s'(\hat{G})s ′(G ^)作为G ^ \hat{G}G ^的局部分数参考。

3.4 Global Features

我们考虑框架中的两种类型的内部依赖：

子任务间的作用 Cross-subtask interactions 这种依赖关系存在于实体、关系和事件之间；
实体之间的作用 Cross-instance interactions 这种依赖存在于一个句子中多个事件和/或关系的实例之间。

我们设计一套全局特征类型模板（Event schemas）来捕捉以上两类相互作用，模型填充所有可能的类型来生成特征，并在训练过程中学习每个特征的权重。对于给定的一张图，我们将它的全局特征向量描述为：
f G = { f 1 ( G ) , . . . , f M ( G ) } f G = { f 1 ( G ) , . . . , f M ( G ) } f_G={f_1(G),…,f_M(G)}f_G={f_1(G),…,f_M(G)}f G ={f 1 (G ),…,f M (G )}f G ={f 1 (G ),…,f M (G )}
其中，M M M是全局特征的数量，f i ( ⋅ ) f_i(\cdot)f i (⋅)是一个函数，对某个特征求值并返回标量。比如：
f i ( G ) = { 1 , G h a s m u l t i p l e A T T C K e v e n t s 0 , o t h e r w i s e f_i(G)=\begin{cases} 1,G\,has\,multiple\,ATTCK\,events\ 0,otherwise \end{cases}f i (G )={1 ,G h a s m u l t i p l e A T T C K e v e n t s 0 ,o t h e r w i s e
之后，ONEIE框架学习到一个权重向量u ∈ R M u\in \R^{M}u ∈R M并且将f ( G ) f(G)f (G )和u u u的点乘作为图G的全局特征分数。将图G的局部分数和全局特征分数之和作为G的全局分数：
s ( G ) = s ′ ( G ) + u f ( G ) s(G)=s'(G)+\bold{u}\bold{f}(G)s (G )=s ′(G )+u f (G )
我们假定一条语句的最佳（Gold-standard）图应该拥有最高的全局分数。所以，我们最小化该损失函数：
L G = s ( G ^ ) − s ( G ) L^{G}=s(\hat{G})-s(G)L G =s (G ^)−s (G )
其中，G ^ \hat{G}G ^是局部分类得到的图，G G G是最佳图。

最终，我们在训练中最优化如下的联合目标函数：
L = L I + ∑ t ∈ T L t + L G L=L^I+\sum_{t\in{T}}{L^t}+L^{G}L =L I +t ∈T ∑L t +L G

; 3.5 Decoding

ONEIE对所有的结点和成对的边进行联合决策，得到全局的最优图。最基本的方法是计算所有候选图的全局分数，选择分数最高的作为最终结果。为了优化复杂度，我们设计了一个以束搜索为基础的解码器（Beam search-based decoder）。

对于给定的识别出的结点集V V V、所有结点的标签分数（label scores）和他们之间的成对联系执行解码，初始束集（initial beam set）为B = { K 0 } B={K_{0}}B ={K 0 }，K 0 K_0 K 0 是一个零阶图。每一步i i i分为两小步，分别对结点和边进行扩展：

Node Step 选择v i ∈ V v_i\in V v i ∈V，定义候选集为V i = { < a i , b i , l i ( k ) > ∣ 1 ≤ K ≤ β v } V_i={V i ={∣1 ≤K ≤βv }，其中l i ( k ) l_i^{(k)}l i (k )表示v i v_i v i 中分数第k k k高的局部标签分数，β v \beta_v βv 是控制候选标签数量的超参数（hyper-parameter）。通过如下公式更新束集（beam set）：
B ← { G + v ∣ ( G , v ) ∈ B × V i } B\leftarrow{G+v|(G,v)\in B\times V_i}B ←{G +v ∣(G ,v )∈B ×V i }
Edge Step 迭代地选择一个i i i之前的结点v j ∈ V , j < i v_j\in V,j，同时在v j v_j v j 和v i v_i v i 之间添加可能的边。如果v i v_i v i 和v j v_j v j 都是触发器（trigger）则跳过v j v_j v j 。每一次迭代中，我们构造一个候选边集E i j = { < j , i , l i j ( k ) > ∣ 1 ≤ k ≤ β e } E_{ij}={E i j ={∣1 ≤k ≤βe }，其中l i j ( k ) l_{ij}^{(k)}l i j (k )是e i j e_{ij}e i j 中分数第k k k高的标签，β e \beta_e βe 是候选标签数量的阈值。之后，通过如下函数更新束集：
B ← { G + e ∣ ( G , e ) ∈ B × E i j } B\leftarrow {G+e|(G,e)\in B\times E_{ij}}B ←{G +e ∣(G ,e )∈B ×E i j }
在每次edge step的最后，如果∣ B ∣ |B|∣B ∣超过束的宽度θ \theta θ，我们对候选对象按全局分数从高到低进行排序，只保留分数最高的θ \theta θ个。

最后一步之后，返回全局分数最高的图，作为输入语句中提取的信息网络。

Original: https://blog.csdn.net/THOOOR/article/details/109152219
Author: THOOOR
Title: [论文笔记] A Joint Neural Model for Information Extraction with Global Features

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/558026/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Package opencv was not found in the pkg-config search path. Perhaps you should add the directory con

使用pkg-config和opencv时报错 Package opencv was not found in the pkg-config search path. Perhaps…

人工智能 2023年6月18日
00112
Attention的汇总与辨析_Additive、Multiplication、Scaled dot-product、Self Attention、Multi-head Self-Attention

DDR3 SDRAM的时序图，供学习调用DDR3使用。目录 DDR3 SDRAM Specification 1. Functional Description …&…

人工智能 2023年5月28日
00104
CSDN竞赛14期·12月11日考试

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月30日
0076
Kernel Regression 核回归详细讲解

Kernel Regression 核回归详细讲解目录 Kernel Regression 核回归详细讲解 * 一、首先介绍一下核函数二、核估计 – 举个例子 …

人工智能 2023年6月13日
00243
深度学习修炼（三）——自动求导机制

文章目录 * – 致谢* 3 自动求导机制* – 3.1 传播机制与计算图 – + 3.1.1 前向传播 + 3.1.2 反向传播 &#8211…

人工智能 2023年6月25日
0080
【微信开发第一章】SpringBoot实现微信公众号创建菜单，同步菜单功能

前言在进行微信公众号业务开发的时候,微信公众号的自定义菜单是非常重要的一环，该篇文章会先使用微信测试工具过一遍流程，再使用代码进行实现，争取看过的小伙伴都能够实现，创建公众号菜…

人工智能 2023年6月29日
00134
论文 | 知识图谱自动构建 Automatic Knowledge Graph Construction

论文 | 知识图谱自动构建 Automatic Knowledge Graph Construction 前言知识图谱自动构建要素论文解决的问题论文方法 * Module1 …

人工智能 2023年6月1日
00121
卷积神经网络CNN/Pytorch，如何理解特征图Feature map?

不管是在Vision Transformer还是卷积神经网络，其实，一直想明白网络层层，到底是如何对图像进行了处理？怎么，一波操作就出了特征图？怎么就实现了目标检测？人脸识别？深度…

人工智能 2023年6月16日
00176
【学习笔记】Lasso Feature Selection的系列知识

### 回答1：融合 La sso（fused la sso）是一种用于信号处理和统计学中的回归_方法，它可以在保持预测变量的稀疏性的同时，对连续变量进行平滑处理。它的主要思想…

人工智能 2023年6月18日
0094
基因共表达网络分析图解

简介随着高通量生物实验技术的快速发展，特别是基因芯片和新一代测序技术的发展，全基因组范围内的基因表达数据呈爆炸式增长，利用网络生物学的方法对高通量基因表达数据进行分析和挖掘已经成…

人工智能 2023年6月2日
00135
深入理解机器学习——类别不平衡学习（Imbalanced Learning）：常用技术概览

自20世纪90年代末，研究人员开始注意到类别不平衡问题起，已有多种学习技术被开发并用于解决此问题，主要包括以下几种。样本采样技术样本采样，也称数据层处理方法，顾名思义，即通过增…

人工智能 2023年6月2日
00115
mmdetection3d基于kitti数据集训练pointpillars模型

当mmdetection3d环境安装成功后，可看上一篇如何安装mmdetection3d mmdetection3d官网：Log Analysis — MMDetection3D …

人工智能 2023年7月22日
00108
用户运营｜车企运筹七条黄金法则，制胜客户体验管理

本文是中国汽车行业客户体验管理（Customer Engagement）和直连直营（DTC）销售模式三部曲系列的首篇。在随后发布的两篇文章中，我们将探讨如何在用户运营中加强客户体验…

人工智能 2023年6月4日
00166
数据中台-让数据用起来-7

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月11日
00122
差分进化算法（DE）简介及Python实现

一、概述差分进化算法(Differential Evolution，DE)由Storn和Price于1995年首次提出，主要用于求解实数优化问题。1996年在日本名古屋举行的第一…

人工智能 2023年6月19日
00107
PyTorch nn.RNN 参数全解析

目录一、简介二、前置知识三、解析 * 3.1 所有参数 3.2 输入参数 3.3 输出参数四、通过例子来进一步理解 nn.RNN 五、从零开始手写一个单隐层单向RNN 最后…

人工智能 2023年6月16日
00102

2024 年 6 月
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30