知识图谱-关系抽取

2023年6月1日上午11:45 • 人工智能 • 阅读 93

关系抽取有基于字符模式的抽取、基于语法模式的抽取、基于语义模式的抽取、自动化模式抽取和基于学习的抽取。基于学习的抽取是目前的主流方法，因此主要介绍基于学习的抽取。
基于学习的抽取分为基于监督学习、基于弱监督学习和基于远程学习的抽取。从模型的角度来看，无论是采用哪种方法，都可以采用序列标注方式或者序列分类模型进行，如果已经给定了实体位置，使用分类模型更方便。

1. 基于监督学习的关系抽取

监督学习是利用标注数据进行学习的一种方法，在监督学习的关系抽取中，核心问题是如何从标注样本中抽取有用的特征，常用的特征有：
1.1 词汇特征：
词汇特征指实体对之间或周五的特定词汇，这些背景词在语义上能够帮助判断实体对的关系类别。如

2. 基于远程监督学习的关系抽取

基本假设是给定一个三元组

3.基于深度学习的关系抽取

3.1基于循环神经网络的关系抽取
典型的模型结构：输入层（Input layer）双向循环层(Recurrent Layer)池化层(Pooling Layer）。关于双向循环层，可以见RNN的网络结构和参数更新方式和长短时记忆网络
3.2 基于卷积神经网络的关系抽取
基本思想：使用CNN对输入语句进行编码，基于编码的结果并使用全连接层结合激活函数对实体对的关系进行分类。典型框架：句子->Embedding->卷积层->卷积疏忽->最大池化->非线性层->句子表示。

Embedding：embedding中主要是处理位置关系，位置关系有助于帮助网络跟踪输入句子中每个单词与实体对的距离。其基本思想是：离实体月经的单词通常包含越多的关于关系分类的有用信息。

给定句子”Bill is the founder of Microsoft”,”founder”和”bill”的相对距离是3，与尾部实体”Microsoft”的距离是-2，每个相对位置编为d p d_p d p 的向量，将词向量与位置向量进行拼接，得到每个词的向量表示w i ∈ R d w_i \in R^d w i ∈R d，其中d = d w + 2 d p d=d_w+2d_p d =d w +2 d p ，进一步得到句子的整体表示。

CNN使用一个固定的卷积核对输入的内容进行处理，在序列处理中，采用标准的一维卷积网络结构，对输入的Embedding进行窗口截取，假设卷积核为l × d l\times d l ×d，其中l l l为窗口大小，则第i i i个窗口可以表示为：

q i = w i , i + 1 ∈ R l × d q_i=w_{i,i+1} \in R^{l \times d}q i =w i ,i +1 ∈R l ×d

在CNN中，第d c d_c d c 个卷积核组成的集合可以表示为一个张量W ∈ R d c × l W \in R^{d_c \times l}W ∈R d c ×l，则第k k k个卷积核W k W_k W k 对第i i i个窗口的作用结果为：

p k , i = f ( W k q i + b ) ∈ R p_{k,i}=f(W_kq_i+b) \in R p k ,i =f (W k q i +b )∈R

其最大输出p k p_k p k 使用最大池化max pooling获取p k p_k p k 的最大值，即p k , m a x = m a x ( p k ) p_{k,max}=max(p_k)p k ,m a x =m a x (p k )，然后将p k , m a x p_{k,max}p k ,m a x 连接起来，经过非线性变换，得到句子的表示x ∈ D d c x \in D^{d_c}x ∈D d c ，然后对句子表示预测概率：

O = M x + d , P ( r ∣ x , θ ) = e x p ( o r ) ∑ k = 1 n r e x p ( o k ) O=Mx+d,P(r|x,\theta)=\frac{exp(o_r)}{\sum_{k=1}^{n_r}exp(o_k)}O =M x +d ,P (r ∣x ,θ)=∑k =1 n r e x p (o k )e x p (o r )

其中M M M为待学习的权重矩阵，d d d为待学习的偏置项，o k o_k o k 表示O O O中第k k k个元素，n r n_r n r 为关系类别的数量。

损失函数使用交叉熵损失，公式为：
l o s s = − ∑ n = 1 N l o g P ( r ( n ) ∣ x ( n ) , θ ) loss = -\sum_{n=1}^NlogP(r^(n)|x(n),\theta)l o s s =−∑n =1 N l o g P (r (n )∣x (n ),θ)

3.3 基于注意力机制的关系抽取

其思想是：为实体对的每一个句子赋值一个权重，权重越大表示该句子表达目标关系的程度越高，反之可能是噪声。

其思路是：使用CNN为句子编码，得到句子表示x = x 1 , x 2 , . . . x n x={x_1,x_2,…x_n}x =x 1 ,x 2 ,…x n ，然后计算a i a_i a i :

e i = x i A r e_i = x_iAr e i =x i A r

a i = e x p ( e i ) ∑ k e x p ( e k ) a_i=\frac{exp(e_i)}{\sum_kexp(e_k)}a i =∑k e x p (e k )e x p (e i )

s = ∑ i a i x i s=\sum_ia_ix_i s =∑i a i x i

其中r r r是刻画关系抽取任务的特征向量，该向量由模型学习得到；
A A A为待学习的权重矩阵；s s s是学习到的注意力分数。

得到s s s之后，使用前面的句子表示和损失计算，将x x x换为s s s:

l o s s = − ∑ n = 1 N l o g P ( r ( n ) ∣ x ( n ) , θ ) loss = -\sum_{n=1}^NlogP(r^(n)|x(n),\theta)l o s s =−∑n =1 N l o g P (r (n )∣x (n ),θ)

Original: https://blog.csdn.net/weixin_45885232/article/details/124644925
Author: 加油上学人
Title: 知识图谱-关系抽取

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/556695/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

mosaic数据增强

mosaic数据增强则利用了四张图片，对四张图片进行拼接，每一张图片都有其对应的框框，将四张图片拼接之后就获得一张新的图片，同时也获得这张图片对应的框框，然后我们将这样一张新的图片…

人工智能 2023年6月17日
0064
R语言为矩阵的行和列命名：rownames函数指定矩阵行名称、colnames函数指定矩阵列名称

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月13日
0082
35-Docker-常用命令详解-docker ps

常用命令详解-docker ps * – + 前言 + docker ps + * options说明 * 使用示例前言本篇来学习docker ps命令 docke…

人工智能 2023年6月28日
00109
微软自动调参工具 NNI 使用事例教程

第一步：安装 nni的安装通过pip命令就可以安装了。并且提供了example供参考学习。系统配置要求：tensorflow，python >= 3.5 python3 -…

人工智能 2023年7月1日
00107
python 使用Pandas进行数据清洗

文章目录 * – 数据缺失 – + 缺失值检测 isnull() + 丢弃缺失值dropna() + 缺失值填充fillna() – 数据重复 …

人工智能 2023年7月16日
00112
yolov5 anchors 中 K-means聚类

anchors 运行trains.py没有生成anchor原因程序 kmeans改动（距离、k-means++）运行trains.py没有生成anchor原因 yolov5运行…

人工智能 2023年5月31日
0077
ZYNQ图像处理项目——模板匹配数字识别(1)

一、数字识别基础 FPGA全并行运行的特点，特别适合用于图像的处理。数字识别是一项关键技术，是图像识别等的基础，数字识别主要由以下这几种方法。基于模板分类匹配的数字识别算法模版匹配…

人工智能 2023年6月22日
0068
聚类算法概述

一.聚类分析的典型的应用场景 1.目标用户的群体分类2.不同产品的价值组合3.探测发现孤立点，异常点：二.主要的聚类算法的分类 2.1 基于距离的方法：用距离来作为描述对象之…

人工智能 2023年6月2日
0088
目标检测算法的分类和优缺点

随着今年来科学技术的发展，尤其是人工智能和大数据技术的不断发展，不断应用于生活中的各个领域，给人们的生活带来方便和便利，深度学习这门技术也是越来越重要，目标检测也是深度学习的一个应…

人工智能 2023年5月26日
00105
关于二分类，多分类，及多标签分类的损失函数详解及Pytorch实现

相信很多小伙伴最开始都是从分类任务入手深度学习这个领域的吧，这个就类似学习代码的第一课，”Hello world”一样。深度学习中，除了模型设计之外，最重要…

人工智能 2023年7月22日
0084
第四章：PyTorch基础实战之FashionMNIST时装分类

文章目录 * – 第四章：PyTorch基础实战 – + 基础实战——FashionMNIST时装分类 + * 首先导入必要的包 * 配置训练环境和超参数 …

人工智能 2023年7月2日
0098
音频处理-2 WAV格式

后续要将流量中的音频数据转为WAV格式文件，所以本节重点说下WAV格式。 WAV文件是在PC机平台上很常见的、最经典的多媒体音频文件,最早于1991年8月出现在Windows 3….

人工智能 2023年5月23日
00105
Pytorch实现Bert/RoBerta微调（以MELD数据集为例）

本文记录我在学习BERT/ROBERTA fine-tuning过程的遇到的问题，包括内存受限，微调概念，微调方法等。逐层微调我没有成功（因为相当麻烦），只以NLP多分类任务举例…

人工智能 2023年7月22日
0082
三、loss和Val_loss判定模型结果好坏准则

loss：训练集的损失值 Val_loss：测试集的损失值情况一：train loss不断下降，test loss不断下降，说明网络任然在学习中解决办法：此时的网络模型是最好…

人工智能 2023年7月12日
0081
我在阿里做测试，入职5个月的回顾与总结

初来阿里实习的时候，我对测试人员的职责知之甚少，在校时更是从未接触过测试工作。一头雾水之际，主管说：”做项目吧，在实战中快速成长”。从学生到校招生，我在思维…

人工智能 2023年7月29日
0072
Anaconda安装Jupyter Notebook及使用

文章目录 * – + 一、什么是Jupyter Notebook + * 1. 网页应用 * 2. 文档 + 二、安装 Jupyter Notebook + * 1. …

人工智能 2023年7月3日
0071

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

知识图谱-关系抽取

1. 基于监督学习的关系抽取

2. 基于远程监督学习的关系抽取

3.基于深度学习的关系抽取

大家都在看