基于卷积神经网络的实体关系抽取（SemEval-2010 Task-8数据集）

2023年6月10日上午4:09 • 人工智能 • 阅读 76

摘要

关系抽取旨在识别命名实体之间的语义关系.作为自然语言处理中信息抽取的重要子任务,是构建知识图谱,实现语义搜索,建立智能问答系统等应用领域必不可少的关键技术,具有极其重要的研究价值.关系抽取研究的热点经历了知识工程,传统机器学习,深度学习三个不同阶段.本文研究了卷积神经网络应用于实体关系抽取的应用，采用了SemEval-2010 Task 8数据集作为实验测试数据，使用GloVe对句子进行词向量表示，接着获取两个实体之间的距离特征共同作为Embedding层输入，通过拼接的方式将两种特征融合，最后用softmax分类器得出所属关系的类型。实验结果可得其宏F值为64%。

数据集描述

示例数据

句子：The inside WTC was caused by exploding .
关系：Cause-Effect(e2,e1)

训练集：共含8000条数据

typenumberrateOther141017.63%Cause-Effect100312.54%Component-Whole94111.76%Entity-Destination84510.56%Product-Producer7178.96%Entity-Origin7168.95%Member-Collection6908.63%Message-Topic6347.92%Content-Container5406.75%Instrument-Agency5046.30%

测试集：共含2717条数据

typenumberrateOther45416.71%Cause-Effect32812.07%Component-Whole31211.48%Entity-Destination29210.75%Message-Topic2619.61%Entity-Origin2589.50%Member-Collection2338.58%Product-Producer2318.50%Content-Container1927.07%Instrument-Agency1565.74%

由于两个实体具有方向性，可以认为（e1,e2)和（e2,e1)不相同，因此，对此数据集进行细致划分可以分为2*9+1=19类。

模型设计与实现

模型设计：

代码实现：

token_input = Input(shape=(config.MAX_TOKEN_LENGTH,), dtype='int32', name="token_input")
tokens = Embedding(embeddings.shape[0], embeddings.shape[1], weights=[embeddings], trainable=False)(token_input)

distance1_input = Input(shape=(config.MAX_TOKEN_LENGTH,), dtype='int32', name='distance1_input')
distance1 = Embedding(config.MAX_TOKEN_LENGTH, config.POSITION_DIM)(distance1_input)

distance2_input = Input(shape=(config.MAX_TOKEN_LENGTH,), dtype='int32', name='distance2_input')
distance2 = Embedding(config.MAX_TOKEN_LENGTH, config.POSITION_DIM)(distance2_input)

output = concatenate([tokens, distance1, distance2])

output = Convolution1D(filters=config.FILTER_NUMBER,
                        kernel_size=config.FILTER_SIZE,
                        padding='same',
                        activation='tanh',
                        strides=1)(output)
output = GlobalMaxPooling1D()(output)
output = Dropout(config.DROP_VAL)(output)
output = Dense(config.HIDDEN_LAYER1, activation='tanh')(output)
output = Dropout(config.DROP_VAL)(output)
output = Dense(config.HIDDEN_LAYER2, activation='tanh')(output)
output = Dropout(config.DROP_VAL)(output)
output = Dense(out_number, activation='softmax')(output)

model = Model(inputs=[token_input, distance1_input, distance2_input], outputs=[output])
model.compile(loss='sparse_categorical_crossentropy',
                optimizer='adam',
                metrics=['acc'])

结论

我们的实验结果表明：（1）采用卷积神经网络和GloVe词嵌入特征可以获得不错的关系分类准确率；（2）使用位置特征可以增强实体关系抽取的准确率。下一步将测试多种模型在该数据集上的表现性能。

参考文献

Zeng D, Liu K, Lai S, et al. Relation Classification via Convolutional Deep Neural Network[C]. international conference on computational linguistics, 2014: 2335-2344.
Zeng D, Liu K, Chen Y, et al. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks[C]. empirical methods in natural language processing, 2015: 1753-1762.
Santos C N, Xiang B, Zhou B, et al. Classifying Relations by Ranking with Convolutional Neural Networks[J]. international joint conference on natural language processing, 2015: 626-634.

Original: https://blog.csdn.net/weixin_40651515/article/details/112456125
Author: 就是求关注
Title: 基于卷积神经网络的实体关系抽取（SemEval-2010 Task-8数据集）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/595240/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python dataframe筛选日期_使用Python的Dataframe取两列时间值相差一年的所有行方法…

在使用Python处理数据时，经常需要对数据筛选。这是在对时间筛选时，判断两列时间是否相差一年，如果是，则返回符合条件的所有列。 data原始数据： data[map(lambd…

人工智能 2023年7月9日
0047
通俗易懂方差（Variance）和偏差（Bias）

看了沐神的讲解，恍然大悟，b站可以不刷，但沐神一定要看。在统计模型中，通过方差和偏差来衡量一个模型。 1 方差和偏差的概念偏差（Bias）：预测值和真实值之间的误差方差（Var…

人工智能 2023年6月15日
0070
TF-IDF算法(原理+python代码实现）

### 回答1： TF-IDF 算法_是一种常用的文本处理 _算法，可以用于计算文本中每个单词的重要程度。在 Python_中，可以使用scikit-learn库来 _实现 TF-…

人工智能 2023年7月4日
0064
[39题] 牛客深度学习专项题

[卷积核大小] 提升卷积核(convolutional kernel)的大小会显著提升卷积神经网络的性能，这种说法是正确的错误的卷积核的大小是一个超参数(hyperparam…

人工智能 2023年6月16日
0076
如何使用 pandas 操作 excel 并显示dataframe多行，全列

转帖一个好文 excel 操作https://shazhenyu.blog.csdn.net/article/details/83104653?utm_medium=distrib…

人工智能 2023年7月8日
0077
Pytorch 图像处理中常用的注意力机制的解析与代码详解

说在前面的前言什么是注意力机制代码下载注意力机制的实现方式 1、SENet的实现 2、CBAM的实现 3、ECA的实现注意力机制的应用说在前面的前言注意力机制是一个非常…

人工智能 2023年6月18日
0084
什么是tensorflow

什么是tensorflow tenroflow是Google开源软件库，为机器学习工程中的问题提供了一整套解决方案。类比于Spark/Flink是大数据工程问题的解决方案。该软件库…

人工智能 2023年5月23日
0046
NCCL通信函数库相关资料整理

NCCL 内部想参考NCCL库开发一套针对性的函数库。通过官方文档、源码、网上博客，整理了一些有关资料。图片都来源于网络，比较直观的介绍了NVIDIA GPU互联互通的底层硬件架构…

人工智能 2023年7月14日
0068
三星识别文字_三星手机实现音频转文字、文字录入的方法，不知道的看这里！一遍就会了…

原标题：三星手机实现语音转文字、文字输入法，不知道看这里！这件事只做一次。 [En] Original title: Samsung mobile phone to achieve…

人工智能 2023年5月27日
00288
【python】———merge函数

@爱学习的DUO 目录 * – 1 数据读取（A、B表） – 2 当右表无重复项 – 3 当右表有重复项 – + 3.1 数据读取（…

人工智能 2023年7月4日
0058
JS常见加密 AES、DES、RSA、MD5、SHAI、HMAC、Base64(编码) – Python/JS实现

JS常见加密 AES、DES、RSA、MD5、SHAI、HMAC、Base64 – Python/JS实现文章目录 JS常见加密 AES、DES、RSA、MD5、SH…

人工智能 2023年7月3日
0082
模型的准确度如何评估

引言在机器学习中，评估模型的准确度是一个重要的任务。准确度的评估可以帮助我们了解模型的性能，并帮助我们选择最适合的模型。本文将详细介绍如何评估模型的准确度，并提供一个包含公式推导…

人工智能 2024年1月4日
0053
【机器学习】04. 神经网络模型 MLPClassifier分类算法与MLPRegressor回归算法（代码注释，思路推导）

目录 * – 资源下载* 1. MLPClassifier分类算法* – 1.a 读取数据并进行归一化 – 1.b MLPClassifier多…

人工智能 2023年6月30日
0096
NVIDIA显卡+cuda+cudnn安装

一. nvidia显卡安装教程：链接: ubuntu20.04到ubuntu18.04安装英伟达（nvidia）显卡驱动的血泪史. 该编辑器在安装过程中遇到以下问题： [En] …

人工智能 2023年5月25日
0083
ROS中预览pcd点云数据，提示fatal error: pcl/point_cloud.h: 没有那个文件或目录

进入 ROS论坛中关于该问题的讨论：pcl_ros/point_cloud.h: No such file or directory – ROS Answers: Op…

人工智能 2023年6月2日
00129
跟李沐学AI 动手学深度学习环境配置d2l、pytorch的安装（windows环境、python版本3.7）

我们的任务主要有：配置过程中主要参考了以下文章：https://blog.csdn.net/qq_38311396/article/details/120768038 ; 配置详…

人工智能 2023年6月16日
0091

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

基于卷积神经网络的实体关系抽取（SemEval-2010 Task-8数据集）

大家都在看