论文浅尝 | 采用成对编码的图卷积网络用于知识图谱补全

2023年6月1日上午5:58 • 人工智能 • 阅读 59

笔记整理：姚祯，浙江大学在读硕士，研究方向为知识图谱表示学习，图神经网络。
论文引用：Liu S, Grau B, Horrocks I, et al. INDIGO: GNN-based inductive knowledge graph completion using pair-wise encoding[J]. Advances in Neural Information Processing Systems, 2021, 34.

Motivation

基于嵌入的方法通常是在向量空间中表示KG，然后对于结果向量应用预先定义的评分函数来进行知识图谱补全。但是这种方法的弊端就是对于训练过程中存在的实体，可以有很好的训练效果，但是对于在训练过程中没有出现的实体，这种方法的效果就会变得很差。

而在实际应用中，KG通常是在变化的，因此很容易出现在训练过程中并未见过的实体，会使得效果很差。例如在图中，实线部分是训练集，虚线部分是测试集。对于(Plato, lives, Greece)这一三元组，因为Plato，lives，Greece这三个向量都在训练过程中进行了反向传播得到了合理的向量表示，因此在链路预测的过程中很容易预测成功。但是对于(Aristotle, student, Plato), (R.Feynman, student, J.Wheeler),(J.Wheeler, lives, USA)这三个三元组，因为在训练过程中并未出现，因此它们的向量仅仅是随机初始化的向量表示，此时采用基于嵌入的方法，几乎不可能找到正确的预测结果。因此文中将这种基于嵌入的方法称为transductive mothed。例如TransE，RotatE。

基于图神经网络的方法可以捕获模型的结构特征，GCN本身基于图像的对称性，即有相同邻居的节点会有相同的值。在相同的结构下是不变的，可以捕获结构的一般形式。因此文中将这种基于图神经网络的方法成为inductive mothed。例如RGCN。但是这种基于卷积的方法仍然没有拜托对向量定义打分函数的方式来进行评估，作者提出了一种新的方法，通过将KG以透明的方式（transparent）编码到GCN中，并在GCN的最后一层直接解码得到向量表示而不需要额外的评分函数。

Mothed

•Encoding

作者首先定义了节点表示图，节点表示图是由KG编码而来，KG中的节点表示实体，边表示关系。而在节点表示图中，每个节点表示一个实体对，在原图中，如果存在一个节点或者两个节点之间存在一条边，那么在节点表示图中会有一个节点，如（Plato，lives，Greece）会有三个节点，并且每个节点会生成一个向量表示，向量的维度为关系数量的2倍。用来表示两个节点之间存在何种关系，同样以（Plato，lives，Greece）为例，编码在图中的节点为（G,S),（G,G）,(S,S)。作者规定节点对的编码是以两个单词的字典序作为前后顺序，也就是说一个节点对仅存在唯一的节点表示。对于（G，S）节点来说，其向量表示为（0，1，0，0）。因为图中有两个关系lives和student，因此表示向量的维度为4。第一个零表示不存在（Greece，lives，Plato）这样的关系，因此编码为0；同理存在（Plato，lives，Greece）这样的关系，因此编码为1。后面两个依次表示不存在（Greece，student，Plato），（Plato，student，Greece）这样的关系。

定义完节点，作者对图中的边进行了定义，对于每一个节点中出现的实体，如果在另一个节点中出现，那么这两个节点之间就会存在一条边。同样以(G,S)为例，因为出现了G节点，因此首先和存在G实体的所有节点相连，之后再和存在S实体所有节点相连。这样就完成了作者提出的节点表示图。在这种方式下编码的特征向量和KG之间的三元组建立了一对一的对应关系。并且使得GCN可以更加容易地学习到图中的结构模式。例如，这样的结构模式更容易捕获到具有师生关系的三个人大概率生活在同一个国家这样的逻辑。实质上作者是用一种比较巧妙的方式，更好地聚合了一个知识图谱中实体的多条邻居信息。对于节点表示图的复杂性，作者进行了理论分析，INDIGO编码图的边的数量是随着KG中实体数量呈幂级增长，不过考虑到现实中的知识图谱大都是稀疏图，因此可以将节点的最大出度视为一个常数，此时INDIGO编码图的边的数量是随着实体数量线性增长的。

•GCN

模型的GCN模块采用了最为简单的图卷积神经网络的形式，用于聚合相邻节点的embedding更新自身的节点表示。损失函数也采用了最常见的交叉熵损失函数，进行反向传播。

其中为节点的度矩阵，为加入自环的邻接矩阵，为第l层的特征矩阵，参数矩阵。

•Decoding 解码过程可以看作编码过程的镜像，作者提到在GNN的最后一层中会输出每个节点的向量表示，由于最后是经过了Sigmod函数输出的，因此向量的范围在（0，1）之间被定义为预测的可信度。所以在解码过程中，作者规定了一个判别值，即当值大于0.5时为1，值小于0.5时为0。

Experiment

数据集、基线、评估指标

•数据集

GraIL-BM共有12个数据集，分别由FB15K-237，NELL-995和WN18RR随机采样一些实体作为种子，然后取周围的k-hop邻域的并集得来。

Hamaguchi-BM共有9个数据集，由WN11数据集中随机采样1k，3k，5k个三元组的头实体、尾实体或头尾实体对作为不可见实体集划分而来。

INDIGO-BM作为该论文提出的数据集是由FB15K-237数据集而来，首先通过Freebase语义网对FB15K237进行扩充，随后采样得到1000个三元组将其所包含的所有实体设置为不可见实体集。将不存在不可见实体集的三元组集合按9：1的比例分成训练集和验证集。剩下的部分作为测试集，整体的步骤和Ham-BenchMark数据集生成方法类似。

•Baseline

作者选用R-GCN作为最基础的Baseline，Grail和Ham同样是针对inductive推理提出的模型，它们对于不可见实体在预测过程也具有推理能力，同样作为实验的baseline。

•评价指标

评估指标包含：precision，recall，ACC，AUC，e-Hits和r-Hits。定义如下：

AUC表示精度找回曲线积分，定义精度召回图以精准率precision为y轴，以召回率recall为x轴，对于给定阈值θ，都会有坐标轴上的点(r(θ),p(θ))，其中r(θ)为召回率，p(θ)为准确率。

e-Hits@3表示实体预测中正样本置信度排名前三的比例。

r-Hits@3表示关系预测中正样本置信度排名前三的比例。

•实验结果

GraiL模型提出了12个benchmark，Ham模型提出了9个benchmark。再加上作者提出的一个benchmark，一共有22个数据集。可以看到在ACC上模型在19个数据集上达到了SOTA，在AUC上模型在18个数据集上达到了SOTA，对于实体命中率，模型效果比较差，仅5个数据集上达到了SOTA。关系命中率模型效果很好在所有的数据集上都达到了SOTA。作者认为传统的的GCN模型在负采样的过程中随机替换了实体，这会被认为是对于正确实体的”偏见”。INDIGO的抽样策略中不存在这种”偏见”，因此导致了训练性能的降低。

Summery

本文提出了一种新的图编码方式，可以将KG中的实体对和关系编码到图卷积网络中，可以用于链接预测任务，并且不依赖打分函数评估预测的准确性。大量实验证明这种方法是有价值的，通过inductive推理可以对于训练集中没有见过的实体保持一定的准确率。

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。

点击 阅读原文，进入 OpenKG 网站。

Original: https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/123469409
Author: 开放知识图谱
Title: 论文浅尝 | 采用成对编码的图卷积网络用于知识图谱补全

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/555068/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Android 源码中添加一个产品

产品的 vendorsetup.sh，当 source build/envsetup.sh时读取。 …… for f in test -d device &&amp…

人工智能 2023年6月28日
0088
机器学习笔记四：线性回归（Linear regression）及房屋数据集的回归

目录 * – + 1.单变量线性回归： + 2.多变量线性回归最近在学习吴恩达老师的机器学习课程，所以在这里记录一下，主要是完成他的课后作业。思路：1.首先，我们自…

人工智能 2023年6月17日
0073
RNA 20. SCI 文章中单样本免疫浸润分析（ssGSEA）

点击关注，桓峰基因桓峰基因生物信息分析，SCI文章撰写及生物信息基础知识学习：R语言学习，perl基础编程，linux系统命令，Python遇见更好的你 122篇原创内容公众…

人工智能 2023年6月19日
00113
【读书笔记-＞统计学】04-02 利用概率理论预测和决策-条件概率、概率树、全概率公式、贝叶斯定理、相关与独立概念简介

条件概率现在书给我们提供了一个情境：已知下一次小球会停在黑色球位，赌小球会不会停在偶数球位上。由于我们已经知道小球停在黑色球位，那么小球一定不会停在绿色或红色球位了，但我们求概…

人工智能 2023年6月11日
0036
freeswitch呼叫中心之freeswitch集成百度MRCP智能语音

1：freeswitch开启unimrcp模块 cd /usr/local/src/freeswitch-1.6.0 vim modules.conf 取消掉asr_tts/mod…

人工智能 2023年5月27日
0052
复杂网络数据集

本人之前学习复杂网络的过程中收集的一些数据集，现在列出来供大家参考，希望对大家的研究有所帮助。 1、Mark Newman的个人网站这是密歇根大学复杂系统研究中心教授Mark N…

人工智能 2023年6月10日
0057
【yolov5+deepsort运行和训练自数据集（训练v5部分）】

本人在读科研狗，因为研究的是目标跟踪测距等等，所以自己开始百度摸索，中间会遇到很多问题，走很多弯路，往往一个很简单就可以解决的东西都快要把百度用烂，我承认我太菜。本文是留给自己看的…

人工智能 2023年7月22日
0053
利用OpenCV和Python一百行代码快速实现人脸检测和人脸识别

利用OpenCV和Python一百行代码快速实现人脸检测和人脸识别目录利用OpenCV和Python一百行代码快速实现人脸检测和人脸识别 * – 1、前言 2、准备…

人工智能 2023年7月18日
0049
论文阅读：MVIN: Learning Multiview Items for Recommendation

MVIN: Learning Multiview Items for Recommendation 概述 Introduction 相关工作 * – KG-aware …

人工智能 2023年6月1日
0063
懒出天际–语音鼠标，解放双手，靠嘴使唤鼠标。SAPI语音识别，WINAPI鼠标消息

一、背景调查结合语音识别与MFC鼠标消息，就拥有了语音鼠标。不同于市面上，科大讯飞，百度AI的科技同类产品的功能：语音转文字，语音播报，这些。这回是彻底靠语音移动鼠标，单击，双击，…

人工智能 2023年5月25日
0057
通信信号调制方式识别——综述/硕博

浅谈通信信号调制样式自动识别方法 -古相平程磊, 葛临东, 彭华,等. 通信信号调制识别现状与发展动态[J]. 微计算机信息, 2005, 021(10S):154-156. 曾创…

人工智能 2023年5月25日
0056
vs2019上opencv项目的搭建与运行、找不到dll文件的解决方案

目录 1.安装opencv 2.项目搭建 3.环境配置 4.配置系统环境变量 1.安装opencv 直接搜索官网进行下载：Releases – OpenCV。点击ex…

人工智能 2023年6月19日
0075
OpenCV图像处理学习十六，解析图像卷积运算原理并应用Sobel算子，Scharr算子和拉普拉斯算子（Laplance）的应用

一.卷积核的概念卷积核，通常也叫算子。用一个设定数值模板去处理一张输入图片，进行卷积运算。目的是使目标与目标之间的差距变得更大。卷积在数字图像处理中最常见的应用为锐化和边缘提取。…

人工智能 2023年7月19日
0056
基于tensorflow2.x的文本分类任务（二）

上一篇博客主要介绍了在文本在输入到模型前做的一系列必不可少的数据预处理操作。本篇博客主要介绍一下作为baseline的文本分类任务的模型在tf2.x框架下是如何构建的。提到文本分…

人工智能 2023年7月3日
0065
Python实现APP UI自动化以及OpenCV图像识别元素

OpenCV图像识别元素代码 -*- encoding=utf-8 -*- __author__ = ‘Jeff.xie’ import cv2 import sys def _t…

人工智能 2023年7月19日
0045
plt.boxplot()函数绘制箱图、常用方法及含义详解

; 1. 箱图含义箱图是一中用于统计数据分布的统计图，也可以粗略地看出数据是否具有对称性，分布的分散程度等信息。箱图中的信息含义如下：最下方的横线表示最小值最上方的横线表示最…

人工智能 2023年7月15日
0049

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

论文浅尝 | 采用成对编码的图卷积网络用于知识图谱补全

Motivation

Mothed

Experiment

Summery

大家都在看