论文阅读 Knowledge Graph Embedding via Graph Attenuated Attention Networks

Knowledge Graph Embedding via Graph Attenuated Attention Networks

基于图衰减注意网络的知识图嵌入

发表于 Digital Object Identifier 10.1109/ACCESS.2019.2963367
摘要:知识图包含丰富的现实世界的知识,可以为人工智能应用程序提供强有力的支持。知识图的补全已经取得了很大的进展,最先进的模型是基于图卷积神经网络的。这些模型自动提取特征,结合图形模型的特征,生成具有较强表达能力的特征嵌入。但是,这些方法对知识图中的关系路径赋予相同的权值,忽略了相邻节点所呈现的丰富信息,导致三元特征的挖掘不完全。为此,我们提出了一种新的表示方法——图衰减注意网络(Graph Attenuated Attention networks-GAAT),该方法集成了一种衰减注意机制,在不同的关系路径上分配不同的权重,并从邻域获取信息。因此,实体和关系可以在任何邻居中学习。我们的实证研究为衰减注意力模型的有效性提供了深刻的见解,并在两个基准数据集WN18RR和FB15k-237上表明,与最先进的方法相比,我们有显著的改进。
我们的模型引入了注意衰减机制,同时考虑了n-hop邻居,即实体越接近一个给定的实体,获得的注意权重越高。我们将其添加到GAt中,并学习实体和关系的新嵌入。然后用我们的模型分别训练关系嵌入和实体嵌入。
GCNs在图特征提取方面取得了很大的进步。但是仍然存在一个问题,GCNs只关注节点本身,而不考虑它的邻居,这些邻居包含丰富的有价值的信息。图形注意网络(GATs)[13]是对GCNs的进一步改进。GA t强调将不同的重要值分配给不同的节点邻居,而不是像在GCNs中那样为所有邻居节点分配平等的权重。
图注意网络层节点集的输入特征为e= {e1,e2,…,eN}则节点的输出特性为e0= {e’1,e’2,…,e’N},其中ei表示第i个节点的输入嵌入。e’i表示第i个节点的输出嵌入。N表示节点数。节点的注意值可以形式化为

论文阅读 Knowledge Graph Embedding via Graph Attenuated Attention Networks
其中,w表示将输入特征映射到高维输出特征空间的参数线性变换矩阵,fa表示一个注意函数。注意值eij反映了边(ei,ej)的重要性,可以用来衡量头部节点ei的的重要性。可以得到如图2所示的注意值。
我们学习每个边的注意力权重,然后根据这些权重从邻居那里收集信息:
论文阅读 Knowledge Graph Embedding via Graph Attenuated Attention Networks
其中,ηij表示相对关注,它是通过softmax函数对所有邻居的值进行计算的。W表示一个线性映射矩阵。执行此操作后,输出节点ei的邻居表示。Ω表示实体ei的邻居集合,R表示连接两者之间的关系集。
为了防止模型的过拟合,我们使用多个独立的不同注意进行注意计算。多头注意结构如图3所示。
论文阅读 Knowledge Graph Embedding via Graph Attenuated Attention Networks
头节点(HN)、边节点(E)和尾节点(TN)先进入一个线性变换,然后输入到多头注意。每个header之间的参数都是不共享的,HN, E, TN的线性变换参数是不同的。然后,将m个结果串联起来,利用线性变换得到的值作为多头注意的结果。将多个注意头连接起来的多头注意过程如下图所示
论文阅读 Knowledge Graph Embedding via Graph Attenuated Attention Networks
式中||表示串联操作,σ表示非线性激活函数,ηmij表示第m个注意机制所获得的权重,Wm表示第m个注意机制的线性映射矩阵。然后,我们使用平均法得到最终的节点表示,如下所示
论文阅读 Knowledge Graph Embedding via Graph Attenuated Attention Networks
在知识图中,一个实体与给定实体的距离越近,其关注价值就越高。此外,从图4中还可以看出,图中关系的颜色越浅,权重越低,对给定实体的影响越小。在此基础上,我们提出了一种衰减注意机制,对给定实体的相邻节点的注意值分配不同的权重。
论文阅读 Knowledge Graph Embedding via Graph Attenuated Attention Networks
图中显示了我们的图衰减注意层的聚集过程。Wi表示边缘的相对注意值。蓝色虚线代表n-hop邻居的辅助边。当n=4时,节点”Angelina Jolie”的注意权重为ω1+1/2ω2+1/3ω3+1/4ω4。
根据与给定实体越接近,获得的注意权越大的原则,我们定义衰减的注意系数θid,表示给定节点ei的第d个跳跃邻居的衰减。假设给定节点与其d-hop邻居之间的距离为xd,则衰减的注意系数可以形象化为
论文阅读 Knowledge Graph Embedding via Graph Attenuated Attention Networks
其中θ0为初始衰减注意系数,x0为路径步长参数,默认为1。
我们将衰减注意机制合并到GA t中,形成我们提出的图衰减注意网络模型。该模型通过对不同的关系分配不同的权重,从节点的邻居中收集特征,增强实体和关系嵌入。
最先进的方法集中于实体嵌入,而关系嵌入仅使用TransE训练的初始向量。而关系作为知识图中最重要的组成部分,对知识推理的质量起着决定性的作用。此外,特定关系嵌入可以使表示嵌入包含更多有价值的特征。因此,我们建议细化关系的类型,并使用我们的GAATs模型来学习关系的嵌入。
我们定义初始关系嵌入矩阵R∈RNr×T,其中Nr表示关系个数,T表示嵌入每个关系的初始特征维数,第i行表示第i个关系的嵌入量。经过GAATs层处理后对应的输出矩阵为R’∈RNt×T’,其中Nt表示三元组的个数,T’表示输出特征维数。换句话说,我们独立地学习每个三元组的关系嵌入。
我们使用GAAT模型来学习关系嵌入。在关系的图结构中,我们首先分别计算每个关系的注意值,得到输出关系的嵌入矩阵为R’=R·WR,其中WR∈RT×T’为权矩阵。具体来说,提取图1中的一些子图,我们将关系划分为三个类别,如图5所示。
论文阅读 Knowledge Graph Embedding via Graph Attenuated Attention Networks
(1)如果两个实体之间有直接关系,如图5(a)所示。然后,关系式为
论文阅读 Knowledge Graph Embedding via Graph Attenuated Attention Networks
式中,R’ij表示实体ei和ej之间的关系向量,ηij表示实体ei和ej之间的注意值,R (cor)表示初始关系矩阵对应的行。
(2)如果两个实体之间存在间接连接,但可以通过相邻节点访问,如图5(b)所示。然后,关系式为
论文阅读 Knowledge Graph Embedding via Graph Attenuated Attention Networks
Ωi表示实体ei的邻居集,θis表示实体ei和es之间的衰减注意系数。我们利用衰减注意机制计算邻居的加权注意值,然后用邻居的关系嵌入与注意值的乘积作为关系的表示。
如果两个实体之间存在间接连接,而存在直接连接,如图5©所示。我们利用衰减注意机制计算邻居的注意值,然后利用已有边缘的关系来表示它。然后,关系表示为
如果两个实体之间存在间接连接,并且存在直接连接,如图5©所示。我们利用衰减注意机制计算邻居的注意值,然后利用已有边缘的关系来表示它。然后,关系表示为
论文阅读 Knowledge Graph Embedding via Graph Attenuated Attention Networks
然而,在学习新的关系嵌入时,关系丢失了初始化信息。为了解决这个问题,我们指定两个矩阵,以便将原始的关系嵌入矩阵添加到最终的表示法中
论文阅读 Knowledge Graph Embedding via Graph Attenuated Attention Networks
其中WN∈RNt×Nr和WT∈RT×T0表示线性变换矩阵,R”表示最终的关系嵌入矩阵。
实体在知识图中起着重要的作用,实体与关系之间的对应关系在知识图推理中尤为重要。例如,实体Anthoy Russo在不同的三元组中扮演不同的角色,即(brother_of, Joe Russo),(college, Robert Downey Jr .)。GAATs嵌入实体具有以下优点:(1)我们的模型可以解决平移模型灵活性不足的问题。(2)我们的模型可以在不同的关系下嵌入同一实体。(iii)模型利用衰减注意机制计算实体的注意权重,使实体能够携带知识图中关系路径的距离信息,实现具体实体的嵌入,便于处理1-N、N-1、N-M等复杂关系。
我们定义初始实体嵌入矩阵E∈RNe×D,其中Ne表示实体个数,D表示嵌入实体的初始特征维数,第j行表示第j个实体的嵌入。经过GAATs层处理后对应的输出矩阵为E’∈RNe×D’,其中D’表示输出特征维数。
注意值反映了边缘特征的重要性,可以用来衡量头部实体的重要性。首先学习三元组在KGs中的嵌入,将初始化的嵌入实体与关系向量连接,得到三元组的初始表示,如下所示
论文阅读 Knowledge Graph Embedding via Graph Attenuated Attention Networks
式中,W’∈R1×(2D+T’)表示线性过渡矩阵,tijk表示三重向量(ei,rk,ej), hi,tj,rk分别表示ei,rk,ej的嵌入。然后,我们使用ReLU激活函数学习三重嵌入,以确保三元组注意是非负的。
论文阅读 Knowledge Graph Embedding via Graph Attenuated Attention Networks
式中,cijk为变换后的向量,V∈R1×(2D+T’)为线性变换参数矩阵。
应用softmax函数得到实体的n-hop邻居的注意值,从而计算出每三个节点的注意权ηijk。同时,当我们知道每个三元组注意力的权重时,我们添加衰减的注意系数,以确保我们越接近给定的三元组注意力权重增加的越高。ηijk的计算方法如下
论文阅读 Knowledge Graph Embedding via Graph Attenuated Attention Networks
实体ei的新嵌入被更新为三元组注意权重与三元组嵌入乘积的加权和,如下所示
论文阅读 Knowledge Graph Embedding via Graph Attenuated Attention Networks
为了提高学习过程的稳定性和学习更多的邻居信息,我们加入了一个类似GATs的多头注意机制。最后,每个实体的邻居表示如下
论文阅读 Knowledge Graph Embedding via Graph Attenuated Attention Networks
与关系嵌入类似,在学习新实体嵌入时,实体会丢失其初始化信息。为了解决这一缺点,我们指定一个线性过渡矩阵WE∈RT×T’,将原始的关系嵌入矩阵加入到最终表示中,如下所示
论文阅读 Knowledge Graph Embedding via Graph Attenuated Attention Networks
图6所示的图衰减的注意层。在我们的结构中,实体逐层收集邻居的信息。例如,在图4中,实体Brad Pitt从第一层的直接邻居收集信息。然后,它从间接实体美国和直接实体安吉丽娜朱莉在第二层收集信息。一般情况下,n-hop邻居实体可以通过n层模型累积。
论文阅读 Knowledge Graph Embedding via Graph Attenuated Attention Networks
该图显示了我们模型的整个结构。黄色圆圈表示初始实体嵌入,蓝色圆圈表示初始关系嵌入,深黄色和蓝色圆圈分别表示转换实体和关系嵌入。
我们的模型利用了平移模型的评分函数,具体来说,我们尝试通过最小化由d(h+r,t)=|| hi+rk-tj||给出的L1范数不相似性度量来学习实体嵌入和关系嵌入。我们用基于利润率的排名损失来训练我们的模型,作为训练的目标如下
论文阅读 Knowledge Graph Embedding via Graph Attenuated Attention Networks
模型解码器使用了CapsE
链接预测实验结果:
论文阅读 Knowledge Graph Embedding via Graph Attenuated Attention Networks
个人总结:本文提出了一种带距离衰减的图注意力网络,通过节点之间的距离(跳数)来对节点注意力权重进行调整。同时还对每一个三元组的关系都建立了一个不同的嵌入参数,再对节点的每一条路径进行attention后与原向量加权相加得到新嵌入,但文章还是仅仅对实体进行了处理,没有对关系进行处理。

Original: https://blog.csdn.net/qq_41669355/article/details/121497162
Author: 勤劳的复读机
Title: 论文阅读 Knowledge Graph Embedding via Graph Attenuated Attention Networks

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/556304/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球