- *摘要
实体对齐通常会遇到结构异质性和种子对齐有限的问题。本文提出了一种新的多通道图神经网络模型(MuGNN),通过多通道对两个图神经网络进行鲁棒编码来学习面向对齐的知识图谱嵌入。每个通道分别通过针对KG完成的自注意力和修剪排他实体的跨知识图谱关注的不同关系加权方案对KG进行编码,并通过池化技术将两者进一步组合。此外,还对规则知识进行了推断和传递,以一致地完成两个KG。MuGNN预计将调和KG间的结构差异,从而更好地利用种子对齐。
- *介绍
现有问题:
结构异质性 不同的KG通常差别很大,可能会误导种子的表示学习和对齐信息。以图1的实体 _Jilin City_为例,KG1和KG2分别展示了来自英文和中文维基百科的子图。由于这是个中国城市,KG2有比KG1更多的信息(用红色虚线和椭圆表示),例如Dialect和Nearby的关系,还有通过关系Mayor连接的实体Liu Fei。显然,KG1中的省Jilin和KG2中的Jilin City不是正确的对齐,但在向量空间中却更可能接近,因为它们有更相似的结构(例如,Northeastern Mandarin和Changchun)。更糟糕的是,这种不正确的对齐方式将进一步蔓延到整个图形中。
有限的种子集 最近基于一般嵌入方法的努力很大程度上依赖于现有的对齐作为训练数据,而种子对数量对于高质量的实体嵌入通常是不够的。
为解决这些问题,建议联合进行知识图谱推理和对齐,来协调不同知识图谱间的结构差异,并利用基于图的模型更好地利用种子对齐信息。结构协调的基本思想是补全缺失的关系,剔除唯一的实体。
本文提出一种新模型MuGNN模型,它可以编码不同的KG来学习面向对齐的嵌入。对于每一个KG,MuGNN针对KG补全和剪枝都使用不同的通道,从而协调两种结构上的差异:关系缺失和唯一实体。不同的通道通过池化技术结合,通过从不同角度协调结构,增强了实体嵌入,使种子对齐的利用更加高效。在KG之间,每个通道通过共享参数传递结构信息。
具体来说,对于KG补全,首先对每个KG使用AMIE+来诱导规则,然后将规则在KG之间传递以达到一致的补全。根据图注意力网络(GAT),利用KG自注意力对GNN通道进行关系加权。对于KG修剪,设计出跨KG注意力,通过对对应关系分配低权值来过滤唯一实体。主要贡献总结如下:
- 提出一种新的多通道GNN模型MuGNN,该模型通过从补全和剪枝的不同角度对图进行编码来学习面向对齐的嵌入,从而对于结构差异具有鲁棒性。
- 提议联合进行KG推理和对齐,这样通过规则推理和转移的补全,明确协调了KG的异质性。
- 对于实体对齐在五个公开可用数据集上进行了广泛的实验,并且达到了在Hits@1上平均5%的显著提升。进一步的切除研究证明了关键部分的有效性。
- *框架
MuGNN的目标是学习用于实体对齐的面向对齐的KG嵌入。它引入KG推理和传递来补全KG,并利用KG自我注意和跨KG注意两种关系加权方案对KGs进行鲁棒地编码。
如图2所示,的框架主要有两个步骤:
知识图谱补全 目的是通过补全缺失的关系来协调结构差异。它不仅使用了一个流行的规则挖掘系统AMIE+来归纳规则,还可以根据种子对齐关系将它们相互转换。规则的传递是基于不论什么语言或领域,知识可以被推广到不同KG的假设。
多通道图神经网络 是通过不同通道对每个KG进行编码。多通道从补全和剪枝两个不同方面提升了实体嵌入,使得实体和它们的对应有了相似的结构。MuGNN包含三个主要部分:(1) 关系加权,根据KG自注意力和跨KG注意力两种方案,为每个KG生成权重矩阵。每种类型注意力都是指一个GNN通道,在KG之间共享参数,进行结构性知识转移;(2) GNN 编码器通过用其邻居改进实体嵌入来建模整个图的特征,因此,种子对齐信息应传播到整个图上;通过池化技术将GNN编码器在不同通道中的输出合并为(3) 对齐模型的输入,它通过将种子的对齐实体(和关系)推到一起将两个KG嵌入到一个统一向量空间中。
- *知识图谱补全
在本节中将介绍如何利用规则知识显式地补全KG,首先从每个KG中推导出规则,然后根据知识不变假设在KG之间传递这些规则,最后在每个KG中建立规则以一致地补全KG。
1. 规则推理和传递
2. 规则落地
规则落地是找出符合规则定义的前提-结论关系的合适的三元组。为了补全,现在将每个规则集落地在对应的KG上,这不仅通过更密集的KG加速了对齐模型传播的效率,还增加了额外的约束,有助于高质量的实体嵌入学习。
值得注意的是,推导出的规则并不是在所有情况下都成立,也许可以考虑每个基础的置信度值。把它留到以后的工作中去。
- *多通道图神经网络
在本节中描述了MuGNN在面向对齐的嵌入学习中编码不同图谱所涉及的三个主要部分:关系加权、多通道GNN编码器和对齐模型。
1. 关系加权
其中||表示向量连接, W和 p是可训练参数。
2. 多通道编码器
GNN是一种处理图结构数据的神经网络模型,其主要思想类似于传播模型:根据相邻节点增强节点(即实体)的特征。因此,可以堆叠多个L层的GNN来实现进一步的传播。它的一个变体是基于谱图卷积的,例如GCN。每个GNN编码器都将当前层节点表示的隐藏状态作为输入,并计算新的节点表示如下:
其中 A是邻接矩阵,展示了节点之间的连接, H是当前节点表示, W是学习到的参数, σ是激活函数,这里选择 ReLU。
受多头注意力网络启发,使用上述两种策略计算连接矩阵作为不同的通道,从不同的方面传播信息并使用一个池化函数聚合它们。的多通道GNN编码器是通过叠加多个GNN编码器构建的,定义为:
3. 对齐模型
对齐模型是通过将实体(和关系)的种子对齐push到一起,将两个KG嵌入到一个统一的向量空间中。通过两个实体或两个关系之间的距离来判断它们是否等价。对齐模型的目标函数如下:
规则知识约束 由于通过添加新的三元组(即落地的规则)改变了KG结构,因此还引入了triplet loss,以使落地规则在统一向量空间中是合法的。
以知识图谱G为例,根据Guo et al.(2016 Jointly embedding knowledge graphs and logical rules) ,定义损失函数如下:
Original: https://blog.csdn.net/Kolunm/article/details/109669583
Author: Kolunm
Title: 实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/595014/
转载文章受原作者版权保护。转载请注明原作者出处!