知识图谱补全（KGC）论文阅读笔记

2023年7月28日上午6:04 • 人工智能 • 阅读 66

文章目录

1. WHY 为什么需要KGC技术
2. HOW 怎样进行KGC
3. 概念层次知识补全
*
3.1 基于描述逻辑的规则推理机制
3.2 基于机器学习类型推理机制
3.3 基于表示学习类型推理机制
4. 实例层次的知识补全
5. 面临的挑战和主要发展方向
6. PAPER1：Few Shot Knowledge Graph Completion
*
6.1 KGE（Knowledge Graph Embeded知识图谱嵌入）的链接预测
–
- 常见评估方法：
6.2 FSRL模型（Few-Shot Relation Learning）
–
- KGE方法分类：
7. PAPER2：Self-Supervised Hyperboloid Representations Logical Queries over Knowledge Graphs
*
7.1 WHY
7.2 双曲曲面空间与双曲空间区别
7.3 流程
7.4 总结：
7.5 HypE能解决的问题
8. PAPER3：Contextual Parameter Generation for Knowledge Graph Link Prediction
*
8.1 核心思想：
8.2 KGE表示受限分析
8.3 CoPER模型分析
8.4 总结：
WHY 为什么需要KGC技术

构建知识图谱过程中，知识信息来源于文档和网页信息，从文档中提取信息的会 存在偏差，原因如下：

噪声信息（无用信息），来自知识抽取算法本身或语言文字本身有效性
文档信息量有限，无法涵盖所有知识尤其是常识性知识

因此得到的知识图谱不完整，需要 对知识图谱进行补全

HOW 怎样进行KGC

通过已获取的知识对实体间进行 关系预测，以达到对实体间关系的补全，也可以是 实体类型信息的补全。

利用的知识：

本知识库内部的知识
第三方知识库的知识

补全分为两个层次：

概念层次
实力层次

往往构建过程只提到了 实体和关系的抽取，然后就可以生成实体和关系组成的RDF（资源描述框架Resource Description Framework）了。

但仅获取三元组是不够的，三元组中的实体除了具有属性和关系外，还可以映射关联到 知识概念层次的类型（type），而且一个实体的类型可以有很多。

如一个人的身份可以是人、学生、女儿，这几种身份概念之间是有层次的，也就是所说的 概念的层次模型

概念层次知识补全

——主要解决实体的类型信息缺失问题

一旦一个实体被判断为人这个类型，在已经构建好的知识模式中，实体除了人的类型外仍然需要 向下层概念搜索，以发现更多类别描述信息

3.1 基于描述逻辑的规则推理机制

本体论和模式：实体可以归结为一种本体，具有一种模式来包持独特性，这组模式可以用规则来描述，因此对于本体而言也可以用规则来描述

奥巴马是实体，本体可以归为人，人的模式就是可以使用语言和工具，可以改造其他食物，这些模式可以用规则来描述

描述逻辑：一种常见的知识表示方式，建立在概念和关系之上

可以将人的实体实例收集起来，从中提取出模式并以规则的形式记录下来，这样只要遇到新的实体实例，只需要将其带入到之前记录下的 规则中进行比较即可做出判断，如果符合规则，就说明该实例可以归类为人的概念类型，否则就判定为非此概念类型。

3.2 基于机器学习类型推理机制

随着发展机器学习开始介入，不是单纯地利用实例产生的规则等内部线索来进行判断，同时利用 外部的特征和线索来进行判断，同时也要利用外部的特征和线索来学习类型的预测

对未知类型实体e1而言，如果能找到一个与其类似的已知类型实体e2，那么就可以据此推知实体e1的类型应该与e2类型一致或者相似

此类方法主要分为：基于内容的类型推理、基于链接的类型推理和基于统计关系学习的类型推理

3.3 基于表示学习类型推理机制

将 嵌入式学习和 深度学习引入到类型推理，基于机器学习的类型推理方法大多假设数据中没有噪声，且其特征仍然需要认为选择和设计，引入深度学习可以 避免特征工程。而类型推理要依据文本内容，也需要链接结果等其他特征的支持，此是嵌入式方法可以发挥其自身优势

实例层次的知识补全

理解为，对于一个实例三元组（SPO主谓宾），其中可能缺失的情况为

（？，P，O）
（S，？，O）
（S，P，？）

此时就需要预测缺失的实体或者关系是什么

actually，很多缺失的知识是可以通过已经获得的知识来推知的，这个过程被称为 链接预测

attention：有时知识不是缺失的，而是新出现的，即出现了新的三元组，且这个三元组不是原知识库所已知的知识，此是需要将其作为新知识补充到知识库中，故这种情形不是传统意义的补全。

包括有

基于随机游走的概率补全方法
基于表示学习的补全方法

&#x77E5;&#x8BC6;&#x56FE;&#x8C31;&#x5D4C;&#x5165;&#x6D41;&#x7A0B;&#xFF1A;1&#xFF09;&#x7ED3;&#x6784;&#x5D4C;&#x5165;&#x8868;&#x793A;&#x6CD5;

                                 2&#xFF09;&#x5F20;&#x91CF;&#x795E;&#x7ECF;&#x7F51;&#x7EDC;&#x6CD5;

                                 3&#xFF09;&#x77E9;&#x9635;&#x5206;&#x89E3;&#x6CD5;

                                 4&#xFF09;&#x7FFB;&#x8BD1;&#x6CD5;

跨知识库补全方法
基于信息检索技术的知识库补全方法
知识库中的常识知识补全
面临的挑战和主要发展方向

（1）解决长尾实体及关系的稀疏性

知名的明星的关系实例会很多，而对于普通民众的实例就很少，但是他们数量却众多，导致其相关的关系实例也是十分稀疏，而且在数量不断增加的情况下，这种情况会更加明显。

（2）实体的一对多、多对一和多对多问题

对于大规模数据，不是一对十几或者几十数量级那么简单，而是成百上千的数量级，传统的解决方案无法有效深圳根本无法解决此种数量级别的关系学习问题。

（3）三元组的动态增加和变化导致KG的动态变化加剧

新知识源源不断的产生，而之前的知识可能被后面证明是错误的，或者需要修正的。这些都会使得知识补全的过程也需修正改变，如何使得知识图谱补全技术适应KG的动态变化变得越来越重要，而这方面的技术还未引起足够的重视。

（4）KG中关系预测路径长度会不断增长。

关系预测能推理的长度是有限的，但在大规模知识图谱闪光，实体间的关系路径序列会变得越来越长，这就需要更高效的模型来描述更复杂的关系预测模型。

PAPER1：Few Shot Knowledge Graph Completion

6.1 KGE（Knowledge Graph Embeded知识图谱嵌入）的链接预测

是 预测三元组（h, r, t) 中缺失实体h, t 或r ，对缺失部分用知识图谱中的实体作为候选项进行排名，而不是单纯给出一个最优的预测结果

常见评估方法：

正确实体的平均倒数排名MRR（Mean Reciprocal Rank）——越大越好

返回所有正确答案的预测排名的倒数的均值。对于每一个query，若第一个正确答案排在第n位，则MR就是n

正确实体排名在前k比例HR（Hit Ratio），k命中率(Hit@k)——越大越好

正确答案预测排名不超过n的比率

; 6.2 FSRL模型（Few-Shot Relation Learning）

对每个关系r给出的少样本参考实体对集合{(h,t)}，能有效推断出真实的实体对子集合{(h,t)}’

整体目标是让真实的尾实体true排名高于其他虚假尾实体，由此进行筛选

具有关系意识的异构邻居编码器（Heterogeneous Neighbors Encoder）：f(θ)

对预训练得到的实体嵌入。即用邻居部分来表示自己的信息

目标：用 注意力网络得到头实体h的特征向量

嵌入

关系嵌入方法包括：RESCAL, TransE, DistMul, ComplEx

循环自动编码器聚合网络：f(ε)

对少样本实体对建模，增强对关系的表达能力

目标：学习得到参考集Rr的表示

参考集Rr(Reference relation)嵌入：获取关系r的特征向量

聚合

对参考集嵌入、聚合后，最终使用匹配网络去发现和参考集相似的实体对：f(μ)

匹配

与传统神经网络相比优点：

针对现实世界里真实数据的少样本问题，传统DNN（深度神经网络）不可用

KGE方法分类：

embedding-based嵌入式方法

基本框架为

embedding model + scoring function

首先对每个fact(h,r,t)，通过encoding model为实体和关系学习到特征表示，再根据设计的scoring function为其计算得分

encoding model可以是线性模型，也可以是神经网络模型

scoring function主要是为了评估fact的合理性，这个函数应该满足：真实的fact的score要比不真实的fact的score更高

scoring function可以分为

基于距离的
基于相似度的

TranE使用的是基于距离的，认为头部的特征表示假设关系的特征表示应该就能得到尾部的特征表示

DisMult使用基于相似度的

relation path inference关系路径推理

在图结构上利用路径信息，来寻找fact中的缺失信息

引入了强化学习，通过将实体对之间的路径查找表述为顺序决策过程，将深度强化学习引入多跳推理

rule-based reasoning（规则推理）

逻辑规则学习，规则由head和body以head←body形式定义。头部是原子，身体是一组原子

给定关系sonOf, hasChild和sex以及实体X和Y，则有规则：

(Y，sonOf，X)←(X，hasChild，Y)^(Y，sex，Male)

PAPER2：Self-Supervised Hyperboloid Representations Logical Queries over Knowledge Graphs

7.1 WHY

知识图谱大规模且复杂，故查询工作困难，解决办法就是把KG中的实体和关系嵌入到空间中，查询的嵌入向量即包含与其结果相关的信息

7.2 双曲曲面空间与双曲空间区别

向量不同，双曲空间边界范围是圆，双曲面空间范围是动态的
双曲空间是静态固定范围，双曲曲面的不同实体可以包含不同数量的子实体
*双曲面嵌入学习能学习获得额外的空间参数limit，可以模拟变化的实体大小，进而动态调整覆盖范围

7.3 流程

数学演算，把欧氏空间向量映射到双曲面空间

7.4 总结：

创新性地将知识图谱嵌入空间改变为 双曲曲面空间，提出了HypE模型

实现了更符合现实世界查询的复杂方式：对多个简单Query的 交集、并集，进行联合查询的嵌入表示

Query对应的Answer空间规模可以动态调整：复杂Query的Answer^间规格参数变大，包含更多信息

7.5 HypE能解决的问题

1、对于KG的推理任务，双曲面嵌入在 学习层次关系方面优于基线

2、提出HypE变体:HypE-Avg-1t, HypE-Avg-1t,2t,3t, HypE-Avg, HypE-DS, HypE-TC, 评估Jg标涨点

3、双曲曲面表示在 异常检测任务中，能 捕获相关数据特征

4、双曲面嵌入可以利用实体的辅助语义信息

5、对HypE模型可视化，辅助人为理解HypE对应的的潜在表征空间

PAPER3：Contextual Parameter Generation for Knowledge Graph Link Prediction

8.1 核心思想：

KGE中的关系嵌入经常被限制为加性的，使得模型在 处理不同关系变换时的表达能力受到限制
使用 上下文参数生成方法可以去除加性限制，将关系作为 上下文来做知识嵌入
CoPER（Contextual Parameters from Embedded Relation）模型核心： 将关系R作为实体对的语义环境，h只作用于es，r作用域生成f的参数θ。f的参数将由CPG（上下文参数生成器）模块输出得来，而不是学习得来
CPG能对关系的编码r给出计算目标实体中f模块的参数θ

8.2 KGE表示受限分析

; 8.3 CoPER模型分析

增强表示能力：加性变成乘性

8.4 总结：

1、将 参数生成应用到链接预测任务, 关系视为上下文,生成操作头实体的函数参数

2、该方法仅用于改进 无交互操作的模型，例如ConvE

3、 ConvR侧重将关系嵌入直接作为卷积核,而CoPER – ConvE将关系嵌入作为参数生成的上下文,生成投影所需的参数

4、沿用CoPER参数生成思路去改进ConvR, 有可能缓解ConvR中的关系嵌入没有 深层次化的问题

相比PAPER1，2,参数生成器更像优化环节

Original: https://blog.csdn.net/weixin_43965597/article/details/126437419
Author: Zichel77
Title: 知识图谱补全（KGC）论文阅读笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/719909/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

AI自主图像生成之 stable-diffusion—运行效果展示

stable-diffusion用途：输入文字描述，输出对应图片 The chicken with the hair parted in the middle and the su…

人工智能 2023年7月26日
0083
深度理解感受野（一）什么是感受野？

Introduction 经典目标检测和最新目标跟踪都用到了RPN(region proposal network)，锚框(anchor)是RPN的基础，感受野(receptive…

人工智能 2023年6月15日
0093
python如何安装keras和tensorflow

目录一. 通过pip install kears 安装 keras 二. 安装tensorflow * 1.报错 No module named ‘tensorflo…

人工智能 2023年6月25日
0067
虚拟环境安装Pytorch详细教程

目录一、创建 PyTorch 虚拟环境 1.1 打开 Anaconda 自带的 Anaconda Prompt 1.2 打开 Anaconda Prompt 之后，在命令行输入命…

人工智能 2023年7月27日
0061
Pytorch反向传播(loss.backward)报错原因及解决办法

报错信息在程序中我的损失函数定义如下所示： loss = nn.CrossEntropyLoss(reduction=’none’) 但在执行 loss.backward()时出…

人工智能 2023年7月21日
0089
如何使用PyTorch进行序列生成任务（如机器翻译）

如何使用PyTorch进行序列生成任务（如机器翻译）在本文中，我们将详细介绍如何使用PyTorch进行序列生成任务，以机器翻译为例。我们将首先介绍算法原理和公式推导，然后详细解释…

人工智能 2024年1月2日
0034
易基因 | 文献速递：RRBS方法绘制1538例乳腺癌甲基化图谱并预测癌症发生/预后

大家好，这里是专注表观组学十余年，领跑多组学科研服务的易基因。错过RRBS技术在人和小鼠疾病表观遗传特征研究的可点： Mol Biol Evol | 利用 RRBS 技术多维度分…

人工智能 2023年6月1日
0070
啃书《利用python进行数据分析》第十章数据聚合与分组操作：GroupBy详解、agg()、apply()、pivot_table()、crosstab()详解

groupby就是分组嘛，分组完后会产生一个GroupBy对象，这个对象可以遍历（1.）和选择子集（2.）这个对象可以根据某一类别变量列（或多列）来构建，也可以通过字典、Serie…

人工智能 2023年7月7日
0081
Learning Convolutional Neural Network for Graphs

1 Introduction 本文旨在于应用卷积神经网络处理基于图的学习问题，考虑以下两个问题：与CNN相似，首先规定一个感受野。将图像视作结点代表像素的网格图，卷积过程可以看作…

人工智能 2023年7月14日
0061
基于梅尔频谱的音频信号分类识别(Pytorch)

基于梅尔频谱的音频信号分类识别(Pytorch) 目录基于梅尔频谱的音频信号分类识别(Pytorch) 1. 项目结构 2. 环境配置 3.音频识别基础知识 (1) STFT和声…

人工智能 2023年7月23日
0068
【OpenCV图像处理6】滤波器

文章目录六、滤波器 * 1、卷积 – 1.1 什么是图像卷积 1.2 步长 1.3 padding 1.4 卷积核的大小 1.5 卷积案例 2、方盒滤波和均值滤波 &…

人工智能 2023年7月19日
0057
点击曝光日志的数据处理

其实pandas就是dataframe，spark里面的是一样的，有些处理方法可以相互借鉴，也可能会有SQL的一些用法，但今天就事论事，不展开。 For Recommendatio…

人工智能 2023年6月11日
0072
优化算法之间的关系及各自特点的简单分析

1 优化算法 https://tangshusen.me/Dive-into-DL-PyTorch/#/chapter07_optimization/7.4_momentum 1….

人工智能 2023年6月6日
0058
【很简单的教程】如何提取模型每层的特征【以ResNet为例】

介于CSDN上没有人很详细地讲述如何提取特征，所以我踩了很多坑，本文教程是我踩坑的心路历程，最后面有提取特征的方法实例，不过建议从头阅读。方法1 以一个十分类的问题为例，我最开…

人工智能 2023年7月21日
0083
云计算 – 4 – Spark的安装与应用

云计算 – 4 – Spark的安装与应用 * – 目标 – Spark 的安装： – + 1、下载配置 Scala +…

人工智能 2023年6月30日
0063
python实现API的调用

在日常工作中，可能需要结合网上现在的一些API或者公司提供的数据接口来得到相应的数据或者实现对应的功能。因此API的调用和数据接口的访问都是做数据分析的一个常用操作，如何快速实现A…

人工智能 2023年7月4日
0075

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31