【论文笔记】知识图谱推理PRA——Relational retrieval using a combination of path-constrained random walks

2023年6月1日上午8:09 • 人工智能 • 阅读 65

知识图谱的概念于2012年由谷歌提出，这篇文章虽然发表于2010年，但文章中的对于数据的使用已经接近知识图谱了。文章提出的PRA算法是知识图谱推理的早期探索，在RWR（重启随机游走算法）的基础上进行了相似性的改进。同时在那个机器学习还没有普及的年代，文章也探索了使用监督学习的方法进行参数的学习和训练。由于年代差异，这里只重点描述文章提出的PRA算法。

Relational retrieval using a combination of path-constrained random walks

论文相关信息
解决什么问题？
如何解决的？数据和方法。
Path-Ranking Algorithm(PRA)
*
算法出发点
算法描述
–
实验结果
*
参数影响
结语

论文相关信息

发表时间：2010
发表期刊：mach learn （大类：工程技术3区，小类：人工智能3区（4区））
发表单位：卡内基梅隆大学
作者：Ni Lao; William W. Cohen
论文地址：Relational retrieval using a combination of path-constrained random walks

解决什么问题？

文章提出了四个任务以评估提出的PRA算法的有效性，虽然是针对生物医学领域的，但其实也都是和推荐系统相关的任务：

期刊推荐：输入：论文标题中的专业术语，与文章相关的关键字（基因或蛋白质），现在的年份。输出：推荐的期刊及其排名。该任务有助于预印本论文发表。
引文推荐：输入与期刊推荐的输入相同。输出：推荐的论文及其排名。该任务有助于预印本论文发表。
专家发现：输入与期刊推荐的输入相同。输出推荐的专家及其排名。该任务有助于发现合适的审稿人或者新的合作者。
基因推荐：输入作者以及年份，输出推荐的基因及其排名。这项任务类似于预测该作者未来的研究兴趣。

为了方便，下文仅对期刊推荐进行介绍。

如何解决的？数据和方法。

作者使用了两个数据集，分别是果蝇和酵母素的两个数据集。数据集中的实体类型非常有限，大致情况如论文中给出的两幅图：

【论文笔记】知识图谱推理PRA——Relational retrieval using a combination of path-constrained random walks

其实这里已经可以看到知识图谱本体构建的影子了。

酵母素数据的本体相对于果蝇数据的本体多了一个蛋白质的本体。

这些数据要怎么用？为什么要抽取出这样的数据？
结合前面的任务描述，文章其实是希望能够运用图上的游走方法来达到推荐的效果。例如，对于期刊推荐任务，任务有许多的本体起始点（Title Word，gene，protein，Year等）。然后通过在知识图谱上的游走最终停留在类型为”journal”的实体上，停留概率最大的即为推荐的期刊。

有了以上大体的方法框架，那么接下来的问题就在于如何设计出合理的游走方法。传统的方法有Page-rank等：随机游走算法

; Path-Ranking Algorithm(PRA)

算法出发点

传统的重启随机游走算法为每一个类型的边设置了各自的转移概率，但作者认为这种方法忽略了上下文的影响，作者举了个例子：
在引文推荐任务中，假定以”year” y 为起点寻找推荐的引文，可能会得到以下两种情况的推荐：
1）查找在y年发表的论文
2）查找y年发表的论文经常引用的论文

第一种情况推荐的是，year → P u b l i s h e d I n − 1 → \rightarrow PublishedIn^{-1} \rightarrow →P u b l i s h e d I n −1 → paper
第二种情况推荐的是，year → P u b l i s h e d I n − 1 → \rightarrow PublishedIn^{-1} \rightarrow →P u b l i s h e d I n −1 → paper → C i t e → \rightarrow Cite \rightarrow →C i t e → paper

直觉上来说第二种情况得到的推荐比第一种情况得到的推荐更合适。也就是说对于推荐而言，可能某种路径下得到的推荐是更为合适的？因此应该为不同的路径设置不同的转移概率？

算法描述

符号定义

文章首先定义了一些概念，论文中的描述比较严谨，这里为了便于理解，画图示例：
以year → P u b l i s h e d I n − 1 → \rightarrow PublishedIn^{-1} \rightarrow →P u b l i s h e d I n −1 → paper为例：

绿色圈表示year的集合（虽然输入年份一般只有一个？）
蓝色圈表示paper的集合
大圈中的小圈表示实例

对于一个关系R（这里的实例是Published_In的反关系）
关系R关联的头实体集合表示为Dom®
关系R关联的尾实体集合表示为Range®
橙框中的R(e,e`)表示实例e能够通过R关系到达实例e’

如果这些概念扩展到关系路径概念P = R 1 R 2 . . . R l P=R_1R_2…R_l P =R 1 R 2 …R l ，结果也是一样的，这里只给出两步关系路径的示意图：

注意：这里的路径指的是关系路径，并不是图论中的路径。

; 游走计算

对于路径P = R 1 R 2 . . . R l P=R_1R_2…R_l P =R 1 R 2 …R l 和查询实体集合(前文提到的输入)E q ⊂ D o m ( P ) E_q\subset Dom(P)E q ⊂D o m (P )，我们希望能够通过查询实体的游走推荐出目标实体，因此需要给出游走到各个实体停留的分布，分布计算方法如下：

令P = R 1 R 2 . . . R l P=R_1R_2…R_l P =R 1 R 2 …R l ，P ′ = R 1 R 2 . . . R l − 1 P’=R_1R_2…R_{l-1}P ′=R 1 R 2 …R l −1 ，则在当前节点停留的值为：

其中函数I ( ) I()I ()是一个激活函数，即若R l ( e ′ , e ) R_l(e’,e)R l (e ′,e )为真，函数值为1，否则为0（我怎么感觉这个函数有一点多余？）。

可以看到，这个分布的计算是由迭代得到的，也就是求长度为l l l的路径的分布需要先得到长度为l − 1 l-1 l −1的路径值分布。那么初始时的路径长度为0的情况下，分布也需要定义：

实例计算

直接看公式会让人很头疼，这里举个简单的实例来执行公式，还以year → P u b l i s h e d I n − 1 → \rightarrow PublishedIn^{-1} \rightarrow →P u b l i s h e d I n −1 → paper → C i t e → \rightarrow Cite \rightarrow →C i t e → paper为例：

我们从输入year开始，由于E q E_q E q 只有一个实体，因此输入查询年份节点的分配值为1，假设该年份出版查询到了3篇论文，每个论文节点根据公式分配到了1/3的分配值。再按照cite这条路径走下去，我们发现计算变得稍微复杂一些，我们对每个节点分别计算：
a：前驱节点e’有三个，前驱节点的分配值都是1/3，第一个节点引用了两篇文章，第二个节点和第三个节点分别引用了四篇文章，因此a节点得到分配值：
1/3 _1/2+1/3_1/4+1/3*1/4=4/12

b:两个前驱节点，前驱节点的分配值都是1/3，分别引用了四篇文章，b分配值为：
1/3 _1/4+1/3_1/4=2/12

c:1/3 _1/4=1/12
d:1/3_1/2+1/3 _1/4=3/12
e:1/3_1/4=1/12
f:1/3*1/4=1/12

计算到这里我惊讶的发现，这和资源分配算法是一样的。

; 如何利用PRA游走得到的分配值

如果只是计算到这里，我们发现中间一圈的三个节点的分配值是比右边一圈的几个节点的分配值都高的，这并没有得到作者提出的直觉上的更好的结果。事实上，作者一直关注的是使各个路径拥有不同的权重，因此作者希望能够将这些分配值作为特征，然后通过监督学习的方法训练得到路径的权重。作者设定了以下的得分函数：

矩阵形式：

由于查询节点到达目标节点的路径非常多（尤其可能存在圈？）因此作者将关系路径长度设定最长为４，并且通过写入规则移除了一些无意义的路径：

实验结果

这里略过优化的过程

参数影响

作者探索了路径长度和训练数据的batch_size对结果的影响：

同时作者输出了参数来观察各个路径最后训练的权重：

这个结果能够验证很多的猜想，并且能够根据结果判断可靠的路径。

; 结语

这篇文章虽然相对较早，但是其基于路径推理的思想却是值得借鉴的。尤其是给出推理的路径结果的实验方案是非常值得借鉴的。算是知识图谱路径推理的早期作品了，后续还有很多工作基于这篇文章进行。

第一次写论文笔记，中间有什么地方理解的不对的，欢迎大家批评指正！

Original: https://blog.csdn.net/m0_37427515/article/details/114588222
Author: 我的手机半斤重
Title: 【论文笔记】知识图谱推理PRA——Relational retrieval using a combination of path-constrained random walks

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/555710/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

机器学习笔记 – 拆分学习和拆分神经网络(SplitNN)

SplitNN 是一种分布式和私有的深度学习技术，可以在多个数据源上训练深度神经网络，而无需直接共享原始标记数据。通常需要构建深度学习应用程序，这需要大量数据，但这些数据可能来自…

人工智能 2023年6月25日
0059
LSTM原理理解与学习

基本原理 LSTM，长短期记忆 RNN，是 RNN 的变体，优点在于能学习长期依赖的信息，相当于有记忆功能。 LSTM 的关键就是细胞状态（cell state），水平线在图上方…

人工智能 2023年7月14日
0058
TensorFlow的批量训练和随机训练有何区别

问题：关于TensorFlow的批量训练和随机训练有何区别？介绍在机器学习中，批量训练（Batch Training）和随机训练（Stochastic Training）是两种…

人工智能 2023年12月30日
0033
python处理数据0和负数跳过_python怎么在excel中快速筛选出同一列数据中正负相抵为0的数 – 收获啦…

求赞—-求关注 python筛选excel某一列中相同的数据需要cmd下载pipinstallpandas 的模板 2.注意文件的路径问题不要出错 3.还有文件的编码格…

人工智能 2023年7月9日
0062
OpenCV图像几何变换专题(缩放、翻转、仿射变换及透视)【python-Open_CV系列（五）】

OpenCV图像几何变换专题(缩放、翻转、仿射变换及透视)(python为工具) 【Open_CV系列（五）】文章目录准备图片 1. 缩放 cv2.resize()方法 2. …

人工智能 2023年6月23日
0074
机器学习（4）——弱监督学习

什么是弱监督学习？监督学习技术通过学习大量标记的训练样本来构建预测模型，在很多领域获得了巨大成功。但由于数据标注的本身往往需要很高成本，在很多任务上都很难获得全部真值标签这样比较…

人工智能 2023年6月15日
0087
10x单细胞数据分析之Seurat多样品整合分析

上一篇10x单细胞数据分析我们介绍了如何用Seurat对单细胞数据进行分群分析，这一篇我们介绍一下多个单细胞样品的分析方法。测试数据选择Seurat提供的ifnb数据集，其中包含…

人工智能 2023年7月15日
0081
20220302显著性算法：Itti

0 说明本篇文章主要了解了Itti显著性检测算法，并阅读相关的代码，最后在SAR图像上进行实验和测试。原理部分本文主要参考了：https://blog.csdn.net/weix…

人工智能 2023年7月10日
0062
计算机视觉项目实战-驾驶员疲劳检测

😊😊😊 欢迎来到本博客😊😊😊本次博客内容将继续讲解关于OpenCV的相关知识🎉 作者简介：⭐️⭐️⭐️ 目前计算机研究生在读。主要研究方向是人工智能和群智能算法方向。目前熟悉深度学…

人工智能 2023年5月30日
0066
【流行前沿】QSFL: A Two-Level Uplink Communication Optimization Framework for Federated Learning

今天分享一篇研究模型细粒度传输的联邦学习文章，作者Liping Yi来自于南开大学，发表在ICML 2022。故事的起源还是来自于深度网络越来越大，导致上行链路达到了TB级别，这…

人工智能 2023年6月4日
0052
时序模型：循环神经网络（RNN）

1. 模型定义循环神经网络（recurrent neural network, RNN）是一类专门设计处理不定长序列数据的神经网络。与使用一种新计算1作为核心的卷积神经网络不…

人工智能 2023年7月12日
00115
集成学习01_介绍

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月29日
0071
【Opencv】基于vscode python的Opencv环境搭建所遇问题及解决方法

pip-22.0.4.tar的解压后的安装操作 cv2中的文件测试代码的修正 pip-22.0.4.tar的解压后的安装操作 pip-22.0.4组件下载解压后，须在下图中的地址…

人工智能 2023年6月19日
0066
python中unstack_python – AssertionError：当unstack()数据帧时,blk ref_locs中的间隙

我试图在Pandas数据帧中取消堆栈()数据,但我不断收到此错误,我不知道为什么.到目前为止,我的代码是我的数据样本.我尝试修复它的方法是删除所有的行,其中voteId不是数字,这…

人工智能 2023年7月8日
0067
【详细】Ubuntu18.04更新CUDA版本（以安装CUDA11.4为例）

CUDA安装官方教程：官方教程cuDNN安装官方教程：官方教程在配置Pytorch环境的时候，想着尝试一下新版本的pytorch版本Stable(1.10.1)时，发现这个pyt…

人工智能 2023年7月21日
0074
YOLOV7开源代码讲解–训练参数解释

目录训练参数说明： –weights: — cfg: –data: –hpy: –epoch: –batc…

人工智能 2023年6月22日
0075

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30