知识图谱遇上推荐系统——RippleNet

2023年6月1日下午8:13 • 人工智能 • 阅读 83

主要参考论文：《RippleNet: Propagating User Preferences on the Knowledge Graph for Recommender Systems》

副信息

众所周知，基于协同过滤的推荐算法存在数据稀疏（the sparsity of user-item interactions）和冷启动问题（the cold start problem）。

为了缓解这些问题，可以使用副信息辅助推荐系统实现更好的效果。常用的副信息有社交信息（social networks）、用户/物品属性（user/item attributes）、图片（images）等

此外，还有一种包含丰富物品信息的副信息是知识图谱。知识图谱是一类有向异构图，其节点对应实体（entity），边对应实体间的关系（relation）。推荐系统中的物品可以链接到知识图谱中，以获取物品间的事实和联系。如下图所示，如果将电影链接到知识图谱中的相应实体（即图中的《Cast Away》、《Interstellar》等），我们就可以得到电影间的联系。以《Back to the Future》和《Forrest Gump》为例，由知识图谱可知，二者有共同的导演”Robert Zemeckis”。

; 基于知识图谱的推荐（KG-based recommendation）

知识图谱带来的优势

如上面的描述，知识图谱可以发现两个物品间的潜在联系
知识图谱有许多种关系，我们可以合理地扩展用户的兴趣，提升推荐多样性。依然以上图为例，用户观看了电影《Cast Away》，我们可以根据这部电影的类型”Adventure”给他推荐《Interstellar》和《Raiders of the Lost Ark》；也可以根据这部电影的演员”Tom Hanks”给他推荐《Forrest Gump》
知识图谱可以为推荐提供可解释性

现有基于知识图谱的推荐算法分类及不足

（1）基于嵌入的方法（embedding-based methods）
即通过知识图谱嵌入（KGE）算法（如TransE等）学习实体嵌入，然后将这些嵌入用于后续推荐任务。实际上这也是大家常说的依次训练，换句话说，实体嵌入的学习和推荐模型的学习是依次进行的。

但KGE方法更适合解决图上的问题，如链接预测任务，其与实际的推荐场景并没有融合在一起。

（2）基于路径的方法（path-based methods）
常见的是人工设置一些元路径指导知识图谱进行推荐。但这种方式太依赖人工设计的元路径；而且在部分推荐场景下，实体和关系没有在同一个域，是不能设计元路径的，如新闻推荐（一则新闻会对应多个实体，元路径是设计不了的）。

针对上面的不足，RippleNet：1）将实体嵌入的学习融入到推荐任务中，即常说的联合学习；2）可以自动地根据用户历史记录中的物品发现到达候选物品的可能路径，无需人工设计。

RippleNet

整体任务

RippleNet的输入是一个用户-物品对，输出是用户点击/浏览/购买该物品的概率，对概率排序即可为用户生成个性化推荐列表。

; Ripple Set

先直观地理解Ripple Set。Ripple就是波纹、涟漪的意思，RippleNet将用户历史记录中的物品所链接的实体作为seeds（可以理解为激起水花的石子），由seeds不断地向外扩散，得到它们的一阶邻居的集合，称为一阶Ripple Set（实际上存储的是（ h ， r ， t ）（h，r，t）（h ，r ，t ）三元组），继续扩散得到二级Ripple Set、三阶…类似水面上的一圈圈波纹，RippleNet以此得名。

RippleNet的内部结构

（1）输入用户u u u得到其兴趣集合V u V_u V u （实际上是用户历史记录中物品链接的实体集合）；输入物品v v v得到物品嵌入，该嵌入根据应用场景，可以为独热编码ID、属性等。

（2）计算Ripple Set中头节点（seeds）h i h_i h i 与物品v v v在关系R i R_i R i 下的相关性p i p_i p i 。
知识图谱遇上推荐系统——RippleNet

（3）根据上一步计算的相关性p i p_i p i ，对尾节点（seeds的一阶邻居）的嵌入进行加权求和，得到一阶Ripple Set中的用户偏好（一阶用户画像）。后面的对更高阶的Ripple Set操作基本一致，最终得到每阶的用户偏好。

（4）将各阶的用户偏好加起来得到最终的用户偏好（用户画像）。

（5）最后将用户偏好和物品嵌入内积，经过一个s i g m o i d sigmoid s i g m o i d函数得到概率。

; 损失函数（loss function）

其中第一项是交叉熵，用于推荐任务（CTR预估）；第二项是张量分解，用来学习知识图谱的实体和关系嵌入；第三项是正则化项。可以看出RippleNet中推荐任务和知识图谱的嵌入学习任务是联合训练的。

可解释性

假设用户点击了下图中的新闻1~4，这些新闻链接的实体为蓝色字体。将这些实体作为seeds，得到Ripple Set。以”Navy SEAL”为例，计算”Navy SEAL”与其一阶Ripple Set中”Special Forces”和”U.S.”的相关性，然后再计算”Special Forces”和”U.S.”与其下一阶实体的相关性，类比地，最终得到各实体间的相关性（大小由颜色深浅和数字体现）。

可以看出seeds和候选新闻对应的实体有多条路径，如”Navy SEAL–>U.S.–>Donald Trump”。相关性很高的路径就为其提供了可解释性的依据，如图中的”Navy SEAL–>U.S.–>Donald Trump”和”Navy SEAL–>Special Forces–>Gun–>Police”相关性很高，那么就成为最后的解释依据。而且这种路径是不需要人工定义。

; 论文链接

《RippleNet: Propagating User Preferences on the Knowledge Graph for Recommender Systems》

Original: https://blog.csdn.net/beilizhang/article/details/109031433
Author: cqu_shuai
Title: 知识图谱遇上推荐系统——RippleNet

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/558353/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pytorch使用早停策略

文章目录早停的目的与流程早停策略 pytorch使用示例参考网站早停的目的与流程目的：防止模型过拟合，由于深度学习模型可以无限迭代下去，因此希望在即将过拟合时、或训练效果…

人工智能 2023年7月24日
0081
windows10上conda安装pytorch+transformers

conda create -n myPytorch python=3.7 CUDA 11.3 conda install pytorch torchvision torchaudi…

人工智能 2023年7月22日
0070
OpenCV在图片上画线和矩形

今天讲一下通过opencv的Line函数，在图像中绘制一条我们想要的直线或者线段，以及使用Rectangle函数绘制矩形； CV_RGB 创建一个色彩值. #define CV_R…

人工智能 2023年7月19日
0071
什么是FDR校正，核磁共振成像中FDR校正方法有哪些？如何进行FDR校正？

FDR校正背景多重比较校正 FDR校正 * 基本思想 FDR 校正 FDR 调整例子脑科学中的FDR校正的例子如何在 R 中进行 FDR 校正？如何在 Matlab 中…

人工智能 2023年6月20日
0080
Python-OpenCV对图像的遍历操作示例代码

Python-OpenCV对图像像素的遍历操作示例如果您想了解OpenCV-C++是如何遍历图像像图的，那么可以参看下面这个页面：https://www.hhai.cc/thre…

人工智能 2023年7月18日
0065
OpenCvSharp (C# OpenCV) 指针方法读取和修改图像像素值(附源码)

导读本文主要介绍如何在OpenCvSharp4中使用指针方法读取和修改图像像素值。详细介绍 At方法读取图像像素值方法请参考下面文章，At方法速度较慢，建议使用指针方法。 C#…

人工智能 2023年5月26日
00192
【python数据分析】数据如何进行合并

数据的合并在拥有了数据基本筛选能力后，我们还要有更加nb的操作，接下来就学习如何利用Pandas合并多个DataFrame数据，以及筛选我们心仪的数据。在数据合并里面主要讲两个函…

人工智能 2023年7月6日
0083
xml的学习和使用python解析读取xml文件

XML的介绍 XML 指可扩展标记语言（EXtensible Markup Language）。和json类似也是用于存储和传输数据，还可以用作配置文件。类似于HTML超文本标…

人工智能 2023年7月5日
0051
变量之间的相关性研究

目录 * – 1 什么是相关性？ – + 协方差及协方差矩阵 + 相关系数 + （1）简单相关分析 + （2）偏相关分析 + （3）复相关分析 + （4）典…

人工智能 2023年7月16日
0069
一文速学-Pandas处理重复值操作各类方法详解+代码展示

一、duplicated() 二、drop_duplicates() 使用Pandas进行数据预处理时需要了解Pandas的基础数据结构Series和DataFrame。若是还不清…

人工智能 2023年7月7日
0059
citespace如何导出图片_如何用CiteSpace和AlluvialGenerator做Alluvial Flow

如何用CiteSpace和AlluvialGenerator做Alluvial Flow CiteSpace常见问题系列数据分析过程本例的数据是Web of Science上引…

人工智能 2023年6月1日
00279
Jetson nx（Jetpack4.6版本）保姆级教程安装安装d435i-SDK流程踩坑，以及安装realsense与code_utils与imu_utils并标定imu内参附上测试demo

不知道啥时候自己能买得起这个相机，拍照留个纪念。 NVIDIA Jetson installation (intelrealsense.com) 固件跟新地址Firmware Up…

人工智能 2023年6月25日
00104
【踩坑记录】Slam-Gmapping建图失败–已解决

目录【场景】仿真小车在Gazebo上进行Gmapping 步骤：问题：【填坑过程】【知识储备】【解决办法】【修改尝试-0】【结论-0】odom由一个发布者发布【修改…

人工智能 2023年6月24日
00112
Python Pandas merge 连接参数详解数据合并数据拼接

; pd.merge 根据一个或多个键将 两个DataFrame 进行 行 连接（横向 / 左右连接），类似于SQ…

人工智能 2023年7月7日
0097
中文停用词文档_停用词(Stop Words)的价值、收集与使用

摘要：停用词(Stop Words)是自然语言处理领域的一个重要工具，通常被用来提升文本特征的质量，或者降低文本特征的维度。这里简单介绍了停用词的起源和定义，并用信息检索和主题建模…

人工智能 2023年6月1日
0075
如何选择适当的步幅（Stride）大小

选择适当的步幅大小步幅（Stride）是指在进行数据处理或算法运算时，每次迭代或移动的距离。在很多机器学习和深度学习的任务中，步幅大小的选择对于模型的性能和计算效率都有很大的影响…

人工智能 2024年1月1日
0063

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31