【论文笔记】KGAT: Knowledge Graph Attention Network for Recommendation

2023年6月1日上午9:04 • 人工智能 • 阅读 90

原文作者：Xiang Wang，Xiangnan He，Yixin Cao，Meng Liu，Tat-Seng Chua

原文标题：KGAT: Knowledge Graph Attention Network for Recommendation

原文来源：KDD 2019

原文链接：https://arxiv.org/abs/1905.07854

本文提出了一种新的推荐方法KGAT，能够根据实体间的高阶关系特征建模，并具有一定的可解释性。以端到端方式对KG的高阶连通性进行了显式建模。递归地从节点的邻居(可以是用户、项目或属性)传播嵌入，并使用注意机制来区分邻居的重要性。

KGAT: Knowledge Graph Attention Network for Recommendation

问题定义

1）Collaborative Knowledge Graph(CKG)

作者首先建立一个item-entity对齐集合A = { ( i , e ) ∣ i ∈ I , e ∈ E } \mathcal{A = {(}i,e) \mid i \in I,e\mathcal{\in E}}A ={(i ,e )∣i ∈I ,e ∈E }，其中( i , e ) (i,e)(i ,e )表示item在KG中与一个实体对齐。CKG将用户行为和item知识编码为统一的关系图谱。用户行为表示为三元组( u , Interact , i ) \left( u,\text{Interact},i \right)(u ,Interact ,i )，y ui = 1 y_{\text{ui}} = 1 y ui =1表示用户和item之间有一个额外的关系Interact \text{Interact}Interact。那么整个知识图谱为：G = { ( h , r , t ) ∣ h , t ∈ E ′ , r ∈ R ′ } , E ′ = E ∪ U ， R ′ = R ∪ Interact \mathcal{G =}\left{ \left( h,r,t \right) \mid h,t \in \mathcal{E}^{‘},r \in \right.\ \left. \ \mathcal{R}^{‘} \right},\mathcal{E}^{‘}\mathcal{= E \cup U}，\mathcal{R}^{‘}\mathcal{= R \cup}\text{Interact}G ={(h ,r ,t )∣h ,t ∈E ′,r ∈R ′},E ′=E ∪U ，R ′=R ∪Interact。

2）任务描述

输入CKG，包括user-item二分图，知识图谱。

输出能够预测用户u与item i交互的概率y ^ ui {\widehat{y}}_{\text{ui}}y ui 的预测函数。

3）高阶连通性

作者认为探索高阶连通性对于高质量的推荐是必不可少的。节点间的高阶连通性定义为多跳的关系路径：e 0 ⟶ r 1 e 1 ⟶ r 2 ⋯ ⟶ r L e L e_{0}\overset{r_{1}}{\longrightarrow}e_{1}\overset{r_{2}}{\longrightarrow}\cdots\overset{r_{L}}{\longrightarrow}e_{L}e 0 ⟶r 1 e 1 ⟶r 2 ⋯⟶r L e L 。( e l − 1 , r l , e l ) \left( e_{l – 1},r_{l},e_{l} \right)(e l −1 ,r l ,e l )是第l l l个三元组，L是序列长度。类似于协同过滤和监督学习方法都没有充分探索高阶连通性。

模型架构

【论文笔记】KGAT: Knowledge Graph Attention Network for Recommendation

如图2所示，整个模型有三个主要部分：

嵌入层。在保持CKG的结构下，将每个节点表示为一个向量。
注意力嵌入传播层。递归传播嵌入给邻居，以此更新节点的表示。并使用知识感知注意力机制学习每个邻居的权重。
预测层。将user和item的表示聚合，并输出预测分数。

; embedding layer

使用TransR模型嵌入知识图谱：

g ( h , r , t ) = ∥ W r e h + e r − W r e t ∥ 2 2 g(h,r,t) = \left. \parallel\mathbf{W}{r}\mathbf{e}{h} + \mathbf{e}{r} – \mathbf{W}{r}\mathbf{e}{t} \right.\parallel{2}^{2}g (h ,r ,t )=∥W r e h +e r −W r e t ∥2 2

注意力嵌入传播层

每一个注意力层分为三个部分：信息传播、注意力、信息聚合。

信息传播：由于实体可能在不同的三元组中，可以作为桥梁将三元组连接并传播信息。对于实体h，其自我网络(ego-network)表示为N h = { ( h , r , t ) ∣ ( h , r , t ) ∈ G } \mathcal{N}_{h} = {(h,r,t) \mid (h,r,t) \in \mathcal{G}}N h ={(h ,r ,t )∣(h ,r ,t )∈G }。计算h的自我网络的线性组合：

e N h = ∑ ( h , r , t ) ∈ N h π ( h , r , t ) e t \mathbf{e}{\mathcal{N}{h}} = \sum_{(h,r,t) \in \mathcal{N}{h}}^{}\pi(h,r,t)\mathbf{e}{t}e N h =(h ,r ,t )∈N h ∑π(h ,r ,t )e t

这一步是传递所有以h为头的三元组的尾实体的信息。表示了在关系r下，有多少信息从t传播到h(h是网络的中心)。

注意力：使用注意力机制计算π ( h , r , t ) \pi(h,r,t)π(h ,r ,t )。注意力得分取决于在关系空间中头实体与尾实体之间的距离，也就是说距离更近的实体传播更多的信息。

π ( h , r , t ) = ( W r e t ) ⊤ tanh ⁡ ( ( W r e h + e r ) ) \pi(h,r,t) = \left( \mathbf{W}{r}\mathbf{e}{t} \right)^{\top}\tanh\left( \left( \mathbf{W}{r}\mathbf{e}{h} + \mathbf{e}_{r} \right) \right)π(h ,r ,t )=(W r e t )⊤tanh ((W r e h +e r ))

这里基于TransR，如果三元组关系能满足e h r + e r ≈ e t r \mathbf{e}{h}^{r} + \mathbf{e}{r} \approx \mathbf{e}{t}^{r}e h r +e r ≈e t r ，那么( W r e h + e r ) \left( \mathbf{W}{r}\mathbf{e}{h} + \mathbf{e}{r} \right)(W r e h +e r )和( W r e t ) ⊤ \left( \mathbf{W}{r}\mathbf{e}{t} \right)^{\top}(W r e t )⊤的相似度越高，内积越大，则权重越大。

然后使用softmax函数进行归一化。最终的注意力分数表明哪个邻居节点应该给予更多的注意力。

信息聚合：将实体的表示和其自我网络的表示聚合为一个新向量e h ( 1 ) = f ( e h , e N h ) \mathbf{e}{h}^{(1)} = f\left( \mathbf{e}{h},\mathbf{e}{\mathcal{N}{h}} \right)e h (1 )=f (e h ,e N h )。有三种方式实现：GCN Aggregator、GraphSage Aggregator、Bi-Interaction。

类似于multi-head，通过增加层数探索高阶连通信息。重复上述三个步骤多次，当前第l l l次有：

e h ( l ) = f ( e h ( l − 1 ) , e N h ( l − 1 ) ) , e h ( l − 1 ) = ∑ ( h , r , t ) ∈ N h π ( h , r , t ) e t ( l − 1 ) e_{h}^{(l)} = f\left( e_{h}^{(l – 1)},e_{N_{h}}^{(l – 1)} \right),e_{h}^{(l – 1)} = \sum_{(h,r,t) \in N_{h}}^{}\pi(h,r,t)e_{t}^{(l – 1)}e h (l )=f (e h (l −1 ),e N h (l −1 )),e h (l −1 )=(h ,r ,t )∈N h ∑π(h ,r ,t )e t (l −1 )

模型预测层

经过上述两层，得到了用户u和item i的多个表示：{ e u ( 1 ) , ⋯ , e u ( L ) } \left{ \mathbf{e}{u}^{(1)},\cdots,\mathbf{e}{u}^{(L)} \right}{e u (1 ),⋯,e u (L )}，{ e i ( 1 ) , ⋯ , e i ( L ) } \left{ \mathbf{e}{i}^{(1)},\cdots,\mathbf{e}{i}^{(L)} \right}{e i (1 ),⋯,e i (L )}。不同层的输出强调不同阶的连通性信息。然后将u和i的向量拼接起来：

e u ∗ = e u ( 0 ) ∥ ⋯ ∥ e u ( L ) , e i ∗ = e i ( 0 ) ∥ ⋯ ∥ e i ( L ) e_{u}^{} = e_{u}^{(0)} \parallel \cdots \parallel e_{u}^{(L)},e_{i}^{} = e_{i}^{(0)} \parallel \cdots \parallel e_{i}^{(L)}e u ∗=e u (0 )∥⋯∥e u (L ),e i ∗=e i (0 )∥⋯∥e i (L )

通过执行嵌入传播操作来丰富初始嵌入，还可以通过调整l来控制传播的强度。最终的预测得分：

y ^ ( u , i ) = e u ∗ ⊤ e i ∗ \widehat{y}(u,i) = \mathbf{e}_{u}^{\top}\mathbf{e}_{i}^{}y (u ,i )=e u ∗⊤e i ∗

训练

损失函数为CF对应pair-wise的loss+图谱loss+参数正则loss。

L KGAT = L KG + L CF + λ ∥ Θ ∥ 2 2 \mathcal{L}{\text{KGAT}} = \mathcal{L}{\text{KG}} + \mathcal{L}{\text{CF}} + \lambda \parallel \Theta \parallel{2}^{2}L KGAT =L KG +L CF +λ∥Θ∥2 2

使用mini-batch Adam交替训练L KG \mathcal{L}{\text{KG}}L KG 与L CF \mathcal{L}{\text{CF}}L CF 。

实验

选择的数据集有：Amazon-book、Last-FM、Yelp2018。其主要信息如下表所示。

实验结果如表二所示。

KGAT在所有数据集上性能表现都是最优的。KGAT通过叠加多个注意力嵌入传播层，能够显式地探索高阶连通性，从而有效地捕获协同信号。验证了捕获协同信号对知识传递的意义。

作者还进行了关于稀疏交互的实验，研究连通性信息能否缓解稀疏问题。结果如图3所示。

可以看到，KGAT在绝大多数情况下，表现都比其他模型要好。尤其是在Amazon-Book和Yelp2018两个最稀疏的用户群体上。再次验证了高阶连通性建模的重要性。而在一些比较稠密的交互数据上，KGAT可能表现稍差一点，原因是稠密的交互数据中会有一些用户偏好noise。

对模型深度的研究发现，在三层注意力传播嵌入层时模型效果更好，说明实体之间的三阶关系就足以捕获协作信号。

对于KGE和Attention的影响，作者发现attention比KGE更有效，原因可能是KGE对所有邻居实体一视同仁，可能产生noises。

另外连通性路径也为推荐的可解释性提供了很好的证据。

; 总结

这篇文章将注意力机制引入推荐系统。基于TransR模型，先将知识图谱嵌入，得到实体和关系的向量表示；然后对所有头实体，利用注意力机制，计算邻居实体(三元组中的尾实体)传播给该实体的信息量，注意力得分越高，则传播的信息就越多，在使用聚合器将实体嵌入向量和其他实体传递给该实体的信息聚合，得到某阶下实体的丰富表示(这里的阶应该是图谱中的跳数)。

最后，将各层得到的向量拼接起来，使用内积得到user和item交互的评分。

关于论文第五页的高阶连通性暂时不理解。参考：

https://github.com/xiangwang1223/knowledge_graph_attention_network/issues/2

这篇文章的缺点？不足？

Original: https://blog.csdn.net/BodyCsoulN/article/details/121496510
Author: BodyCsoulN
Title: 【论文笔记】KGAT: Knowledge Graph Attention Network for Recommendation

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/555993/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

VMware导入vmdk格式的文件踩了一堆坑~~~

嗨喽! 大家好，我是”流水不争先，争得滔滔不绝”的翀，18双非本科生一枚，正在努力！欢迎大家来交流学习，一起学习数据分析，希望我们一起好好学习，天天向上，目…

人工智能 2023年6月19日
00285
ONNXRUNTIME_EXCEPTION : Non-zero status code returned while running Where node. Name:‘Where‘

遇到此类错误，如： onnxruntime.capi.onnxruntime_pybind11_state.InvalidArgument: [ONNXRuntimeError] …

人工智能 2023年7月13日
0050
ChatterBot+第三方中文语料库实现在线聊天机器人

设计并实现一个在线聊天机器人案例 1、ChatterBot ChatterBot是Python自带的基于机器学习的语音对话引擎，可以基于已知的对话库来产生回应。ChatterBot…

人工智能 2023年5月28日
0089
教育平台的线上课程智能推荐策略

题目来自:http://www.tipdm.org 一、背景近年来，随着互联网与通信技术的高速发展，学习资源的建设与共享呈现出新的发展趋势，各种网课、慕课、直播课等层出不穷，各种…

人工智能 2023年6月11日
0079
BP神经网络学习总结

目录 0前言 1 神经网络 2 BP神经网络 3正向传播 4 反向传播 4.1损失函数和代价函数 4.2 梯度下降法 4.3 反向传播 5 编程思路 6 应用 6.1 应用1-是猫…

人工智能 2023年7月13日
0071
PyTorch中的反向传播算法是如何实现的

问题描述在PyTorch中，反向传播是一个关键的算法，它用于计算神经网络中权重的梯度。请详细解释PyTorch中的反向传播算法是如何实现的，包括算法原理、公式推导、计算步骤以及使…

人工智能 2024年1月3日
0048
聚类案例分析全流程汇总

一、案例说明 1.案例背景研究调查10名运动员的3项测试数据，其中三项分别是：肩宽/髋宽×100、胸厚/胸围×100、腿长/身长×100。其中编号为4、6、8、9的4名运动员分别…

人工智能 2023年5月31日
0077
pointnet语义分割_训练并预测自己的数据

这几天想用深度学习做一下点云的分割试验，网上搜了一下相关标题的blog有很多，但大部分只是简单的介绍文章内容，说明具体操作流程的干货并不多。在缺乏相关资料和帮助的情况下，本人大致搞…

人工智能 2023年5月23日
00110
逻辑回归、Softmax回归 — 鸢尾花分类

目录 1.逻辑回归一些回归算法也可用于分类。逻辑回归（Logistic回归，也称为Logit回归）被广泛用于估算一个实例属于某个特定类别的概率。比如，这封电子邮件属于垃圾邮件的…

人工智能 2023年6月15日
0074
二、Go基础语法

Go基础语法 1、行分隔符代码示例 package main import "fmt" func main() { fmt.Println("Hel…

人工智能 2023年6月28日
0077
【Python机器学习项目】项目一：心脏病二分类问题

使用机器学习预测心脏病根据一些病理学属性预测心脏病特别说明：开新坑啦！本系列共2个项目，难度不大，特别适合新手入坑由于本项目只是系列课程的第一个项目，所以很多细节不深挖，仅…

人工智能 2023年7月2日
00112
华为机试题 24点

1、描述 2、解题思路暴力法穷举所有的可能的组合（题目只需找到任意满足24点的式子即可）。 4 x 4 x 3 x 4 x 2 x 4 x 1= 256 x 6 = 1536 (…

人工智能 2023年6月4日
0084
基于PaddleOCR的DBNet多分类文本检测网络

目录目的模型网络结构对比代码实现 1、数据集格式 2、配置文件调整 3、数据预处理 4、模型代码调整 5、添加多分类loss 6、修改db_postprocess.py 7、…

人工智能 2023年6月30日
0067
在语音合成中，如何使生成的语音音质更加自然和流畅

问题描述在语音合成中，如何使生成的语音音质更加自然和流畅？介绍语音合成是将文本转换为自然语音的过程。生成的语音质量直接影响用户体验。为了使生成的语音更加自然和流畅，我们需要考…

人工智能 2024年1月3日
0042
Python，OpenCV中的K均值聚类——K-Means Cluster

Python，OpenCV中的K均值聚类 * – 1. 效果图 – 2. 原理 – + 2.1 什么是K均值聚类？ + 2.2 K均值聚类过程 …

人工智能 2023年6月2日
0074
ivx杨帆启航React/Pixi.js/FaaS、Krpano及微服务架构

随着社会的变化，产业的进化，编程也开始了他的变化。从最开始的二进制编码语言->低级程序语言，到现在的高级编程语言以及现在慢慢探索超高级高级语言【程序可视化，可视化编程，让编程…

人工智能 2023年5月30日
0099

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31