#Paper Reading#Contrastive Learning for Representation Degeneration Problem in Sequential Recommenda

2023年7月17日下午11:52 • 人工智能 • 阅读 53

论文题目：Contrastive Learning for Representation Degeneration Problem

in Sequential Recommendation（序列推荐：对比学习缓解表征退化问题）

论文地址：https://arxiv.org/pdf/2110.05730.pdf

论文发表网站：https://doi.org/10.1145/3488560.3498433

论文来源：WSDM ’22：第十五届 ACM 网络搜索和数据挖掘（顶会）

引言

1. 什么是序列推荐？

序列推荐（sequential recommendation）在推荐系统里是非常重要的任务， 它通过对用户（user）行为序列，比如购买商品（item）的序列（sequence）来建模，学到user 兴趣的变化，从而能够对用户下一个行为进行预测。 序列推荐的模型，随着整个CS research（计算机科学搜索）领域的发展，也是一直在不断变化。从最开始的 Markov chain，到后来的 RNN， CNN模型，以及现在流行的 transformer。每个时期的序列推荐模型，基本上也是对应着该时期用的比较多的NLP模型。

2. 对比学习

2.1 噪声对比估计（NCE）

对比学习是将正样本对拉近，将负样本对推开。具体来说，噪声对比估计 (NCE) 目标通常用于训练编码器（如下所示），其中x和x+是来自正样本分布ppos的样本对，x – 是从数据pdata中随机采样得到，τ \tau τ为温度系数。

#Paper Reading#Contrastive Learning for Representation Degeneration Problem in Sequential Recommenda

; 2.2 校准性（Alignment）和均匀性

NCE的损失是根据上式随机的进行增长或者减少。数学角度定义为在向量被归一化的假设下表示的校准性和均匀性，如下所示，其中ppos是正样本对的分布，pdata是独立样本的分布。最小化 lalign等价于使得正样本对更相近，最小化 luniform等价于使得这些样本均匀分布。

3. 为什么在表征学习模型训练过程中会出现”表征退化”问题？

首先，在进行梯度下降时候，目标项和非目标项都进行统一的训练，而不是具有指向性的训练，这就会导致原本表示准确的向量迭代时候产生偏差。其次，所训练的向量最后都在一个潜在的空间中表示，导致一些不相似的商品的embedding很集中。

4. 文章中的符号表示

商品集合表示为V，用户交互序列表示为s = [υ \upsilon υ1, υ \upsilon υ2, …, υ \upsilon υt]，模型的目标即根据序列信息预测在时间t+1时可能交互的商品。

一、DuoRec算法实现

1.1 序列编码作为用户表征

序列推荐的主要思想是整合用户历史的交互信息去预测用户的偏好，和SASRec思想一样，DuoRec的编码模块也是一个Transformer层，为了利用Transformer的编码能力，首先需要将商品转换为embedding，然后使用多头注意力机制模块去计算用户的表征。

1.1.1 Embedding层

文中将序列s = [υ \upsilon υ1, υ \upsilon υ2, …, υ \upsilon υt]中商品的embedding表示为s = [V1, V2, …, Vt]，同样为了保证顺序关系，加入了位置编码Pt，则可以将时间戳为t的商品的embedding表示为下式：

; 1.1.2 自注意力机制

在得到输入序列后，Transformer层运用多头注意力机制进行编码，将H0 = [h00, …, ht0]，经过L层的多头注意力层Trm后，可得到输出表征，表达为下式，最后在HL = [hL0, …, hLt]选出最后一个表征hLt作为序列的表征。

1.2 推荐学习

接下来的数据预测任务是在整个物品集合中进行分类任务。给定一个序列表示h和物品的向量表征矩阵V，预测分数计算公式如下所示：

将上述指标转换为one-hot向量y，计算该阶段交叉熵 lRec（第一部分交叉熵）损失为:

; 1.3 对比正则化

为了缓解表示退化问题，通过利用无监督和有监督的对比样本来开发对比正则化。

1.3.1 无监督增强

DuoRec 中的 无监督对比增强旨在为单个序列提供语义上有意义的增强。本文提出了模型级增强，在序列向量的计算中，embedding层和 Transformer 编码器中都有 Dropout 模块。 使用不同的 Dropout 掩码将输入序列前向传递两次将生成两个不同的向量，它们在语义上相似但具有不同的特征。 因此，本文中的输入序列无监督增强选择了不同的 Dropout 掩码，对编码器输入的embedding（式3）进行进一步运算，以获得h0’t，然后输入到编码器，通过不同的dropout掩码得到不同的输出，公式如下，经过编码后，同样采用最后一个表征h’来代表整体的序列表征：

; 1.3.2 有监督正采样

DuoRec 中的 监督对比增强旨在将语义相似序列之间的语义信息合并到对比正则化中。如果只应用无监督对比学习，原本语义相似的样本将被分类为负样本。因此，最重要的是确定哪些样本在语义上相似。

语义相似性
如果两个序列代表相同的用户偏好，那么很自然地推断出这两个序列包含相同的语义。因此，对于不同的序列si = [υ \upsilon υi,1, …,υ \upsilon υi,ti ]和sj = [υ \upsilon υj,1, …,υ \upsilon υj,tj ]，如果预测目标，即后一个商品υ \upsilon υi,ti和υ \upsilon υj,tj是一样的，则表明两个序列语义相似。
正采样
对于输入序列，数据集中存在具有相同目标商品的序列。从这些序列中随机抽取一个语义相似的序列ss。从而经过上述步骤得到其表征。

1.3.3 负采样

为了有效地为一对增强样本构建负样本，同一训练批次中的所有其他增强样本都被视为负样本。假设训练批次为β \beta β，其大小为|β \beta β|，增广后大小为2|β \beta β|，序列为S = {h’1, h’1,s, h2′, h’2,s, …, h’B, h’B,s}，即经过正采样后都会对应一个增广的embedding。对于每一个样本对（如，h’1和h’1,s），除了这两个样本对之外，其他的都看做是这有两个样本对对应的负样本（如，S- = {h2′, h’2,s, …, h’B, h’B,s}），因此，负样本集合大小为2(|β \beta β| – 1)。但是，如果负样本集合中有序列对应的目标商品与正样本一样，则将其从负样本集合中去除。

1.3.4 正则化目标

和前面NCE的公式类似，这里有了正负样本后，同样可以构建类似的损失函数（第二个），如下所述：

最后总的损失函数为（λ \lambda λ为超参数）：

之后作者又从数学角度解释了为什么对比正则化之后就可以解决表征退化问题以及说明该方法是在监督对比学习(SCL)方法基础上进行的改进。

; 结论

下图说明了DuoRec和其他主流算法的性能对比图。

Original: https://blog.csdn.net/CRW__DREAM/article/details/123405727
Author: 堇禤
Title: #Paper Reading#Contrastive Learning for Representation Degeneration Problem in Sequential Recommenda

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/699738/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pytorch+cuda11.1安装问题及解决（pycharm）

本文安装环境：win10 + 1050，安装的pytorch是gpu版文章目录 * – 一、cuda及cudnn安装 – 二、pytorch安装（踩坑及解…

人工智能 2023年6月13日
0091
2018-DeepLabV3+论文解读

DeepLabV3+论文翻译 Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmen…

人工智能 2023年6月16日
00162
【论文汇总】2D目标检测文章汇总，持续更新

记录自己比较感兴趣的2D目标检测文章 DatePub.TitleCode2022ECCV https://github.com/mohsenzand/objectbox2021MM…

人工智能 2023年7月9日
0057
栅格数据矢量化(附有完整代码)

栅格一矢量数据转换是数据转换的一种方法，即矢量与栅格两种数据形式之间的转换技术。空间数据表示的两种方法各有优缺点和适用场合，因此需要根据使用目的进行栅格一矢量数据的转换。矢量数…

人工智能 2023年6月20日
00122
使用Labelme对视频进行标注

Labelme视频标注 Labelme项目主页一、Labelme安装在Windows/Linux/MacOS系统上均可通过anaconda来进行安装（1）下载安装anacond…

人工智能 2023年7月12日
0072
pytorch-lightning入门（一）—— 初了解

最近PyTorch Lightning的风很大，来看看为啥它这么火🔥本文主要大致了解一下pytorch-lighting是什么，优点是什么，代码的主要结构。具体细节和案例后面给出。…

人工智能 2023年7月22日
0064
opencv可以有多有趣

opencv可以有多有趣前言内容实现成果前言这一段时间没怎么写博客，偶尔写一次也是比较正经的博客，感觉自己都不正常了。今天看课的时候突然来了灵感，那就整个烂活玩一玩。 …

人工智能 2023年6月18日
0074
pytorch安装与测试

接下来用一个简单的小例子做GPU训练：构造一组输入数据X和其对应的标签y import numpy as np x_values = [i for i in range(11)]…

人工智能 2023年6月25日
0075
使用Tensorflow训练BP神经网络实现鸢尾花分类

人工智能 2023年5月26日
0082
OpenCV-Python中的函数cv.imread()读取到的图像的数据存储结构是怎样的？

OpenCV-Python中的函数cv.imread()读取到的图像的数据存储结构是怎样的？用一个例子实测一下就知道了。测试代码如下： import numpy as np im…

人工智能 2023年5月26日
0082
低光图像目标检测的研究成果总结

1、A Novel Method to Compensate Variety of Illumination In Face Detection 本文介绍了一些基于空间域的传统方法…

人工智能 2023年7月9日
0059
16.Hystrix 实例（springcloud）

1. 前言 1.1 什么是服务雪崩服务雪崩的本质：线程没有及时回收。不管是调用成功还是失败，只要线程可以及时回收，就可以解决服务雪崩 1.2 服务雪崩怎么解决 1.2.1 修改…

人工智能 2023年6月29日
0063
为Jupyter notebook创建新kernel

在新的虚拟环境中创建kernel 进入需要创建kernel的虚拟环境 conda activate pytorch 安装ipykernel ipykernel是必须安装的，也可以直…

人工智能 2023年6月4日
0079
python进行回归方程显著性检验

本篇博客的重点不在于回归模型的建立，而在于模型建立后的显著性检验。 1.回归分析 1.1 定义回归分析就是对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定，确定因…

人工智能 2023年6月16日
00112
【毕业设计】深度学习实现行人重识别 – python opencv yolo Reid

文章目录 0 前言 1 课题背景 2 效果展示 3 行人检测 4 行人重识别 5 其他工具 6 最后 0 前言 🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目…

人工智能 2023年6月19日
0065
Nuscenes 数据集浅析

Nuscenes 数据集浅析参考：Nuscenes官网链接注意：文中存在官网还未更新的内容，一般采用 红色部&a…

人工智能 2023年7月26日
0062

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31