【论文笔记】Leveraging Post-click Feedback for Content Recommendations

2023年6月6日下午2:04 • 人工智能 • 阅读 72

Leveraging Post-click Feedback for Content Recommendations

Authors: Hongyi Wen, Longqi Yang, Deborah Estrin

Recsys’19 Cornell University

论文链接：https://dl.acm.org/doi/pdf/10.1145/3298689.3347037

本文链接：https://www.cnblogs.com/zihaojun/p/15708632.html

Leveraging Post-click Feedback for Content Recommendations
0. 总结
1.研究目标
2.问题背景
3.分析点击之后的反馈信息
- 3.1 反馈信息的特点
- 3.2 点击和反馈信息
4.方法
- 4.1 Pointwise Loss
- 4.2 Pairwise Loss
5.实验结果
可以借鉴的地方
Weakness
进一步阅读

0. 总结

这篇文章证明了在推荐系统中，将用户点击之后没有看完的物品作为负样本的一部分参与训练是有效的。

1.研究目标

利用用户在点击之后的反馈数据，来解决点击数据中的噪声问题，提高推荐系统的性能。

例如，用户观看视频或听音乐的时长，可以反映用户看到物品之后是否真正喜欢。

2.问题背景

在构建推荐系统时，通常会选用隐式反馈数据作为训练数据，但隐式反馈数据的正样本不一定都是用户喜欢的物品。例如，用户点击了一个物品，这只能反映用户对这个物品的第一印象比较好，用户在浏览之后可能并不喜欢这个物品。

3.分析点击之后的反馈信息

数据集：

Spotify：在线音乐数据集，包含上亿的听歌会话，每个会话包含最多二十首歌，记录了用户跳过还是听完了每首歌，跳过与否是根据挑战赛组委会设定的播放阈值。随机选择了九百万会话进行分析。
ByteDance：用户与短视频（10秒）的交互记录，包含是否完播。选取了13 million的数据。

3.1 反馈信息的特点

点击之后的用户反馈在很多场景中都存在，这种反馈可能是显式的（评分），也可能是隐式的（观看时长）。在上述两个数据集中，音乐和短视频场景下，分别有51%和56%的交互是点击之后被跳过的。也就是说，超过半数的交互是点击之后用户并不满意的。

具体到每个物品和每个用户的完播比例，如Figure 1所示，两个数据集上面，左边一列（用户跳过比例）的分布不同，可能是因为音乐和视频的使用场景不同，音乐被跳过会更加随机。

作者还观察到，越冷门的物品，被跳过的比例越高。这可能是物品质量导致的。

3.2 点击和反馈信息

用点击数据作为训练集，分别在常规测试集和兴趣测试集上进行性能测试，研究模型对点击行为和对完播行为的推荐精度差别。

常规测试集是指，将所有物品作为候选集，将测试阶段点击物品作为正样本。
兴趣测试集是指，将测试阶段的点击样本作为候选列表，将完播数据作为正样本（看能不能把完播排在跳过前面）。

最后得出结论，模型对点击行为的预测能力远高于对完播行为的预测能力。

这一段实验设计有问题，详见Weakness部分

[\begin{array}{cccccc} \hline \text { Dataset } & \text { # of users } & \text { # of items } & \text { # of records } & \text { Density } & \text { Percentage of skips % } \ \hline \text { Spotify } & 229,792 & 100,586 & 4,090,895 & 0.018 \% & 51.05 \% \ \text { ByteDance } & 37,043 & 271,259 & 9,391,103 & 0.093 \% & 55.13 \% \ \hline \end{array} ]

4.方法

方法是比较简单的，虽然写的很复杂。

总体思路就是把用户跳过的样本（skip）也当做负样本。

4.1 Pointwise Loss

(O_P)表示用户未跳过的交互，(O_N)表示用户跳过的交互，(O_M)表示用户未交互的物品。

[\arg \min {x^{} y^{}} \alpha \sum{(u, i) \in O_{P}}\left(1-\hat{p}{u i}\right)^{2}+\beta \sum{(u, i) \in O_{N}} \hat{p}{u i}^{2}+\gamma \sum{(u, i) \in O_{M}} \hat{p}_{u i}^{2} ]

其实就是把跳过的物品当做负样本，并且加个权重。

4.2 Pairwise Loss

(O_P)中，i表示没跳过的物品，j表示跳过的物品。

(O_N)中，i表示没跳过的物品，j没交互过的物品。

[\arg \max {\theta} \alpha \sum{(u, i, j) \in O_{P}} \ln \sigma\left(\hat{p}{u i j}\right)+\beta \sum{(u, i, j) \in O_{N}} \ln \sigma\left(\hat{p}_{u i j}\right) ]

注意论文中把第二项的ij反了过来（增加一点复杂度），其实没有必要。

当(\beta = 0)时，模型只利用没有跳过的交互作为正样本，而没有利用跳过的样本，称为BL。

当(\beta \not = 0)时，模型称为-NR。

5.实验结果

实验结果表明，将跳过的样本作为负样本（NR）是有效的，且直接将这些样本从正样本集中去除（BL）也是有效的

可以借鉴的地方

3.1的分析方法
数据集 Spotify[1]

Weakness

不是所有的场景都有这种点击之后的反馈数据可以用的，在没有反馈数据的场景就不适用这种方法。
3.2的分析不合理
两种测试任务的难度是不同的，常规测试任务的负样本很简单，但是兴趣测试任务是很难的，因此直接比较两种设置下的AUC绝对值是不合理的。
比较合理的实验设置应该是保持测试方法一致，修改训练集数据，用（跳过+完播）和（完播）两种训练方式，看测试效果有什么不同。（看到后面才发现，这已经是论文主实验了）
有错词，例如5.2部分第三个单词purposed，应为proposed。
符号不一致，5.1部分使用的符号(\lambda_p)和(\lambda_n)在前文并没有提到。
[29]和[30]两篇引用是同一篇

进一步阅读

[15] Hongyu Lu, Min Zhang, and Shaoping Ma. 2018. Between Clicks and Satisfaction: Study on Multi-Phase User Preferences and Satisfaction for Online News Reading. In The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. ACM, 435–444.

[34] Qian Zhao, F Maxwell Harper, Gediminas Adomavicius, and Joseph A Konstan. 2018. Explicit or implicit feedback? engagement or satisfaction?: a feld experiment on machine-learning-based recommender systems. In Proceedings of the 33rd Annual ACM Symposium on Applied Computing. ACM, 1331–1340.

[5] Yifan Hu, Yehuda Koren, and Chris Volinsky. 2008. Collaborative fltering for implicit feedback datasets. In Eighth IEEE International Conference on Data Mining (ICDM’08). IEEE, 263–272.

[8] Youngho Kim, Ahmed Hassan, Ryen W White, and Imed Zitouni. 2014. Modeling dwell time to predict click-level satisfaction. In Proceedings of the 7th ACM international conference on Web search and data mining. ACM, 193–202.

[11] Mounia Lalmas, Janette Lehmann, Guy Shaked, Fabrizio Silvestri, and Gabriele Tolomei. 2015. Promoting positive post-click experience for in-stream yahoo gemini users. In Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 1929–1938.

Original: https://www.cnblogs.com/zihaojun/p/15708632.html
Author: 子豪君
Title: 【论文笔记】Leveraging Post-click Feedback for Content Recommendations

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/576578/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据挖掘机器学习[七]—2021研究生数学建模B题空气质量预报二次建模求解过程：基于Stacking机器学习混合模型的空气质量预测｛含码源+pdf文章｝

【机器学习入门与实践】入门必看系列，含数据挖掘项目实战：数据融合、特征优化、特征降维、探索性分析等，实战带你掌握机器学习数据挖掘专栏详细介绍：【机器学习入门与实践】合集入门必看系…

人工智能 2023年7月16日
0066
基于windows11系统安装PyTorch环境

原因 怎么说呢，对于&am…

人工智能 2023年7月21日
0039
目标检测—CIOU原理及代码实现

目标检测—CIOU原理及代码实现最近刚写完一篇YOLO V4-tiny的blog，其中Tensorflow2.0—YOLO V4-tiny网络原理及代码解析（三）- 损失函数的构…

人工智能 2023年7月10日
0058
Java.lang.Character类中isLowerCase()方法具有什么功能呢？

转自: 下文笔者将讲述Character类中isLowerCase()方法的功能，如下所示: Java.lang.Character之isLowerCase()方法的功能 isLo…

人工智能 2023年5月30日
0046
机器学习笔记 – 基于JavaScript的顶级机器学习框架

1、概述虽然 Python 和 C++编程语言已成为机器学习框架的流行选择，但 JavaScript 也并不落后。环顾四周，可能会发现 JavaScript 框架也已在 AI 中…

人工智能 2023年5月24日
0068
RuntimeError: Tensor for ‘out‘ is on CPU, Tensor for argument #1 ‘self‘ is on CPU, but expected them

产生这类错误的原因,模型和数据未在相同设备上解决方法:将其放在同一设备上,模型和数据都放在GPU上 net .to(“cuda”) data.to(&#82…

人工智能 2023年7月22日
0039
从共现矩阵到共现图一步到位——详解版

1.共现矩阵判断大量不同文本之间，相邻词的联系，两词在所有文本中相邻的次数在矩阵中用数值表示。（参考此）例子如下： 1.1 文本 • I like deep learning. …

人工智能 2023年5月25日
0080
基于Pytorch的图卷积网络GCN实例应用及详解

基于Pytorch的图卷积网络GCN实例应用及详解一、图卷积网络GCN定义图卷积网络GCN实际上就是特征提取器，只不过GCN的数据对象是图。图的结构一般来说是十分不规则，可以看…

人工智能 2023年7月23日
0054
DTMF信号检测分析（Matlab)

基于Matlab平台的DTMF信号检测 1.将录制好的一段按键音读入到Matlab平台； 2.设计带通滤波器，去噪处理（可选）； 3.将给个按键音对应的信号一次分割； 4.计算分割…

人工智能 2023年6月17日
0062
Python操作MySQL数据库—pymysql库（可直接使用的模板通用操作）

Python与MySQL数据库交互 1.DB-API：(DB是data；API是方法，接口) Python与数据库的交互：在没有DB-API之前，各数据库之间的应用接口非常混乱，…

人工智能 2023年7月4日
0066
七种启发式算法

老师推荐的一篇知乎北大大神非常好的文章：主要介绍的是scikit-opt https://github.com/guofei9987/scikit-opt 主要计算：一个封装了7…

人工智能 2023年6月24日
0041
【UNet3+】遥感影像分割

文章目录 1. 项目准备 * 1.1. 问题导入 1.2. 数据集简介 2. UNet3+模型 * 2.1. 背景介绍 2.2. 模型介绍 – (1) 全尺度跳跃连接 …

人工智能 2023年5月26日
0090
R语言回归模型残差可视化实战：残差拟合曲线图（residual vs. fitted plot）、QQ图、残差密度图

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月17日
0055
MaxPool2d详解–在数组和图像中的应用

MaxPool2d详解–在数组和图像中的应用 * – 1、环境要求 – 2、原理讲解 – 3、函数要求 – 4、例子 &…

人工智能 2023年7月26日
0054
【论文精读】TMI2021医学图像分割 SMU-Net

TMI2021医学图像分割论文 SMU-Net: Saliency-guided Morphology-aware U-Net for Breast Lesion Segmenta…

人工智能 2023年7月27日
0046
超分算法RDN：Residual Dense Network for Image Super-Resolution 超分辨率图像重建

这篇文章总结分析了ResNet 和DenseNet的优缺点，并将其结合，提出了新的结构ResidualDenseNet。文章中对ResNet 和DenseNet以及MemNet都进…

人工智能 2023年7月12日
0041

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30