协同过滤算法如何处理长尾商品问题

2024年1月2日上午2:45 • 人工智能 • 阅读 33

问题介绍

协同过滤是一种常用的推荐算法，它通过分析用户的历史行为数据和其他用户的行为数据来预测用户的兴趣，从而实现个性化推荐。然而，协同过滤算法在处理长尾商品问题时会遇到一些挑战。长尾商品指的是销售量较低的商品，而大部分用户更倾向于购买热门商品，导致长尾商品的数据稀疏性，从而降低了协同过滤算法的推荐准确性。因此，我们需要了解协同过滤算法如何处理这个问题。

算法原理

协同过滤算法有两种主要的类型：基于用户的协同过滤和基于物品的协同过滤。这两种算法的核心思想都是通过分析用户行为数据来计算用户之间或物品之间的相似度。在处理长尾商品问题时，我们可以采取以下方法来改善推荐准确性：

基于用户的协同过滤：当用户购买了一个长尾商品时，由于这些商品的销售量较低，导致这些用户之间的相似度计算不准确。为了解决这个问题，可以引入一些加权策略来提高相似度计算的准确性。
基于物品的协同过滤：当一个长尾商品被购买时，由于数据稀疏性，这个商品的相似物品很难被发现。为了解决这个问题，可以引入一些策略来增加长尾商品的相似物品的发现机会。

公式推导

基于用户的协同过滤

基于用户的协同过滤中，我们可以使用余弦相似度来计算用户之间的相似度。假设有两个用户u和v，其购买历史分别为$𝑝_u$和$𝑝_v$，用户u和v共同购买的商品集合为$𝑠𝑢v$，可以使用以下公式计算用户之间的相似度：

$$𝑠𝑖𝑚(𝑢,𝑣) = \frac{𝑠𝑢𝑣}{\sqrt{(𝑢)·(𝑣)}}$$

其中，$𝑠𝑢𝑣$表示共同购买的商品数量，$(𝑢)·(𝑣)$表示用户购买商品的数量乘积。

在处理长尾商品问题时，我们可以对相似度进行加权处理。假设有一个长尾商品的集合为$𝑙𝑜𝑛𝑔_𝑖$，则用户之间的相似度可以按照以下公式进行加权计算：

$$𝑠𝑖𝑚_𝑤𝑒𝑖𝑔ℎ𝑡(𝑢,𝑣) = \frac{𝑠𝑢𝑣+𝑠_𝑤𝑒𝑖𝑔ℎ𝑡·(|𝑙𝑜𝑛𝑔_𝑖∩𝑝_𝑢∩𝑝_𝑣|)}{\sqrt{(𝑢)·(𝑣)}+𝑠_𝑤𝑒𝑖𝑔ℎ𝑡·(|𝑙𝑜𝑛𝑔_𝑖∩𝑝_𝑢∩𝑝_𝑣|)}}$$

其中，$𝑠_𝑤𝑒𝑖𝑔ℎ𝑡$表示长尾商品的权重，$|𝑙𝑜𝑛𝑔_𝑖∩𝑝_𝑢∩𝑝_𝑣|$表示用户u和v共同购买的长尾商品的数量。

基于物品的协同过滤

基于物品的协同过滤中，我们可以使用杰卡德相似度来计算物品之间的相似度。假设有两个物品i和j，被用户购买的集合分别为$𝑝_𝑖$和$𝑝_𝑗$，用户同时购买物品i和j的数量为$𝑛_𝑖𝑗$，可以使用以下公式计算物品之间的相似度：

$$𝑠𝑖𝑚(𝑖,𝑗) = \frac{𝑛_𝑖𝑗}{|𝑝_𝑖∪𝑝_𝑗|}$$

在处理长尾商品问题时，我们可以采用以下策略增加长尾商品的相似物品的发现机会：

引入项目的流行度惩罚因子：对于已经很热门的物品，即使它们之间的共同购买数量较少，我们仍然应该认为它们有一定的相似度。可以使用以下公式计算物品之间的相似度：

$$𝑠𝑖𝑚_𝑝𝑝(𝑖,𝑗) = \frac{𝑛_𝑖𝑗+𝑝_𝑝𝑖𝑓_𝑤(𝑖,𝑗)}{𝑘+|𝑝_𝑖∪𝑝_𝑗|}$$

其中，$𝑝_𝑝𝑖𝑓_𝑤(𝑖,𝑗)$表示物品i和j的流行度加权值，k表示一个常数。

引入长尾商品的惩罚因子：对于长尾商品，由于其销售量较低，可能会导致共同购买的数量很少，因此需要引入一个长尾商品的惩罚因子。可以使用以下公式计算物品之间的相似度：

$$𝑠𝑖𝑚_𝑡𝑎𝑖𝑙(𝑖,𝑗) = \frac{𝑛_𝑖𝑗+𝑠_𝑡𝑎𝑖𝑙·(|𝑙𝑜𝑛𝑔_𝑖∩𝑝_𝑖∩𝑝_𝑗|)}{𝑘+|𝑝_𝑖∪𝑝_𝑗|}$$

其中，$𝑠_𝑡𝑎𝑖𝑙$表示长尾商品的惩罚因子。

计算步骤

基于用户的协同过滤算法的计算步骤如下：

构建用户商品矩阵：将用户的购买历史转化为一个矩阵，行表示用户，列表示商品，矩阵中的元素表示用户对商品的评分或者购买行为。
计算用户之间的相似度矩阵：根据公式$𝑠𝑖𝑚_𝑤𝑒𝑖𝑔ℎ𝑡(𝑢,𝑣)$计算用户之间的相似度矩阵。
预测用户对未购买商品的评分：根据相似度矩阵，计算用户对未购买商品的评分。

基于物品的协同过滤算法的计算步骤如下：

构建用户商品矩阵：将用户的购买历史转化为一个矩阵，行表示用户，列表示商品，矩阵中的元素表示用户对商品的评分或者购买行为。
计算物品之间的相似度矩阵：根据公式$𝑠𝑖𝑚_𝑡𝑎𝑖𝑙(𝑖,𝑗)$计算物品之间的相似度矩阵。
预测用户对未购买商品的评分：根据相似度矩阵，计算用户对未购买商品的评分。

复杂Python代码示例

下面是基于用户的协同过滤算法的Python代码示例：

import numpy as np

# 构建用户商品矩阵
user_item_matrix = np.array([
 [1, 1, 0, 0, 1],
 [1, 0, 1, 0, 1],
 [0, 1, 0, 1, 0],
 [1, 1, 1, 0, 0],
 [0, 1, 0, 0, 1]
])

# 计算用户之间的相似度矩阵
def user_similarity(user_item_matrix):
 user_num = user_item_matrix.shape[0]
 similarity_matrix = np.zeros((user_num, user_num))
 for i in range(user_num):
 for j in range(user_num):
 if i != j:
 sim = np.dot(user_item_matrix[i], user_item_matrix[j]) / (
 np.sqrt(np.sum(user_item_matrix[i])) artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls np.sqrt(np.sum(user_item_matrix[j])))
 similarity_matrix[i][j] = sim
 return similarity_matrix

similarity_matrix = user_similarity(user_item_matrix)
print("用户之间的相似度矩阵：")
print(similarity_matrix)

# 预测用户对未购买商品的评分
def predict_ratings(user_item_matrix, similarity_matrix):
 user_num, item_num = user_item_matrix.shape
 ratings = np.zeros((user_num, item_num))
 for u in range(user_num):
 for i in range(item_num):
 if user_item_matrix[u][i] == 0:
 numerator = 0
 denominator = 0
 for v in range(user_num):
 if v != u and user_item_matrix[v][i] == 1:
 numerator += similarity_matrix[u][v]
 denominator += similarity_matrix[u][v] artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls user_item_matrix[v][i]
 ratings[u][i] = denominator / numerator
 return ratings

ratings = predict_ratings(user_item_matrix, similarity_matrix)
print("用户对未购买商品的评分：")
print(ratings)

代码细节解释

构建用户商品矩阵：用户商品矩阵是一个二维矩阵，其中的元素表示用户对商品的评分或者购买行为。可以使用NumPy库创建一个矩阵，行数为用户数，列数为商品数，通过填充矩阵中的元素来表示用户的购买行为。
计算用户之间的相似度矩阵：通过遍历每对用户，计算其之间的相似度。使用内积和平方根的方式计算相似度，然后填充到相似度矩阵中。
预测用户对未购买商品的评分：通过遍历每个未购买商品，计算用户对其的评分。对于每个未购买商品，遍历每个其他用户，如果其他用户购买了该商品，则根据相似度和评分进行加权计算，得到预测的评分。

以上是关于协同过滤算法如何处理长尾商品问题的详细解决方案，包括算法原理、公式推导、计算步骤、复杂Python代码示例和代码细节解释。通过使用以上方法，可以在协同过滤算法中处理长尾商品问题，提高推荐准确性。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/823006/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Pytorch神经网络实战案例】32 使用Transformers库的管道方式实现：加载指定模型+文本分类+掩码语言建模+摘要生成+特征提取+阅读理解+实体词识别

管道方式是Transformers库中高度集成的极简使用方式。使用这种方式来处理NLP任务，只需要编写几行代码就能实现。通过本例的练习可以使读者对Transformers库的使用快…

人工智能 2023年5月27日
0074
python安装教程以及tensorflow和pytorch的搭建

1.安装前：安装以下三个软件软件1：visual studio2019 链接：https://pc.qq.com/detail/16/detail_22856.html软件2：v…

人工智能 2023年5月24日
0087
基于Matlab模拟用于海况海洋学研究的 X 波段雷达系统（附源码）

海事雷达系统在充满挑战的动态环境中运行。为了改进对感兴趣目标的检测并评估系统性能，必须了解海面返回的性质。在本例中，将模拟用于海况海洋学研究的 X 波段雷达系统。雷达系统是一个固…

人工智能 2023年7月29日
0071
图像处理之图像复原[逆滤波、维纳滤波、约束最小二乘法、Lucy-Richardson和盲解卷积复原]

一、图像复原与图像增强的区别图像增强的目的是消除噪声，显现那些被模糊了的细节或简单地突出一幅图像中读者感兴趣的特征，不考虑图像质量下降的原因。图像复原是利用退化现象的某种先验知识…

人工智能 2023年6月17日
0075
【Python】第十二课网络爬虫

本章主要讲的是基于Python语言的数据采集，该功能要讲起来可以单独作为一门课程来学习，因为这是一门很重要的课程，一般运用在大数据处理和人工智能上，该应用提供大量的数据。 12.1…

人工智能 2023年6月19日
0081
Tensorflow(三） tf.keras的相关东西

Keras是一个由Python编写的开源人工神经网络库，可以作Tensorflow、Microsoft-CNTK和Theano的高阶应用程序接口，进行深度学习模型的设计、调试、评估…

人工智能 2023年5月24日
0069
技术内幕 | StarRocks Community Champion、阿里云技术专家解读 Optimizer 实现

作者：范振（花名辰繁），阿里云计算平台-开源大数据-OLAP方向负责人，高级技术专家，StarRocks Community Champion 随着阿里云EMR StarRocks…

人工智能 2023年7月29日
0073
KDD2020|基于知识图谱的语义融合改进的对话推荐系统

Improving Conversational Recommender Systems via Knowledge Graph based Semantic Fusion htt…

人工智能 2023年6月1日
0095
在AI算法中，什么是交叉验证

问题：什么是降低维度（Dimensionality Reduction）？降低维度是指将高维数据转换为低维空间的过程，从而减少数据的特征维度。在实际应用中，高维数据可能存在许多冗…

人工智能 2024年1月1日
0053
数据分析-回归-案例-波士顿房价数据集

@数据分析-回归-波士顿房价数据集数据来源： 1、目标 2、数据集介绍 3、代码 3.1 导入必须的工具包 3.2 导入数据 3.3 数据探索 3.4 数据集划分 3.5 模型构…

人工智能 2023年6月12日
0082
入门opencv，欢笑快乐每一天

🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🥰 博客首页： knighthood2001😗 欢迎点赞👍评论🗨️❤️ 热爱python，期待与大家一同进步成长！！❤️👀 给大家推荐一款很火爆的刷题、面试…

人工智能 2023年6月17日
0072
Python批量将csv文件的编码方式转换为UTF-8

当我们用pandas是操作CSV文件的时候，常常会因为编码问题出现报错。 pandas_libs\parsers.pyx in pandas._libs.parsers.TextR…

人工智能 2023年7月14日
0067
论文浅尝 | 探索用于归纳型知识图谱补全的关系语义

笔记整理：徐雅静，浙江大学在读硕士，研究方向为知识图谱的表示学习，零样本学习。 KGC指的是在不完整的KG中推理出缺失的实体。以前的多数工作仅仅考虑到直推式场景（实体都存在KG中）…

人工智能 2023年6月1日
0077
Python每日一练——第4天：百钱百鸡问题（升级版）

前言📢📢 Python每日一练来啦，本文已收录于：《Python每日一练》专栏此专栏目的在于，帮忙学习Python的小白提高编程能力，训练逻辑思维，每周持续更新中，欢迎免费订阅！…

人工智能 2023年7月5日
00114
asp.net+sqlserver餐厅餐饮管理系统C#项目源码

第一章概述 21.1 课题背景 21.2 课题来源 21.3 研究内容 31.4 研究意义 3第二章开发环境和相关技术 52.1 .NET开发平台 52.2 SQL Serve…

人工智能 2023年6月29日
0082
一个完整的机器学习模型的流程

一个完整的机器学习模型的流程总包含文章：一个完整的机器学习模型的流程浅谈深度学习：了解RNN和构建并预测浅谈深度学习：基于对LSTM项目 LSTM Neural Netwo…

人工智能 2023年6月16日
0086

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31