协同过滤算法中有哪些常见的策略和方法

2024年1月2日上午1:19 • 人工智能 • 阅读 32

关于协同过滤算法的常见策略和方法

协同过滤是一种常见的推荐系统算法，它基于用户的历史行为或偏好，利用用户之间的相似性来为用户推荐个性化的物品。协同过滤算法主要包含两个常见的策略：基于用户的协同过滤和基于物品的协同过滤。下面将详细介绍这两种策略以及对应的算法原理、公式推导、计算步骤和Python代码示例。

基于用户的协同过滤算法

基于用户的协同过滤算法通过找到相似用户的历史行为来为目标用户做出推荐。这个算法的总体思路是，如果两个用户在过去的行为上有很多的相似之处，那么他们有很大的概率在将来的行为上也会有相似之处。

算法原理

给定一个用户-物品评分矩阵$R_{m \times n}$，其中$m$表示用户数量，$n$表示物品数量，矩阵中的元素$r_{ij}$表示用户$i$对物品$j$的评分。

基于用户的协同过滤算法的核心原理是根据用户之间的相似度找到与目标用户相似的邻居用户，然后利用邻居用户的评分来预测目标用户的评分。

公式推导

首先，我们计算用户之间的相似度。常见的计算相似度的方法有余弦相似度和皮尔逊相关系数。这里我们使用余弦相似度。

对于用户$i$和$j$，它们的余弦相似度可以通过如下公式计算：

$$
\text{similarity}(i, j) = \frac{{\sum_{k=1}^{n}r_{ik} \cdot r_{jk}}}{{\sqrt{{\sum_{k=1}^{n}r_{ik}^2}} \cdot \sqrt{{\sum_{k=1}^{n}r_{jk}^2}}}}
$$

接下来，我们找到与目标用户最相似的$k$个邻居用户。

对于目标用户$i$，它的所有邻居用户集合可以通过计算与所有用户之间的相似度来获取。然后，我们可以选取与目标用户相似度最高的$k$个邻居用户组成邻居用户集合$N(i)$。

最后，我们根据邻居用户对物品的评分来预测目标用户对物品的评分。这里我们使用加权平均的方式来进行评分预测。

对于目标用户$i$和物品$j$，它的评分预测可以通过如下公式计算：

$$
\hat{r}{ij} = \frac{{\sum{u \in N(i)} \text{similarity}(i, u) \cdot r_{uj}}}{{\sum_{u \in N(i)} \text{similarity}(i, u)}}
$$

计算步骤

基于用户的协同过滤算法的计算步骤如下：

计算用户之间的相似度，得到相似度矩阵$S_{m \times m}$。
对于目标用户$i$，找到其$k$个最相似的邻居用户，构建邻居用户集合$N(i)$。
针对目标用户$i$的每个未评分的物品$j$，计算其评分预测$\hat{r}_{ij}$。
根据评分预测结果，为目标用户推荐Top-N个物品。

Python代码示例

下面是一个基于用户的协同过滤算法的Python代码示例，使用开源数据集MovieLens：

import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# 读取评分矩阵
ratings = np.array([
 [4, 2, 0, 5, 0],
 [5, 0, 1, 4, 0],
 [0, 3, 0, 0, 2],
 [4, 0, 2, 0, 0],
 [0, 1, 5, 0, 3]
])

# 计算用户之间的相似度
similarity_matrix = cosine_similarity(ratings)

# 目标用户和邻居用户数量
target_user = 0
k = 2

# 找到目标用户的邻居用户
neighbors = np.argsort(similarity_matrix[target_user])[::-1][1:k+1]

# 针对目标用户的每个未评分物品，计算评分预测
predictions = []
for item in range(ratings.shape[1]):
 if ratings[target_user, item] == 0:
 numerator = 0
 denominator = 0
 for neighbor in neighbors:
 numerator += similarity_matrix[target_user, neighbor] artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls ratings[neighbor, item]
 denominator += similarity_matrix[target_user, neighbor]
 prediction = numerator / denominator
 predictions.append((item, prediction))

# 根据评分预测结果，为目标用户推荐Top-N个物品
recommendations = sorted(predictions, key=lambda x: x[1], reverse=True)[:3]

print("Recommended Items:")
for item, prediction in recommendations:
 print("Item:", item, "Prediction:", prediction)

代码解释

上述代码示例中，首先导入相关的库。然后，创建一个评分矩阵，其中的元素表示用户对物品的评分。

接下来，使用cosine_similarity函数计算用户之间的相似度矩阵。

然后，指定目标用户和邻居用户的数量。

接着，通过排序相似度矩阵并选择最相似的邻居用户，构建邻居用户集合。

接下来，针对目标用户的每个未评分的物品，计算评分预测，使用加权平均的方式，其中的权重为相似度。

最后，根据评分预测结果，为目标用户推荐Top-N个物品。

代码输出为推荐的物品列表，包括物品编号和对应的评分预测值。

通过修改评分矩阵和参数，你可以实验不同的情况以及验证算法的效果。

基于物品的协同过滤算法

基于物品的协同过滤算法与基于用户的协同过滤类似，它通过找到相似物品的历史评分来为目标用户做出推荐。

算法原理

给定一个用户-物品评分矩阵$R_{m \times n}$，其中$m$表示用户数量，$n$表示物品数量，矩阵中的元素$r_{ij}$表示用户$i$对物品$j$的评分。

基于物品的协同过滤算法的核心原理是根据物品之间的相似度找到与目标物品相似的邻居物品，然后利用邻居物品的评分来预测目标用户对物品的评分。

公式推导

首先，我们计算物品之间的相似度。常见的计算相似度的方法有余弦相似度和皮尔逊相关系数。这里我们使用余弦相似度。

对于物品$i$和$j$，它们的余弦相似度可以通过如下公式计算：

$$
\text{similarity}(i, j) = \frac{{\sum_{k=1}^{m}r_{ki} \cdot r_{kj}}}{{\sqrt{{\sum_{k=1}^{m}r_{ki}^2}} \cdot \sqrt{{\sum_{k=1}^{m}r_{kj}^2}}}}
$$

接下来，我们找到与目标物品最相似的$k$个邻居物品。

对于目标物品$i$，它的所有邻居物品集合可以通过计算与所有物品之间的相似度来获取。然后，我们可以选取与目标物品相似度最高的$k$个邻居物品组成邻居物品集合$N(i)$。

最后，我们根据用户对邻居物品的评分来预测目标用户对物品的评分。这里我们使用加权平均的方式来进行评分预测。

对于目标用户$i$和物品$j$，它的评分预测可以通过如下公式计算：

$$
\hat{r}{ij} = \frac{{\sum{v \in N(j)} \text{similarity}(j, v) \cdot r_{iv}}}{{\sum_{v \in N(j)} \text{similarity}(j, v)}}
$$

计算步骤

基于物品的协同过滤算法的计算步骤如下：

计算物品之间的相似度，得到相似度矩阵$S_{n \times n}$。
对于目标用户$i$，找到其历史评分中的未评分物品集合$U(i)$。
针对目标用户的每个未评分物品$j$，计算其评分预测$\hat{r}_{ij}$。
根据评分预测结果，为目标用户推荐Top-N个物品。

Python代码示例

下面是一个基于物品的协同过滤算法的Python代码示例，使用开源数据集MovieLens：

import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# 读取评分矩阵
ratings = np.array([
 [4, 2, 0, 5, 0],
 [5, 0, 1, 4, 0],
 [0, 3, 0, 0, 2],
 [4, 0, 2, 0, 0],
 [0, 1, 5, 0, 3]
])

# 计算物品之间的相似度
similarity_matrix = cosine_similarity(ratings.T)

# 目标用户和推荐物品数量
target_user = 0
k = 2

# 获取目标用户的历史评分和未评分物品集合
rated_items = np.where(ratings[target_user] > 0)[0]
unrated_items = np.where(ratings[target_user] == 0)[0]

# 针对目标用户的每个未评分物品，计算评分预测
predictions = []
for item in unrated_items:
 numerator = 0
 denominator = 0
 for neighbor in rated_items:
 numerator += similarity_matrix[item, neighbor] artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls ratings[target_user, neighbor]
 denominator += similarity_matrix[item, neighbor]
 prediction = numerator / denominator
 predictions.append((item, prediction))

# 根据评分预测结果，为目标用户推荐Top-N个物品
recommendations = sorted(predictions, key=lambda x: x[1], reverse=True)[:3]

print("Recommended Items:")
for item, prediction in recommendations:
 print("Item:", item, "Prediction:", prediction)

代码解释

上述代码示例中，首先导入相关的库。然后，创建一个评分矩阵，其中的元素表示用户对物品的评分。

接下来，使用cosine_similarity函数计算物品之间的相似度矩阵，注意传入的参数为评分矩阵的转置。

然后，指定目标用户和推荐物品的数量。

接着，获取目标用户的历史评分和未评分物品集合。

接下来，针对目标用户的每个未评分的物品，计算评分预测，使用加权平均的方式，其中的权重为物品之间的相似度。

最后，根据评分预测结果，为目标用户推荐Top-N个物品。

代码输出为推荐的物品列表，包括物品编号和对应的评分预测值。

通过修改评分矩阵和参数，你可以实验不同的情况以及验证算法的效果。

总结

在本文中，我们以口语化的形式详细解决了关于协同过滤算法中常见的策略和方法的问题。首先我们介绍了基于用户的协同过滤算法和基于物品的协同过滤算法的原理和公式推导。然后，我们分别给出了计算步骤和Python代码示例来演示这两种算法的实现过程。通过阅读本文，你应该能够理解协同过滤算法的基本原理，并能够使用Python实现相应的算法逻辑。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/822978/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pandas将某一列变为索引_Pandas| pd.melt()使用示例

工作具体内容如下，主要是想把一个二维表格转成一维表格，如下图(表格为替代品)：于是我马上想到了pandas，想着这么强大的函数肯定有这个功能，于是我开始翻阅资料，没想到还真找到了…

人工智能 2023年7月7日
0054
花了6个月时间完成本科优秀毕业设计，我做了什么？

目录 1 前言 2 选题 3 技术选型 4 研究过程 5 毕业答辩 6 效果展示 ; 1 前言从去年12月开题到今年6月结束，整整半年时间都在处理毕业设计的项目。好在取得了一个比…

人工智能 2023年7月26日
0094
YOLO v1详细解读

《 You Only Look Once: Unifified, Real-Time Object Detection 》 Joseph Redmon∗ , Santosh Div…

人工智能 2023年5月26日
0081
NLP工具——doccano标注系统自动标注功能使用

NLP工具——doccano标注系统自动标注功能使用 0. 简介 1. doccano安装 2. 创建标注任务 3. 写一个命名实体识别的接口 4. 添加自动标注功能 5. 增加标…

人工智能 2023年7月26日
0061
第八章笔记

pandans 定义一个开源的python类库，用于数据分析、数据处理、数据可视化以管理员的身份打开cmd 特点高性能、容易使用的数据结构、容易使用的数据分析工具安装下载…

人工智能 2023年7月7日
0062
邮件归档系统

重要的邮件数据对企业发展尤为重要，如何才能保证邮件数据的信息安全？如何才能将重要的邮件数据永久保存也是目前企业比较关心的问题。关于邮件数据信息安全企业会遇到哪些常见的问题呢？重要…

人工智能 2023年6月26日
0068
【YOLOv5】yolov5目标识别+DeepSort目标追踪

引言利用yolov5训练的目标识别模型，结合DeepSort实现目标追踪源码下载：（1）Yolov5_DeepSort_Pytorch (该源码下载下来的yolov5文件夹是空的…

人工智能 2023年6月16日
0076
计算机视觉中的注意力机制

计算机视觉中的注意力机制 * – 什么是注意力机制 – 常用的简单的注意力机制 – + SE Attention + CBAM Attentio…

人工智能 2023年6月16日
0063
【自动驾驶】PID实现轨迹跟踪

文章目录参考资料 1. PID控制原理 * 1.1 基本概念 1.2 数字 PID 控制算法 – 1. 位置式PID + python代码实现 2. 增量式PID +…

人工智能 2023年6月2日
0085
标签平滑(label smoothing) torch和tensorflow的实现

在常见的多分类问题中，先经过softmax处理后进行交叉熵计算，原理很简单可以将计算loss理解为，为了使得网络对测试集预测的概率分布和其真实分布接近，常用的做法是使用one-ho…

人工智能 2023年5月26日
0091
属性抽取调研-工业界

1. 任务 1.1. 背景 1.2. 任务定义 1.3. 数据集 1.4. 评测标准 2. 方法总结 2.1. 基于无监督的属性抽取方法 2.1.1. 基于规则的槽填充算法 2.1…

人工智能 2023年6月2日
0090
知识追踪数据集介绍

困扰了我很久的问题，可能是我喜欢知根知底。见到论文中提到的2009-2010，看到代码中是数据不太一样发出了疑问最新：超详细介绍论文 Improving Knowledge T…

人工智能 2023年6月19日
0060
大学生HTML作业节日网页 HTML作业节日文化网页期末作业 html+css+js节日网页 HTML学生节日介绍 HTML学生作业网页视频

🎉精彩专栏推荐 💭文末获取联系✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战…

人工智能 2023年6月27日
0077
Fast R-CNN讲解

文章目录一：解决的问题二：模型结构三：训练步骤 * 1.预训练模型 2.Fine-tunning – + step1:转化预训练模型 step2:训练图像的RP搜…

人工智能 2023年6月16日
0087
PyTorch版本更新后无法调用GPU显卡的原因及解决办法

Index 目录索引问题剖析解决方法参考问题剖析使用 PyTorch在网络模型训练过程中，如果更新了 PyTorch的版本（例如由 1.7.0更新为 1.8.1），则可能…

人工智能 2023年6月24日
0068
RuntimeError: DefaultCPUAllocator: not enough memory: you tried to allocate 1105920 bytes.

问题 RuntimeError: [enforce fail at ..\c10\core\CPUAllocator.cpp:76] data. DefaultCPUAllocat…

人工智能 2023年6月23日
0066

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

协同过滤算法中有哪些常见的策略和方法

关于协同过滤算法的常见策略和方法

基于用户的协同过滤算法

算法原理

公式推导

计算步骤

Python代码示例

代码解释

基于物品的协同过滤算法

算法原理

公式推导

计算步骤

Python代码示例

代码解释

总结

大家都在看