Collaborativ

2024年1月5日上午3:17 • 人工智能 • 阅读 50

问题描述

Collaborative filtering（协同过滤）是推荐系统中广泛使用的一种技术，用于预测用户对物品的评分或者推荐相关物品。本文将详细介绍协同过滤的原理、算法和实现过程，并提供一个复杂的Python代码示例，以便更好地理解。

算法原理

协同过滤算法基于以下观点：如果两个用户在过去对于某些物品的评分较为一致，那么他们在将来对其他物品的评分也有较高的一致性。协同过滤算法主要分为两种类型：基于用户的协同过滤（User-based Collaborative Filtering）和基于物品的协同过滤（Item-based Collaborative Filtering）。下面我们将分别介绍这两种算法的原理和公式推导。

基于用户的协同过滤

基于用户的协同过滤算法通过找到与目标用户兴趣相似的其他用户，来进行个性化的推荐。算法的步骤如下：

计算用户之间的相似度，常用的相似度计算方法有欧氏距离、皮尔逊相关系数等。
选择与目标用户最相似的K个用户，K值根据实际情况确定。
根据这K个用户的评分，预测目标用户对于其他物品的评分。

基于物品的协同过滤

与基于用户的协同过滤相比，基于物品的协同过滤算法则是通过找到与目标物品相似的其他物品，来进行个性化的推荐。算法的步骤如下：

计算物品之间的相似度，可使用余弦相似度等方法。
选择与目标物品最相似的K个物品，K值根据实际情况确定。
根据用户对于这K个物品的评分，预测用户对于其他物品的评分。

公式推导

基于用户的协同过滤推荐公式

假设我们有n个用户和m个物品。对于目标用户u，我们希望预测他对于物品i的评分$r_{ui}$。则基于用户的协同过滤推荐公式可以表示为：

$$r_{ui}=\bar{r}u + \frac {\sum{v \in U}{sim(u,v) \times (r_{vi}-\bar{r}v)}}{\sum{v \in U}{sim(u,v)}}$$

其中，$\bar{r}u$表示用户u的平均评分，$sim(u,v)$表示用户u和用户v之间的相似度，$r{vi}$表示用户v对于物品i的评分。

基于物品的协同过滤推荐公式

假设我们有n个用户和m个物品。对于目标用户u，我们希望预测他对于物品i的评分$r_{ui}$。则基于物品的协同过滤推荐公式可以表示为：

$$r_{ui}=\sum_{j \in I}{(r_{uj} \times w_{ij})}$$

其中，$r_{uj}$表示用户u对于物品j的评分，$w_{ij}$表示物品i和物品j之间的相似度。

计算步骤

基于以上原理和公式，我们可以得到协同过滤的计算步骤如下：

构建用户-物品评分矩阵，矩阵的行代表用户，列代表物品，每个元素表示用户对于物品的评分。
计算用户之间的相似度，或者计算物品之间的相似度。
根据相似度矩阵和评分矩阵，进行预测用户对于其他物品的评分。

复杂Python代码示例

下面给出一个复杂的基于用户的协同过滤算法的Python代码示例：

import numpy as np

# 构建用户-物品评分矩阵
ratings = np.array([
 [5, 3, 0, 1],
 [4, 0, 0, 1],
 [1, 1, 0, 5],
 [1, 0, 0, 4],
 [0, 1, 5, 4]
])

# 计算用户之间的相似度
def cosine_similarity(user1, user2):
 return np.dot(user1, user2) / (np.linalg.norm(user1) artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls np.linalg.norm(user2))

# 预测用户对于其他物品的评分
def predict_rating(user, item, ratings, similarity_matrix, k):
 similarity_scores = []
 for i in range(ratings.shape[0]):
 if i != user:
 similarity = cosine_similarity(ratings[user], ratings[i])
 similarity_scores.append((i, similarity))

 similarity_scores.sort(key=lambda x: x[1], reverse=True)
 similarity_scores = similarity_scores[:k]

 numerator = 0
 denominator = 0
 for i, similarity in similarity_scores:
 numerator += similarity artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls (ratings[i, item] - np.mean(ratings[i]))
 denominator += similarity

 if denominator == 0:
 return np.mean(ratings[user])

 return np.mean(ratings[user]) + numerator / denominator

# 预测用户0对于物品3的评分
user = 0
item = 3
k = 2
predicted_rating = predict_rating(user, item, ratings, cosine_similarity, k)
print(f"Predicted rating for user {user} on item {item}: {predicted_rating}")

上述代码首先构建了一个用户-物品评分矩阵，然后定义了计算余弦相似度和预测评分的函数。最后，我们使用了用户0和物品3来进行评分预测，设置相似用户的个数k为2。运行代码后，输出了用户0对于物品3的预测评分。

代码细节解释

cosine_similarity函数：该函数计算两个向量的余弦相似度。通过计算两个向量的点积，并将其除以两个向量的模的乘积，来得到余弦相似度。
predict_rating函数：该函数根据用户和物品的索引，评分矩阵，相似度矩阵和相似用户的个数，预测用户对于其他物品的评分。首先计算用户之间的相似度，然后选择最相似的k个用户。在这k个相似用户中，计算每个用户对于目标物品的评分与该用户的平均评分的差值，并乘以相似度。最后将所有差值的加权平均值加上用户的平均评分，即得到预测评分。
predicted_rating变量：该变量保存预测的评分结果，即用户0对于物品3的评分。

通过运行以上代码，我们可以得到基于用户的协同过滤算法的预测评分结果。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/823943/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数学建模之统计回归模型详解

码字总结不易，老铁们来个三连：点赞、关注、评论作者：[左手の明天]原创不易，转载请联系作者并注明出处版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请…

人工智能 2023年6月19日
0076
ArcGIS Pro安装和深度学习入门及入门者的一些注意事项

简单介绍 ArcGIS Pro是ArcGIS产品中基于微软.NET Framework开发的一款ArcGIS桌面端的一款产品，采用64位架构，主要用于密集型计算。ArcGIS Pr…

人工智能 2023年6月17日
0098
李宏毅《机器学习》——P3、4 回归

一、回归的定义和应用例子回归：找到一个函数function，通过输入特征x，输出一个数值scalar 回归分析作为机器学习的基础分析方法，在股市走势预测、自动驾驶、用户推荐算法中…

人工智能 2023年6月18日
0095
【Python八股文系列】：100个Python的面试/笔试高频考点

Python的100个面试/笔试高频考点本文主要整理了关于Python的面试/笔试的一些考点，可用于查漏补缺。涉及到的一些Python进阶知识，可以查看专栏学习：《Python…

人工智能 2023年7月30日
0054
提高Tesseract-OCR验证码识别率

Tesseract-OCR训练自己需要的语言在正常使用Tesseract-OCR的默认eng去识别复杂的验证码失败率很高，这时候就需要自己训练出自己需要的语言来提高识别成功率。如…

人工智能 2023年5月23日
00137
YOLOv5改进之七：损失函数改进

前言：作为当前先进的深度学习目标检测算法YOLOv5，已经集合了大量的trick，但是还是有提高和改进的空间，针对具体应用场景下的检测难点，可以不同的改进方法。此后的系列文章，…

人工智能 2023年6月16日
00121
相机畸变＋张正友标定（含源代码）

希望2022能够自主学习。本文狠狠的借鉴了：相机标定之张正友标定法数学原理详解（含python源码） – 知乎和最详细、最完整的相机标定讲解_a083614的专栏-C…

人工智能 2023年5月26日
00104
python使用opencv提取光流

python使用opencv提取光流光流flow特征中包含了一个视频当中运动相关的信息，在视频动作定位当中光流特征使用的比较多，所以记录一下提取光流特征的方法。使用的方法是TV…

人工智能 2023年6月18日
00116
opencv骨架提取(深入分析算法步骤)

前言个人感觉骨架提取提取的就是开运算过程的不可逆。一.算法步骤 1.算法步骤首先上一下比较官方的算法步骤： 1.获得原图像的首地址及图像的宽和高，并设置循环标志1 2.用结构…

人工智能 2023年6月19日
00104
【NLP】文本情感分析

昨晚太晚代码还没有跑完，恰巧又遇到PSO-LSTM的准确率没办法复原，惨兮兮/(ㄒoㄒ)/，具体内容今天来补上文本情感分析 * – 一、情感分析简介 – …

人工智能 2023年5月30日
0086
深度学习环境配置——Anaconda+PyTorch+PyCharm （含详细步骤）

目录前言 1.NVIDIA驱动安装 2.Anaconda安装 3.配置PyTorch环境 4.PyCharm安装 5.CUDA和cudnn版本验证前言这篇博客是针对入门的深度…

人工智能 2023年6月16日
00111
OSPFの

属于IGP (Interior Gateway Protocol)，AS内部网关路由协议。OSPF的流量使用IP协议号89。链路状态路由协议。使用Dijkstra算法，也被称为SP…

人工智能 2023年6月27日
00110
人工智能该如何学习？详细的AI学习路线与资料推荐

原文链接：告别无用功|人工智能该如何学习大家好，我是泰哥。本文可谓是千呼万唤使出来，很多同学问我，AI方向的知识多而杂，哪些该重点学习？学习路径又是怎么样的呢？今天，我将自…

人工智能 2023年7月4日
0078
pandas的简单使用

目录一、基本数据结构Series Series数组的创建 Series的索引创建带索引的Series Series的数学运算对series数组数据的筛查 Series的汇总 …

人工智能 2023年7月7日
0064
ChatGPT 大智近妖，从宇宙人生到手搓光刻机，从哄女友到写年终总结我们聊得非常开心，反而让人越来越忧心

文章目录宇宙人生 * – 问：你觉得人生的意义是什么？问：你觉得思维意识到底是什么问：我之前的两个问题大概有多少人问过你？问：宇宙的边界在哪里？手搓狠活 * …

人工智能 2023年7月31日
0081
对非结构化数据进行结构化处理保姆级教程+总结——2021泰迪杯挑战赛—B题任务4

叨叨(σﾟ∀ﾟ)σ：好久没做Python数据分析了，感觉自己什么都不会= = ；一天做了一题也是没谁了…55555(Ｔ▽Ｔ)还好队友靠谱。。。。。主要是正则表达式有点晕…

人工智能 2023年7月18日
0065

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31