Collaborativ

2024年1月2日上午5:34 • 人工智能 • 阅读 38

问题介绍

Collaborative Filtering（协同过滤）是推荐系统中一种常用的技术，用于根据用户的过去行为和与其他用户的相似性来预测用户可能感兴趣的项目。

在本篇文章中，我们将介绍协同过滤的原理和算法，并使用一个虚拟数据集来演示如何实现协同过滤算法，并推荐用户可能感兴趣的项目。

算法原理

协同过滤算法基于两个主要的概念：用户之间的相似性和项目之间的相似性。

用户之间的相似性表示的是当一个用户喜欢一些项目时，与该用户有相似喜好的其他用户也可能喜欢相同的项目。通过计算用户之间的相似性，我们可以预测一个用户对尚未评价的项目的喜好程度。

项目之间的相似性表示的是当一个用户喜欢某个项目时，与该项目相似的其他项目也可能被用户喜欢。通过计算项目之间的相似性，我们可以推荐与用户已经喜欢的项目相似的项目。

公式推导

用户之间的相似性计算公式

在协同过滤中，我们使用余弦相似性来计算用户之间的相似度。给定两个用户$u$和$v$，其相似度可以通过以下公式计算：

$$
\text{sim}(u, v) = \frac{\sum_{i \in I_{uv}} r_{ui} \cdot r_{vi}}{\sqrt{\sum_{i \in I_{uv}} r_{ui}^2} \cdot \sqrt{\sum_{i \in I_{uv}} r_{vi}^2}}
$$

其中，$r_{ui}$表示用户$u$对项目$i$的评分，$I_{uv}$表示同时被用户$u$和$v$评价过的项目集合。

项目之间的相似性计算公式

对于项目之间的相似性，我们同样使用余弦相似性来计算。给定两个项目$i$和$j$，其相似度可以通过以下公式计算：

$$
\text{sim}(i, j) = \frac{\sum_{u \in U_{ij}} r_{ui} \cdot r_{uj}}{\sqrt{\sum_{u \in U_{ij}} r_{ui}^2} \cdot \sqrt{\sum_{u \in U_{ij}} r_{uj}^2}}
$$

其中，$r_{ui}$表示用户$u$对项目$i$的评分，$U_{ij}$表示同时评价过项目$i$和$j$的用户集合。

计算步骤

根据上述的公式，我们可以将协同过滤算法的计算步骤总结如下：

计算用户之间的相似度：对于每对用户$u$和$v$，计算它们的相似度。
计算项目之间的相似度：对于每对项目$i$和$j$，计算它们的相似度。
预测用户对项目的评分：对于每个用户$u$和每个项目$i$，根据其他与用户$u$相似的用户对项目$i$的评分，预测用户$u$对项目$i$的评分。
根据预测的评分给用户推荐项目：为每个用户推荐一些他们可能感兴趣的项目。

代码示例

接下来，我们将使用Python实现一个简单的协同过滤算法，并使用虚拟数据集进行演示。

首先，我们需要定义一个包含用户评分信息的数据集。假设我们有5个用户和6个项目，用户的评分范围在1到5之间。

ratings = {
 'user1': {'item1': 4, 'item2': 5, 'item3': 3, 'item4': 2, 'item6': 1},
 'user2': {'item1': 3, 'item3': 4, 'item4': 5, 'item5': 2},
 'user3': {'item2': 4, 'item5': 1, 'item6': 3},
 'user4': {'item1': 5, 'item2': 2, 'item4': 1, 'item5': 4},
 'user5': {'item1': 2, 'item3': 3, 'item5': 5, 'item6': 4}
}

接下来，我们定义一个函数来计算用户之间的相似度。

from math import sqrt

def cosine_similarity(user1, user2):
 common_items = set(user1.keys()) & set(user2.keys())

 numerator = sum(user1[item] artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls user2[item] for item in common_items)
 denominator = sqrt(sum(user1[item]**2 for item in common_items)) artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls sqrt(sum(user2[item]**2 for item in common_items))

 if denominator == 0:
 return 0

 return numerator / denominator

然后，我们定义一个函数来计算项目之间的相似度。

def item_similarity(ratings, item1, item2):
 common_users = set(ratings.keys()).intersection(ratings[item1].keys(), ratings[item2].keys())

 numerator = sum(ratings[user][item1] artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls ratings[user][item2] for user in common_users)
 denominator = sqrt(sum(ratings[user][item1]**2 for user in common_users)) artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls sqrt(sum(ratings[user][item2]**2 for user in common_users))

 if denominator == 0:
 return 0

 return numerator / denominator

接着，我们定义一个函数来预测用户对项目的评分。

def predict_rating(ratings, user, item):
 if item not in ratings[user]:
 user_similarities = [(cosine_similarity(ratings[user], ratings[other_user]), other_user) for other_user in ratings if item in ratings[other_user]]
 user_similarities.sort(reverse=True)

 numerator = sum(similarity artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls ratings[other_user][item] for similarity, other_user in user_similarities[:3])
 denominator = sum(similarity for similarity, _ in user_similarities[:3])

 if denominator == 0:
 return 0

 return numerator / denominator

 return ratings[user][item]

最后，我们定义一个函数来为每个用户推荐项目。

def recommend_items(ratings, user):
 predicted_ratings = [(predict_rating(ratings, user, item), item) for item in ratings[user]]
 predicted_ratings.sort(reverse=True)

 return [item for _, item in predicted_ratings if item not in ratings[user]]

代码细节解释

在上述的代码示例中，我们首先定义了一个包含用户评分信息的字典，其中键是用户的名称，值是一个字典，键是项目的名称，值是用户给该项目的评分。

然后，我们实现了用于计算用户之间相似度的cosine_similarity函数，以及用于计算项目之间相似度的item_similarity函数。

接着，我们实现了predict_rating函数，该函数根据其他与用户相似的用户对项目的评分，预测用户对项目的评分。

最后，我们实现了recommend_items函数，该函数根据预测的评分为每个用户推荐一些他们可能感兴趣的项目。

在使用示例的代码时，我们首先调用recommend_items函数来为每个用户推荐项目，并打印推荐结果。

for user in ratings:
 recommended_items = recommend_items(ratings, user)
 print(f"User '{user}' may be interested in: {recommended_items}")

总结

协同过滤算法是推荐系统中常用的技术之一，通过计算用户之间的相似度和项目之间的相似度，可以预测用户对尚未评价的项目的喜好程度，并为用户推荐可能感兴趣的项目。通过使用合适的数据集和算法实现，我们可以根据用户的行为和其他用户的相似性来进行个性化的推荐。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/823064/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

如何使用pytorch搭建一个深度学习模型

总结一下自己使用pytorch写深度学习模型的心得，所有的pytorch模型都离不开下面的几大组件。 Network 创建一个Network类，继承torch.nn.Module，…

人工智能 2023年7月13日
0048
无人驾驶学习笔记 – A-LOAM 算法代码解析总结

目录 1、概述 2、scanRegistration.cpp 2.1、代码注释 2.1.1、主函数 2.1.2、removeClosedPointCloud（雷达周边过近点移除） …

人工智能 2023年6月1日
0075
在反向传播算法中，我们如何更新神经网络中的权重和偏差

问题背景在神经网络中，反向传播算法是一种用于训练神经网络的常用方法。其中，更新神经网络中的权重和偏差是关键的步骤。本文将详细介绍在反向传播算法中如何更新神经网络中的权重和偏差。 …

人工智能 2024年1月5日
0036
【DL】第 9 章：新兴的神经网络设计

🔎大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流🔎📝个人主页－Sonhhxg_柒的博客_CSDN博客📃🎁欢迎各位→点赞👍 + 收藏⭐️ +…

人工智能 2023年7月13日
0071
YOLOX原始论文精读

由于最近需要对YOLOX的理论部分进行深入的理解，因此我需要查看YOLOX的相关论文，但YOLOX是最近新出的目标检测算法，但我发现我无法查看YOLOX相关的见刊论文，因此我只能好…

人工智能 2023年6月25日
00110
MXNe

问题背景 MXNet是一种用于深度学习的开源深度学习框架。在使用MXNet进行深度学习模型训练时，我们经常需要对训练数据进行预处理或者增强，其中一个常见的操作是使用MXNet的ND…

人工智能 2023年12月31日
0035
【OpenCV】OpenCV-Python实现相机标定+利用棋盘格相对位姿估计

写在前面：这次要实现的功能：实时检测棋盘格相对于摄像头的距离以及位姿。为此主要步骤可分为以下三个步骤：标定图片的拍摄、相机的标定、以及棋盘格位姿的实时解算。目录 1. 标定图片…

人工智能 2023年5月28日
0079
深度学习之常用模型评估指标（二）—— 回归问题

深度学习入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。目录一、SSE（误差平方和）二、MSE（均方误差）三、RMS…

人工智能 2023年6月18日
00102
NVIDIA Jetson YOLOv5应用与部署

前言在NVIDIA Jetson AGX Xavier 部署YOLOv5的深度学习环境，然后能正常推理跑模型。首先介绍在NVIDIA Jetson 安装类似于Conda的虚拟环…

人工智能 2023年5月26日
00121
TasNet2018 – 论文笔记

啊哦~你想找的内容离你而去了哦内容不存在，可能是由于以下原因造成的： [En] The content does not exist and may be caused by t…

人工智能 2023年5月27日
0071
【Raspberry Pi】树莓派垃圾分类识别项目

树莓派垃圾分类识别项目代码编写环境配置树莓派端配置 * windows端打包服务器端配置语音合成修改前端界面覆盆子馅饼垃圾分类鉴定项目来源： [En] Source o…

人工智能 2023年5月27日
0067
Python识别二维码的两种方法

人生苦短，快学Python！大家好，我是朱小五最近在搜寻资料时，发现了一则10年前的新闻：二维码将成线上线下关键入口。从今天的移动互联网来看，支付收款码/健康码等等与我们息息相…

人工智能 2023年7月5日
0086
硕士阶段人工智能有哪些比较好的发论文的方向？

人们对于一些新时代诞生得词语总是会提出疑问，比如说什么是人工智能？在帮助盟军通过破解纳粹加密机Enigma赢得第二次世界大战后不到十年，数学家艾伦·图灵（Alan Turing）…

人工智能 2023年7月28日
0059
通过T-DIAG指令对S7通信或TCP通信进行连接状态诊断的具体方法示例

通过T-DIAG指令对S7通信或TCP通信进行连接状态诊断的具体方法示例当我们对2台及以上的PLC建立了例如S7或TCP等通信连接后，如何诊断这些通信连接是否正常？本次和大家分…

人工智能 2023年6月30日
00113
switch&循环语句

1. switch语句 1.1 分支语句switch语句格式 switch (表达式) { case 1: 语句体1; break; case 2: 语句体2; break; ….

人工智能 2023年6月27日
0057
样本不均衡及其解决办法

1 什么是类别不均衡类别不平衡（class-imbalance），也叫数据倾斜，数据不平衡，是指分类任务中不同类别的训练样例数目差别很大的情况。在现实的分类学习任务中，我们经常…

人工智能 2023年7月1日
00124

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31