协同过滤算法中的基于邻域的方法有哪些

2024年1月2日上午2:14 • 人工智能 • 阅读 38

问题说明

这个问题涉及协同过滤算法中的基于邻域的方法。要求详细解释介绍这些方法的算法原理、公式推导、计算步骤，并提供复杂Python代码示例以及代码细节解释。本次解答将使用开源数据集，并使用Python完成。

介绍

基于邻域的方法是协同过滤算法中最常见和简单的方法之一。其基本思想是利用用户或物品之间的相似度来预测未知评分。当一个用户未对某个物品评分时，我们可以通过该用户的邻居用户对该物品的评分来预测该用户的评分。同样地，当一个物品没有被某个用户评分时，我们可以通过该用户给其他物品的评分以及这些物品与未评分物品的相似度来预测该用户对未评分物品的评分。

算法原理

基于邻域的方法通常可以分为两类：用户-用户协同过滤和物品-物品协同过滤。

用户-用户协同过滤

用户-用户协同过滤方法的核心思想是找到和目标用户兴趣相似的邻居用户，并利用邻居用户对目标物品的评分来预测目标用户对该物品的评分。

公式推导

设目标用户为$a$，邻居用户为$N(a)$，物品为$i$，目标用户$a$对物品$i$的预测评分为$\hat{r}_{ai}$。那么，可以使用以下公式进行预测：

$$\hat{r}{ai} = \bar{r}_a + \frac{\sum{u \in N(a)} w_{au}(r_{ui} – \bar{r}u)}{\sum{u \in N(a)} |w_{au}|}$$

其中，$\bar{r}a$是目标用户$a$的平均评分，$\bar{r}_u$是邻居用户$u$的平均评分，$w{au}$是目标用户$a$和邻居用户$u$的相似度。

计算步骤

计算各个用户的平均评分$\bar{r}_a$和物品的平均评分$\bar{r}_i$。
计算用户之间的相似度$w_{au}$，可以使用余弦相似度等方法。
对于目标用户$a$和目标物品$i$，找到邻居用户集合$N(a)$，并计算预测评分$\hat{r}_{ai}$。

Python代码示例

import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

class UserBasedCF:
 def __init__(self, ratings_matrix):
 self.ratings_matrix = ratings_matrix

 def calculate_similarity(self):
 similarity_matrix = cosine_similarity(self.ratings_matrix)
 return similarity_matrix

 def predict_rating(self, user_id, item_id, k=5):
 user_ratings = self.ratings_matrix[user_id]
 item_ratings = self.ratings_matrix[:, item_id]

 user_avg_rating = np.mean(user_ratings)
 item_avg_rating = np.mean(item_ratings)

 similarity_matrix = self.calculate_similarity()

 user_similarities = similarity_matrix[user_id]
 most_similar_users = np.argsort(user_similarities)[-k:]

 numerator = np.dot(user_similarities[most_similar_users], (item_ratings[most_similar_users] - item_avg_rating))
 denominator = np.sum(np.abs(user_similarities[most_similar_users]))

 predicted_rating = user_avg_rating + numerator / denominator
 return predicted_rating

# 数据集示例
ratings_matrix = np.array([[5, 3, 0, 1],
 [4, 0, 3, 1],
 [1, 1, 0, 5],
 [1, 0, 0, 4],
 [0, 1, 5, 4]])

# 创建UserBasedCF对象并进行预测
cf_model = UserBasedCF(ratings_matrix)
predicted_rating = cf_model.predict_rating(0, 2)
print(predicted_rating)

代码细节解释

import numpy as np 导入NumPy库用于数值计算。
from sklearn.metrics.pairwise import cosine_similarity 导入cosine_similarity函数用于计算余弦相似度。
class UserBasedCF 定义了一个UserBasedCF类，包含了计算用户之间相似度和预测评分的方法。
calculate_similarity 方法利用cosine_similarity函数计算用户之间的相似度矩阵。
predict_rating 方法根据公式推导，传入用户ID和物品ID，返回预测评分。
ratings_matrix 是一个示例的用户-物品评分矩阵。
创建了UserBasedCF对象并调用predict_rating方法，传入用户ID和物品ID进行预测评分。

总结

基于邻域的方法是协同过滤算法中常用的方法之一。它通过利用用户或物品之间的相似度来预测未知评分。在用户-用户协同过滤中，我们找到和目标用户兴趣相似的邻居用户，并利用邻居用户对目标物品的评分来预测目标用户对该物品的评分。通过计算目标用户与邻居用户之间的相似度，可以使用公式推导的方法得到预测评分。最后，通过Python代码示例展示了如何实现用户-用户协同过滤算法，并使用一个示例数据集进行了预测评分的演示。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/822996/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【论文翻译】Meta Relational Learning for Few-Shot Link Prediction in Knowledge Graphs

【论文翻译】Meta Relational Learning for Few-Shot Link Prediction in Knowledge Graphs （基于元关系学习的小…

人工智能 2023年6月1日
0094
【NLP】中文文本分类数据增强方法：EDA 与代码实现

数据增强可以算作是做深度学习算法的一个小trick。该介绍主要出自论文：EDA: Easy Data Augmentation Techniques for Boosting Pe…

人工智能 2023年5月30日
0085
NLP炼丹技巧合集

原创：郑佳伟在NLP任务中，会有很多为了提升模型效果而提出的优化，为了方便记忆，所以就把这些方法都整理出来，也有助于大家学习。为了理解，文章并没有引入公式推导，只是介绍这些方法是…

人工智能 2023年5月30日
0055
大二毕设.1-学生信息管理系统

学生信息管理系统学生列表添加学生编辑删除添加重置修改 new Vue({ el: "#div", data:{ dialogTableVisibl…

人工智能 2023年7月30日
0037
机器学习强基计划4-3：详解朴素贝叶斯分类原理(附例题+Python实现)

目录 0 写在前面 1 贝叶斯方法 2 贝叶斯风险 3 从例子出发 4 朴素贝叶斯分类 * 4.1 核心原理 4.2 拉普拉斯平滑 5 Python实现 * 5.1 计算类先验概率…

人工智能 2023年6月12日
0083
Pytorch搭建LeNet5网络

本讲目标：介绍Pytorch搭建LeNet5网络的流程。 Pytorch八股法搭建LeNet5网络 1.LeNet5网络介绍 2.Pytorch搭建LeNet5网络 * 2.1搭建…

人工智能 2023年7月22日
0063
SPL工业智能：发现时序数据的异常

基本问题工业生产过程中会产生大量的数据，比如电压、温度、流量等等，它们随时间推移而不断产生，这些数据在多数情况下是正常的，否则生产无法正常进行；少数情况下，数据是异常的，生产效率…

人工智能 2023年7月26日
0058
【Carsim Simulink自动驾驶仿真】基于MPC的速度控制

本人也是刚开始探索，大家一起讨论一起进步！项目介绍：教程为北理工的无人驾驶车辆模型预测控制第2版，代码为开源代码。所用的仿真软件为Carsim2020.0和MatlabR2021a…

人工智能 2023年6月1日
00214
yolov5 训练结果解析

yolov5 训练结果解析本文仅用于记录之前在CSDN中所学有关YOLOv5结果解析所转载知识的记录和总结笔记用。在每次训练之后，都会在runs-train 文件夹下出现一下文…

人工智能 2023年6月23日
0097
【医学图像处理】融合 Transformer 和 CNN 进行医学图像分割

标题：TransFuse: Fusing Transformers and CNNs for Medical Image Segmentation作者：Yundong Zhang，…

人工智能 2023年6月17日
00175
SIFT算法特征匹配

目录 * – + 一、SIFT算法 + * – + DOG尺度空间构造（Difference of Gaussian） + 关键点搜索与定位 + 方向赋值、…

人工智能 2023年6月19日
00100
Pandas练习题（一）

Ex1：口袋妖怪数据集 import numpy as np import pandas as pd data = [[1,’Bulbasaur’,’Grass’,’Poison’…

人工智能 2023年7月7日
0035
Transformer综述(A Survey on Vision Transformer) 阅读学习笔记（二）– transformer在计算机视觉领域的发展和应用

论文综述：文章主旨：在本文中，我们回顾了这些视觉Transformer模型，将它们分为不同的任务，并分析了它们的优缺点。我们探讨的主要类别包括主干网络、高/中级视觉、低级视觉和视频…

人工智能 2023年5月28日
0088
MNIST手写数字识别——进阶多层神经网络与应用（使用Keras序列模型建模）

1、载入数据 import tensorflow as tf import numpy as np import matplotlib.pyplot as plt %matplot…

人工智能 2023年7月14日
0062
Pycharm安装numpy失败

在使用Pycharm下载numpy库时，可能会出现以下错误：这种情况主要是两种思路：第一种方法是查看是否pip版本是否正确，具体操作方法可以参照这篇博客：PyCharm安装库n…

人工智能 2023年7月6日
0056
基于粒子群优化算法(PSO)的超参数调优(分类模型)

1 GlobalBestPSO() 函数简介 PSO 超参数调优采用的是 pyswarm 包中的 GlobalBestPSO()： class pyswarms.single.gl…

人工智能 2023年7月16日
0086

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31