协同过滤是什么

2024年1月2日上午1:01 • 人工智能 • 阅读 59

什么是协同过滤？

协同过滤是一种用于推荐系统的技术，主要针对用户行为和偏好进行分析和预测。它基于用户之间的相似性来预测用户的喜好，为用户提供个性化的推荐。

算法原理

协同过滤算法主要有两种形式：基于用户的协同过滤和基于物品的协同过滤。

基于用户的协同过滤

基于用户的协同过滤算法通过计算用户之间的相似性来预测目标用户对某个物品的喜好程度。具体步骤如下：

计算用户之间的相似度，通常使用余弦相似度或皮尔逊相关系数进行计算。
选择与目标用户相似度最高的K个用户。
根据这K个相似用户对物品的评分数据，预测目标用户对某个物品的评分。

基于物品的协同过滤

基于物品的协同过滤算法通过计算物品之间的相似度来预测目标用户对某个物品的喜好程度。具体步骤如下：

计算物品之间的相似度，通常使用余弦相似度或皮尔逊相关系数进行计算。
选择与目标物品相似度最高的K个物品。
根据目标用户对这K个相似物品的评分数据，预测目标用户对某个物品的评分。

具体推导及公式

基于用户的协同过滤算法公式

假设有M个用户和N个物品，用户-物品评分矩阵表示为R。

用户之间的相似度使用余弦相似度进行计算，公式如下：

$$\text{similarity}(u, v) = \frac{\sum_{i=1}^{N} R_{ui} \cdot R_{vi}}{\sqrt{\sum_{i=1}^{N} R_{ui}^2} \cdot \sqrt{\sum_{i=1}^{N} R_{vi}^2}}$$

其中，$R_{ui}$表示用户u对物品i的评分，$R_{vi}$表示用户v对物品i的评分。

选择与目标用户相似度最高的K个用户，计算目标用户u对物品i的评分时，使用加权平均值进行预测，公式如下：

$$\hat{R}{ui} = \frac{\sum{v \in S(u)} \text{similarity}(u, v) \cdot R_{vi}}{\sum_{v \in S(u)} \text{similarity}(u, v)}$$

其中，$\hat{R}_{ui}$表示预测的评分，$S(u)$表示与目标用户相似度最高的K个用户的集合。

基于物品的协同过滤算法公式

物品之间的相似度使用余弦相似度进行计算，公式如下：

$$\text{similarity}(i, j) = \frac{\sum_{u=1}^{M} R_{ui} \cdot R_{uj}}{\sqrt{\sum_{u=1}^{M} R_{ui}^2} \cdot \sqrt{\sum_{u=1}^{M} R_{uj}^2}}$$

选择与目标物品相似度最高的K个物品，计算目标用户u对物品i的评分时，使用加权平均值进行预测，公式如下：

$$\hat{R}{ui} = \frac{\sum{j \in S(i)} \text{similarity}(i, j) \cdot R_{uj}}{\sum_{j \in S(i)} \text{similarity}(i, j)}$$

其中，$\hat{R}_{ui}$表示预测的评分，$S(i)$表示与目标物品相似度最高的K个物品的集合。

计算步骤

基于用户的协同过滤算法的计算步骤如下：

计算用户之间的相似度矩阵。
对于目标用户u和物品i，找到与目标用户相似度最高的K个用户，记为S(u)。
使用S(u)中用户的评分数据，计算目标用户对物品i的评分预测值。
根据预测值给目标用户推荐物品。

基于物品的协同过滤算法的计算步骤与上述类似。

Python代码示例

下面是基于用户的协同过滤算法的Python代码示例，使用MovieLens数据集作为示例数据：

import pandas as pd
import numpy as np

# 读取MovieLens数据集
ratings_df = pd.read_csv("ratings.csv")

# 构建用户-物品评分矩阵
ratings_matrix = ratings_df.pivot(index='userId', columns='movieId', values='rating')

# 计算用户之间的相似性矩阵
user_similarity_matrix = ratings_matrix.corr(method='pearson')

# 选择与目标用户相似度最高的K个用户
K = 10
target_user = 1
similar_users = user_similarity_matrix[target_user].nlargest(K).drop(target_user)

# 计算预测的评分
target_movie = 1
predicted_rating = np.sum(similar_users artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls ratings_matrix[target_movie][similar_users.index]) / np.sum(similar_users)
print("Predicted rating for movie 1 by user 1:", predicted_rating)

上述代码中，首先读取MovieLens数据集中的评分数据并构建用户-物品评分矩阵。然后计算用户之间的相似性矩阵，并选择与目标用户相似度最高的K个用户。最后，根据相似用户的评分数据计算目标用户对某个物品的评分预测值。

代码细节解释

代码的第一行导入了pandas和numpy库，用于数据处理和计算。
第3行读取MovieLens数据集的评分数据，并存储在名为ratings_df的DataFrame中。
第6行使用pivot函数将评分数据转换为用户-物品评分矩阵，存储在名为ratings_matrix的DataFrame中。
第9行使用corr函数计算用户之间的相似性矩阵，使用皮尔逊相关系数作为相似度计算方法。
第12行选择与目标用户相似度最高的K个用户，使用nlargest函数找出相似度最高的K个用户，并通过drop函数去除目标用户自身。
第15行使用相似用户的评分数据和相似度进行加权平均值计算，得到目标用户对某个物品的评分预测值。
最后一行输出目标用户对物品1的评分预测值。

以上是基于用户的协同过滤算法的Python代码示例及详细解释。根据相似用户的评分数据进行加权平均值计算，可以预测目标用户对某个物品的评分。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/822972/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习实战（十）：使用 PyTorch 进行 3D 医学图像分割

深度学习实战（十）：使用 PyTorch 进行 3D 医学图像分割 1. 项目简介 2. 3D医学图像分割的需求 3. 医学图像和MRI 4. 三维医学图像表示 5. 3D-Une…

人工智能 2023年6月16日
00103
在PyTorch中，如何加载和处理图像数据集

问题：如何在PyTorch中加载和处理图像数据集？详细介绍：在深度学习中，处理图像数据集是一个常见的任务。PyTorch是一种广泛使用的深度学习框架之一，提供了方便的API来加…

人工智能 2024年1月2日
0077
还看不懂Python OpenCV？不，我不允许！隔壁大爷都说看得懂！❤️环境配置+问题分析+视频图像入门❤️万字只为你~

📢📢📢📣📣📣🌻🌻🌻Hello，大家好我叫是Dream呀，一个有趣的Python博主，小白一枚，多多关照😜😜😜🏅🏅🏅CSDN Python领域新星创作者，大二在读，欢迎大家找我合作学…

人工智能 2023年6月19日
0094
Mysql中EXPLAIN解读

Explain介绍当EXPLAIN与可解释的语句一起使用时，MySQL将显示来自优化器的有关语句执行计划的信息。也就是说，MySQL解释了它将如何处理该语句，包括有关如何连接表以…

人工智能 2023年6月28日
0099
医咖会免费STATA教程学习笔记——简单线性回归

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月18日
00119
微软自动调参工具—NNI安装与快速上手，AutoML必备工具

文章目录概述直观的看看里面有什么安装方法 NNI 快速入门与超参优化 * 设置超参数的搜索范围配置config.yaml 听说点进蝈仔帖子的都喜欢点赞加关注~~ 老规矩官网…

人工智能 2023年7月13日
0096
python：矩阵的基本运算

一、Python 矩阵基本运算引入 numpy 库 import numpy as np python矩阵操作 1）使用 mat 函数创建一个 2X3矩阵 a = np.mat(…

人工智能 2023年7月4日
0066
深度强化学习-TD3算法原理与代码

深度强化学习-TD3算法原理与代码引言 1 TD3算法简介 2 TD3算法原理 2.1 双重网络 2.1.1 网络过估计的成因 2.1.2 双重网络的引入 2.2 目标策略平滑正…

人工智能 2023年7月20日
00105
【机器学习】使用Matlab和CNN完成回归任务

文章目录前言一、数据集的制作二、网络构建与训练 * 1. 图像预处理 2. 训练数据生成 3. 网络构建 4. 指定参数并训练三、试用网络前言今天我们完成一个需求：给不…

人工智能 2023年6月17日
00140
opencv人脸识别（一）调用笔记本摄像头

我将分享一个完整的项目，从基础库安装到人脸识别，做一个可视化的界面。 1、opencv-python安装要调用电脑摄像头得安装在python种安装opencv库；使用 pip i…

人工智能 2023年5月28日
00100
pajek软件_科学知识图谱软件之使用技巧总结

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月1日
0086
基于数据挖掘的H公园客流量分析预测

2章 H公园客流量初步分析 H公园开园于2018年11月，开园时间短，所拥有的历史数据只有一年多，缺少历年来数据的对比，相关人员本身无法根据这些数据得到有价值的信息，例如季节趋势等…

人工智能 2023年7月16日
0074
【机器学习笔记1】一元线性回归模型及预测

目录什么是线性回归模型？一元线性回归模型问题引入：问题解析：代价函数（损失函数）：代价函数的图像为什么不是最小而是极小值？梯度下降算法梯度下降算法公式（对于一元线…

人工智能 2023年6月15日
00103
uniapp IOS从打包到上架流程（详细简单）

打包流程一.生成p12证书（先做标明小编是满足了mac和苹果手机系统ios14.1及以上的情况在申请）首先你要加入苹果的开发者计划: 在这个地址去注册苹果账号：ht…

人工智能 2023年5月30日
00112
KNN(K最近邻算法)原理及代码实现

机器学习没有免费午餐定理和三大机器学习任务如何对模型进行评估K-Means(K均值聚类)原理及代码实现KNN(K最近邻算法)原理及代码实现KMeans和KNN的联合演习文章目录…

人工智能 2023年6月19日
0099
深度学习和机器学习研究方向与框架介绍

深度学习和机器学习研究方向与框架介绍一、人工智能研究方向 1. 计算机视觉（Computer Vision, CV）——纯粹的深度学习方向的研究计算机视觉，是指计算机从图像中识…

人工智能 2023年6月15日
0087

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31