Collaborativ

2024年1月2日上午4:25 • 人工智能 • 阅读 34

问题介绍

Collaborative Filtering（协同过滤）是推荐系统中一种常见的技术。它的目标是根据用户的历史行为和与其他用户的相似性来预测用户可能喜欢的项目。

在本问题中，我们将研究如何使用协同过滤算法来为用户推荐电影。我们将使用一个虚拟的电影评分数据集，其中包含多位用户对多部电影的评分。

算法原理

协同过滤算法的核心思想是“物以类聚”和“人以群分”。它有两种主要的实现方式：基于用户的协同过滤和基于物品的协同过滤。

基于用户的协同过滤算法通过计算用户之间的相似性来预测用户对项目的评分。它的基本原理是，如果两个用户在过去的评分上有相似的偏好，那么他们在将来的评分上可能也会有相似的偏好。具体而言，算法通常通过计算用户之间的相似度得分来预测用户对未评分项目的评分。

基于物品的协同过滤算法与基于用户的协同过滤算法类似，但是它是通过计算项目之间的相似性来预测用户对项目的评分。算法的基本原理是，如果两个项目在过去的评分中经常与相同的用户得到高分，那么它们在将来的评分中也可能会有类似的表现。

在本问题中，我们将使用基于用户的协同过滤算法来为用户推荐电影。

协同过滤算法原理

假设我们有m个用户和n个电影。我们可以使用一个m×n的矩阵来表示用户对电影的评分，其中第i行第j列的元素表示用户i对电影j的评分。

我们现在的目标是预测用户u对电影i的评分。为此，我们可以计算用户u与其他用户之间的相似度。一种常见的相似度度量方法是余弦相似度。余弦相似度反映了向量之间的夹角，范围在-1到1之间，值越大表示越相似。

具体而言，我们使用以下公式计算用户u和用户v之间的余弦相似度：

$$
\text{similarity}(u, v) = \frac{{\sum\limits_{i=1}^{n}(r_{ui} – \bar{r_u})(r_{vi} – \bar{r_v})}}{{\sqrt{\sum\limits_{i=1}^{n}(r_{ui}-\bar{r_u})^2} \sqrt{\sum\limits_{i=1}^{n}(r_{vi}-\bar{r_v})^2}}}
$$

其中，$r_{ui}$表示用户u对电影i的评分，$\bar{r_u}$表示用户u的平均评分。

当我们计算了用户u与其他用户之间的相似度后，我们可以使用以下公式来预测用户u对电影i的评分：

$$
\hat{r}{ui} = \bar{r_u} + \frac{{\sum\limits{v\in N}(r_{vi} – \bar{r_v}) \cdot \text{similarity}(u, v)}}{{\sum\limits_{v\in N}\text{similarity}(u, v)}}
$$

其中，$N$表示与用户u最相似的k个用户。

这样，我们就可以根据用户之间的相似度来推荐电影给用户。

计算步骤

读取虚拟电影评分数据集；
计算每个用户的平均评分；
为每个用户计算与其他用户之间的相似度；
根据相似度预测用户对未评分电影的评分；
根据预测评分推荐电影给用户。

Python代码示例

import numpy as np

# 读取虚拟电影评分数据集
data = np.array([
 [5, 2, 4, 3, np.nan, np.nan],
 [np.nan, 4, np.nan, 5, 1, np.nan],
 [3, np.nan, 3, np.nan, 4, 5],
 [1, np.nan, np.nan, 4, np.nan, 2]
])

# 计算每个用户的平均评分
mean_ratings = np.nanmean(data, axis=1)

# 计算用户之间的相似度
similarities = np.zeros((data.shape[0], data.shape[0]))
for i in range(data.shape[0]):
 for j in range(data.shape[0]):
 if i != j:
 mask = ~np.logical_or(np.isnan(data[i]), np.isnan(data[j]))
 if np.sum(mask) > 0:
 similarities[i, j] = np.dot(data[i, mask] - mean_ratings[i], data[j, mask] - mean_ratings[j]) \
 / (np.linalg.norm(data[i, mask] - mean_ratings[i]) 
 artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls np.linalg.norm(data[j, mask] - mean_ratings[j]))

# 预测用户对未评分电影的评分
predictions = np.zeros((data.shape[0], data.shape[1]))
for i in range(data.shape[0]):
 for j in range(data.shape[1]):
 if np.isnan(data[i, j]):
 mask = ~np.isnan(data[:, j])
 if np.sum(mask) > 0:
 predictions[i, j] = mean_ratings[i] + np.sum((data[:, j][mask] - mean_ratings[mask]) 
 artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls similarities[i, mask]) / np.sum(similarities[i, mask])

# 推荐电影给用户
recommendations = np.argsort(predictions, axis=1)[:, ::-1]

print("预测评分矩阵：")
print(predictions)
print("电影推荐矩阵：")
print(recommendations)

代码细节解释

第1行导入了numpy库，用于处理多维数组和矩阵计算。
第4行定义了一个虚拟的电影评分数据集，其中np.nan表示缺失值（未评分）。
第7行使用np.nanmean()函数计算每个用户的平均评分。np.nanmean()函数自动忽略缺失值。
第10-18行使用嵌套的循环计算用户之间的相似度。其中，第13行计算两个用户之间的相似度得分，然后将得分保存到相似度矩阵中。
第21-30行使用嵌套的循环预测用户对未评分电影的评分。其中，第24行根据相似度和其他用户对该电影的评分来预测用户的评分。
第33行使用np.argsort()函数将预测评分矩阵中的评分从高到低排序，并返回对应的电影索引，生成推荐电影矩阵。

这样，我们就完成了基于用户的协同过滤推荐算法的实现，并得到了电影的推荐结果。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/823040/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

DataFrame 求存在空值的行或列

非转置：df.isnull().any()，得到的每一列求any()计算的结果，输出为列的Series。转置：df.isnull().T.any()，得到的每一行求any()计算…

人工智能 2023年7月7日
0037
pytorch模型从训练到LibTorch部署(标贝科技)

1、pytorch和libtorch安装(标贝科技) PyTorch 是Torch7 团队开发的，从它的名字就可以看出，其与Torch 的不同之处在于PyTorch 使用了Pyth…

人工智能 2023年6月6日
0092
Windows 深度学习配置详解（CUDA、Pytorch、Tensorflow等）

深度学习配置详解, 包括历史版本。本文包含很多实用链接，为方便快速查阅，文中没有加图片。 1、安装Visual Studio 2、安装CUDA 3、安装CUDNN 下载地址：各版本…

人工智能 2023年5月25日
0095
不容忽视的30个数据可视化小技巧

公众号：尤而小屋作者：Peter编辑：Peter 大家好，我是Peter~ 写过很多关于Pandas的文章，本文开展了一个简单的综合使用，主要分为：如何自行模拟数据多种数据处理…

人工智能 2023年7月6日
0042
EXCEL数据分析项目 – 商贸企业销售数据分析实战

目录一、前提信息 1 案例背景 2 项目目标 3 数据理解二、总体分析需求1 分析2020到2021年各类产品销售情况需求2 分析2021年各地区的销售情况需求3 202…

人工智能 2023年7月15日
0059
如何批量删除文件名末尾的几位字符？

在日常工作中，我总是要处理各种文件。有时我需要处理这些文件的文件名，它们后面的不同数字是由时间戳生成的，但这些时间戳对我来说毫无用处。如果你把它们一个一个地重命名，真的很麻烦。如果…

人工智能 2023年5月27日
00249
自编码器概念

目录自编码器的定义与原理 * 自编码器简介自编码器的设计自编码器的应用变分自编码器（VAE）自编码器的定义与原理自编码器简介 Encoder：将图片编码并压缩成向量De…

人工智能 2023年7月28日
0050
DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection 论文笔记

原文链接：https://arxiv.org/pdf/2203.08195.pdf 1.引言目前的方法主要基于两种融合方式：早期融合（融合数据）和中期融合（融合特征）。但是，由…

人工智能 2023年7月10日
0072
ICCV2019_Slimmable:(US-Nets)Universally Slimmable Networks and Improved Training Techniques

Institute：University of Illinois at Urbana-Champaign Author：Jiahui Yu, Thomas Huang GitHub…

人工智能 2023年6月4日
0068
自然语言处理—Embedding简单应用

Embedding原理 1.1 基本原理在自然语言处理中，embedding是一个重要的概念。那么Embedding是什么呢？假设一个词库中有个单词，每个单词有对应的one-h…

人工智能 2023年5月30日
0060
使用spss做各种相关性分析的方法和步骤

目录数据类型相关性分析的方法用spss操作卡方检测 Eta检测皮尔逊(Pesrson)检测 Spearman(斯皮尔曼) 数据类型先说明spss里的三种数据类型, 可以…

人工智能 2023年7月16日
0043
全连接神经网络详解（Full Connect Neural Network）

深度学习最基础的网络类型的之一，全连接神经网络（Full Connect Neural Network）是大多数入门深度学习领域的初学者必学的内容，充分体现深度学习方法相比于传统机…

人工智能 2023年6月15日
0084
huggingFace 中文模型实战——中文文本分类

学习了哔哩哔哩up主——兰斯诺特视频后做的学习笔记代码网址 https://github.com/lansinuote/Huggingface_Toturialsupz主推荐书：…

人工智能 2023年5月27日
0079
人工神经网络简介

人工神经网络的概念人工神经网络（Artificial Neural Network，ANN）简称神经网络（Neural Network）或类神经网络，是一种模仿生物神经网络的结构…

人工智能 2023年7月28日
0065
太赞了，300+图解Pandas，超级用心的教程！

大家好，我是阳哥。有不少同学跟我提过，看看能不能出一系列 Pandas 数据处理的教程，之前一直也没来得及弄。最近几个月，才开始陆陆续续的弄内容。 01已发布的内容为了大家能…

人工智能 2023年7月7日
0045
深度伪造（Deepfake）原理，生成和检测

深度伪造（Deepfake）原理，生成和检测一. 前沿二. Deepfake背景 * 2.1 视频伪造 2.2 自动编码器 2.3 生成对抗网络三. Deepfake生成四…

人工智能 2023年7月26日
0081

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30