Collaborativ

2024年1月2日上午9:29 • 人工智能 • 阅读 44

介绍

Collaborative Filtering（协同过滤）是一种常用的推荐系统算法，其基本思想是利用用户对物品的偏好信息来预测用户对未知物品的喜好程度。在本文中，我们将详细介绍Collaborative Filtering算法的原理、公式推导、计算步骤以及Python代码示例。

算法原理

协同过滤算法的核心思想是基于用户的历史行为信息来进行推荐。该算法有两种基本形式：基于用户的协同过滤（User-Based Collaborative Filtering）和基于物品的协同过滤（Item-Based Collaborative Filtering）。

基于用户的协同过滤中，推荐系统会根据用户之间的相似度来寻找相似用户，并根据这些相似用户对未知物品的喜好程度进行预测。相似用户是通过计算用户之间的相似度指标来确定的，常用的相似度指标有余弦相似度、皮尔逊相关系数等。

基于物品的协同过滤中，推荐系统会根据物品之间的相似度来寻找相似物品，并根据用户的历史行为对这些相似物品的喜好程度进行预测。相似物品的计算方法也可以使用余弦相似度、皮尔逊相关系数等。

在本文中，我们以基于用户的协同过滤算法为例进行介绍。

公式推导

协同过滤算法的关键是计算用户之间的相似度。以用户i和用户j为例，可以使用余弦相似度来计算：

$$
\text{similarity}(i, j) = \frac{\sum_{k \in I_{ij}} R_{ik} \cdot R_{jk}}{\sqrt{\sum_{k \in I_{ij}} R_{ik}^2} \cdot \sqrt{\sum_{k \in I_{ij}} R_{jk}^2}}
$$

其中，$I_{ij}$表示用户i和用户j共同喜好的物品集合，$R_{ik}$表示用户i对物品k的评分，$R_{jk}$表示用户j对物品k的评分。

计算用户之间的相似度后，我们可以根据相似用户对未知物品的评分进行预测。以用户i为例，预测用户i对物品k的评分可以使用加权平均的方式：

$$
\hat{R}{ik} = \frac{\sum{j \in N(i)} \text{similarity}(i, j) \cdot R_{jk}}{\sum_{j \in N(i)} \text{similarity}(i, j)}
$$

其中，$N(i)$表示与用户i最相似的k个用户，$\text{similarity}(i, j)$为用户i和用户j之间的相似度，$R_{jk}$为用户j对物品k的评分。

计算步骤

基于用户的协同过滤算法的计算步骤如下：

计算用户之间的相似度：对于每一个用户i，计算与其他所有用户之间的相似度。
寻找最相似的k个用户：根据用户之间的相似度，选择与用户i最相似的k个用户作为邻居集合$N(i)$。
预测用户对未知物品的评分：根据邻居集合$N(i)$和用户的历史评分数据，预测用户i对未知物品的评分$\hat{R}_{ik}$。
为用户i推荐Top-N物品：根据用户i的评分预测值$\hat{R}_{ik}$，选择预测值最高的N个物品进行推荐。

Python代码示例

下面是基于用户的协同过滤算法的完整Python代码示例，以电影评分数据为例：

import numpy as np

def user_based_collaborative_filtering(data, k, N):
 # 计算用户之间的相似度矩阵
 similarity_matrix = np.zeros((len(data), len(data)))
 for i in range(len(data)):
 for j in range(len(data)):
 if i == j:
 similarity_matrix[i, j] = 1.0
 else:
 similarity_matrix[i, j] = cosine_similarity(data[i], data[j])

 # 获取最相似的k个用户
 top_k_users = np.argsort(similarity_matrix, axis=1)[:, -k-1:-1]

 # 预测用户对未知物品的评分
 predicted_ratings = np.zeros((len(data), len(data[0])))
 for i in range(len(data)):
 for j in range(len(data[0])):
 if data[i, j] == 0:
 numerator = 0.0
 denominator = 0.0
 for neighbor in top_k_users[i]:
 numerator += similarity_matrix[i, neighbor] artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls data[neighbor, j]
 denominator += similarity_matrix[i, neighbor]
 predicted_ratings[i, j] = numerator / denominator

 # 为用户推荐Top-N物品
 recommendations = np.argsort(predicted_ratings, axis=1)[:, -N:]

 return recommendations

代码细节解释

在代码中，data是一个二维数组，表示用户对物品的评分矩阵，其中0表示未知评分。
cosine_similarity函数用于计算两个用户之间的余弦相似度。
user_based_collaborative_filtering函数接受评分矩阵、邻居数k和推荐物品数N作为输入。
首先，通过循环计算用户之间的相似度矩阵，并将对角线元素设置为1.0，表示每个用户与自己的相似度为1.0。
然后，根据相似度矩阵选择每个用户的最相似k个用户，存储在top_k_users中。
接下来，对于每个未知评分（值为0的元素），通过循环遍历最相似的邻居用户，计算预测评分值。
最后，根据预测评分值，选择每个用户的Top-N物品作为推荐结果，并返回recommendations数组。

以上是基于用户的协同过滤算法的详细解释和Python代码示例，希望可以帮助你理解该算法的原理和实现细节。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/823144/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pandas创建DataFrame的几种方式（建议收藏）

pandas创建DataFrame的几种方式如果你是一个pandas初学者，那么不知道你会不会像我一样。在学用列表或者数组创建DataFrame时理不清怎样用数据生成以及想要形状…

人工智能 2023年6月11日
0066
盘点一个Pandas中explode()爆炸函数应用实际案例

点击上方” Python爬虫与数据挖掘“，进行关注回复” 书籍“即可获赠Python从入门到进阶共10本电子书今日鸡汤莫…

人工智能 2023年7月17日
0078
逻辑回归在处理高维度数据时会遇到什么问题

问题描述在处理高维度数据时，逻辑回归可能会遇到一些问题。本文将详细介绍逻辑回归的算法原理、公式推导和计算步骤，并给出使用复杂Python代码的示例来解决这些问题。算法原理逻辑…

人工智能 2024年1月6日
0032
MyBatis中的association的使用

文章目录 * – + 通过association对两表进行联表查询 + 按照查询嵌套处理 + 按照结果嵌套处理通过association对两表进行联表查询 stude…

人工智能 2023年7月29日
0078
ubuntu系统只有lo本地网卡

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

人工智能 2023年6月4日
0053
sox语音开源库的功能剖析

sox是一个跨平台的命令行工具，可以进行音频格式转换，也可以应用各种音效到文件中，还支持在大多数平台进行播放与录制，堪称音频界的瑞士军刀。接下来，我们详细介绍sox库支持的音频格式…

人工智能 2023年5月25日
0079
【matlab图像处理】图像的逻辑运算实践

中国史之【昭王攻荆楚】：周天子周昭王三次南征楚国的战争。周昭王亲率六师南征楚国，在汉水边准备渡江时，因为船只被人做了手脚而沉入水中，周人丧失六师于汉水中，遭到全军覆没的惨败。——来…

人工智能 2023年6月20日
0097
论文浅尝 | 记忆推理：最近邻知识图谱嵌入

笔记整理：孙硕硕，东南大学硕士，研究方向为根因溯源。Citation: Zhang N, Xie X, Chen X, et al. Reasoning Through Memor…

人工智能 2023年6月1日
0076
python csv文件读取写入操作

import csv 写入内容 newline="" 新的一行隔行去掉 encoding指定字符集编码的 with open("练习.csv&quot…

人工智能 2023年7月8日
0042
【YOLOv5】yolov5目标识别+DeepSort目标追踪

引言利用yolov5训练的目标识别模型，结合DeepSort实现目标追踪源码下载：（1）Yolov5_DeepSort_Pytorch (该源码下载下来的yolov5文件夹是空的…

人工智能 2023年6月16日
0086
‘labelme‘ 不是内部或外部命令，也不是可运行的程序问题解决

文章目录一、安装labelme * 1.创建虚拟环境 2.安装pyqt支持库 3.安装Labelme 二、lableme启动一、安装labelme 1.创建虚拟环境命令行输入…

人工智能 2023年6月17日
00113
用skimage里的函数计算彩色图像SSIM时，明明设置multichannel=True却还是报错ValueError: win_size exceeds image extent.

问题描述在用skimage的函数计算两张图片的SSIM时： from skimage.metrics import structural_similarity as SSIM 我…

人工智能 2023年6月17日
0080
使用OpenCV、ONNXRuntime部署YOLOV7目标检测——记录贴

这两天想实现yolov5的tensort加速，小白一枚，领悟甚浅，只能记录一下，防止遗忘了。先记录一下yolov7： yolov7的OpenCV、ONNXRuntime部署分享…

人工智能 2023年5月26日
00116
目标检测模型——One stage（YOLO v5的模型解析及应用）

简介目标检测分为Two stage和One stage,只使用一个网络同时产生候选区域并预测出物体的类别和位置，所以它们通常被叫做单阶段检测算法（One stage）。本篇文章只…

人工智能 2023年5月28日
0099
OpenCV 中的图像处理 005_形态变换

本文主要内容来自于 OpenCV-Python 教程的 OpenCV 中的图像处理部分，这部分的全部主要内容如下：改变色彩空间学习在不同色彩空间之间改变图像。另外学习跟踪视…

人工智能 2023年6月22日
0081
基于R语言的回归分析实现

目录 1.一元线性模型 1.1绘制散点图 1.2回归参数的估计 1.3回归方程的显著性检验 1.4线性模型常用函数 2.软件实现 2.1绘制散点图 2.2计算回归 2.3做预测 2…

人工智能 2023年6月16日
00121

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31