协同过滤（Collaborative Filtering）

2023年6月13日上午12:35 • 人工智能 • 阅读 79

协同过滤，顾名思义就是协同大家的反馈、评价和意见一起对海量的信息进行过滤，从中筛选出目标用户可能感兴趣的信息的推荐过程。

协同过滤是推荐系统的重要模型之一，推荐系统是用来向用户推荐物品的。协同过滤分为两种：

1.基于用户的协同过滤。

基于物品的协同过滤。

无论是基于用户还是基于物品都是为了找到用户可能喜欢的物品把它给过滤出来，推荐给用户。

1.基于用户的协同过滤

思想：找到和目标用户相似的用户,推荐该相似用户使用过但该用户没见过的物品。

主要有两个步骤：

1.计算每个用户和目标用户的相似度，并选出n个最相似的(n为一个超参数)

2.根据相似用户对某一物品的评价计算出目标用户对这个物品的评价，设定一个阈值判断是否推荐。

示例：

图1.评分矩阵

这是一个不同用户对于不同物品的评分矩阵，现在要决定是否对Alice推荐物品5，也就是要计算出Alice对物品5的评分。

首先，计算每个用户与Alice的相似度，计算相似度主要有以下几种方式。

1.余弦相似度公式，衡量了用户向量i和用户向量j之间的向量夹角的大小，显然夹角越小，余弦相似度越大，用户相似度越大。

本例中，i和j向量表示两个用户对物品的评分矩阵，||i||和||j||表示向量i和j的长度。

2.皮尔逊相关系数，相比余弦相似度公式皮尔逊相关系数通过使用用户平均分对各独立评分进行修正，减小了用户评分偏置的影响。

其中，Ri,p代表用户i对物品p的评分。R_i代表用户i对所有物品的平均评分，p代表所有物品的集合。

然后根据相似度就能找到与目标用户最相似的n个用户了，之后我们就要计算用户对某个物品的具体评分了。

通常使用加权平均的方法

其中权重Wu,s是用户u和用户s的相似度，Rs,p是用户s对物品p的评分。

至此，计算完目标用户对物品的评分之后就可以根据阈值选择是否向目标用户推荐了，整个协同过滤算法也结束了。

以上介绍的是基于用户的协同过滤，他的缺点有：

1.维护用户的相似度矩阵的成本较高，因为在互联网中用户的数量是远远多于物品的数量的，而且用户的数量增长的飞快，这会使相似度矩阵的空间复杂度以n^2的速度快速增长，这是在线存储系统难以承受的扩展速度。

2.在正反馈获取较难的场景(酒店预订，大件商品的购买等)适用效果不好。例如说一个平台售卖大件商品那么这个商品的历史购买用户一定是较少的，因此找到相似的用户就十分困难。

2.基于物品的协同过滤

思想：找到和历史上用户感兴趣的物品相似的物品进行推荐。

也有两个步骤：

1.计算各个物品之间的相似度，计算方式和用户相似度类似。

2.对于一个用户找出其历史上做出过正反馈的物品(也就是其评价过并且表示喜欢的物品)，看正反馈的物品和未作出评价物品之间的相似度并且计算出其评价得分并进行排序，选择得分最大的n个物品进行推荐。

如果在计算最终得分时，未作出评价的物品和正反馈物品中的多个都有相似度那么其最终得分应该是这些物品的累加。

3.总结

协同过滤模型是一个非常直观，可解释性很强的模型，但是其不具备较强泛化能力，它无法将两个物品相似这一信息推广到其它物品相似性的计算上。这会导致热门的物品具有很强的头部效应，容易和大量物品产生相似，而尾部的物品很少和其他物品产生相似导致很少被推荐。

但其实物品D被推荐，只是因为他是一件热门商品，而A,B,C之间因为缺少相似性计算的直接数据，导致他们之间很难产生相似度，因而被忽略，这是协同过滤的一种天然缺陷。

为了解决这一问题，矩阵分解被提出了。

Original: https://blog.csdn.net/qq_53430308/article/details/122368483
Author: qq_53430308
Title: 协同过滤（Collaborative Filtering）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/605852/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

小样本学习记录————利用所有数据的元学习Few-shot Text Classification with Distributional Signatures

小样本学习记录————利用所有数据的元学习Few-shot Text Classification with Distributional Signatures 在计算机视觉中，低…

人工智能 2023年5月28日
0096
ubuntu20.04安装rocm教程，AMD深度学习，6800xt配置pytorch、CUDA（已更新）本地安装torch

官方文档对应torch下载地址 ROCm安装配置踩坑遇到的问题安装ubuntu系统更新内核，但是在win和Ubuntu双系统的前提下（可能）导致内核更新不成功,我安装成功的内…

人工智能 2023年7月20日
00122
Vue内置组件：teleport和transition组件

teleport的作用该组件可以将指定内容渲染到特定容器中，而不受 DOM 层级的限制应用场景当蒙层内容在一个组件中时，蒙层内容是无法遮挡住全部内容的，因此，需要使用tele…

人工智能 2023年6月27日
00100
单目图像深度估计 – 入门篇

由于公司网站设置，基于git的Blog越来越难打开，所以把部分内容搬运到这里。一转眼都是两年前的内容了，且大部分都是我的个人理解，现在看来也难免有些Bug。虽然后来由于项目安排的关…

人工智能 2023年5月28日
0089
数字传输 | 任意位数的汉明码hamming code编码+产生误差+纠错（原理+python代码实现）

由于网上搜到关于汉明码矩阵计算的资料比较少，基本上都是（7,4）居多，有些还是用class定义的，感觉很不友好。现在就来补充一点资料吧。汉明码基础知识关于汉明码手算基本过程，大…

人工智能 2023年7月7日
0063
【OpenCV 例程200篇】34. 图像的投影变换（cv2.getPerspectiveTransform）

『youcans 的 OpenCV 例程200篇 – 总目录』【youcans 的 OpenCV 例程200篇】34. 图像的投影变换投影变换（Projective…

人工智能 2023年7月19日
0070
python opencv 详细入门操作（含创建窗口, 显示图像, 标记图像, 调动摄像头, 简单人脸识别）

python opencv 详细入门操作（含创建窗口, 显示图像, 标记图像, 调动摄像头, 简单人脸识别）初试之后的第11天, 简单的学习opencv的基础操作为毕设做准备。 …

人工智能 2023年7月19日
0083
基于Matlab人脸识别(PCA算法)

摘要随着科技的发展，人类社会的进步，传统身份识别由于容易遗失，容易被破解已不能起到身份识别作用。人们需要更加安全可靠的身份识别技术。而生物特征的独一无二，不易丢失和被复制的特性很…

人工智能 2023年6月23日
0078
机器学习 Loss大的原因及解决办法过拟合的原因及解决措施

在从训练资料中得到Loss后，操作路径如下 ; Loss is Large 原因（1）model bias 可能是model太简单/弹性不足，使得Loss没有足够小解决办法：（…

人工智能 2023年6月15日
00257
YOLOv3训练数据集

这是我第一次尝试用yolo v3训练自己的数据集，以此整理一下来清晰思路，自此便可熟练训练深度学习模型。电脑配置系统：Windows10 显卡：GTX 1660ti（6G） C…

人工智能 2023年7月10日
0074
YOLOX模型导出笔记

安装OpenVINO runtime 2021.4，在Ubuntu18上安装OpenVINO，官网在此 wget https://apt.repos.intel.com/openv…

人工智能 2023年7月23日
0085
Python-dataframe合并(merge函数）

多对多根据多个列合并重复列名处理索引上的合并 (列名上无重复，index上有重复） left1=pd.DataFrame({‘key’:[‘a’,’b’,’a’,’a’,’b…

人工智能 2023年6月2日
0096
推荐一个自然语言处理入门框架

如果目前对nlp还不知道是拿来干啥的，我这里推荐一个之前用得比较多的开源项目 Hanlp，这个项目的作者自己写了一本自然语言处理的书籍《自然语言处理入门》可以当做入门书籍参考学习一…

人工智能 2023年5月28日
0096
Anaconda创建环境及环境配置

Anaconda创建环境及环境配置 1-创建环境 2-激活环境 3-删除环境 4-退出环境 5-注 1-创建环境前情提要：默认你已经安装 _anaconda_的基础上。以下操…

人工智能 2023年7月4日
0092
cs224w（图机器学习）2021冬季课程学习笔记6 Message Passing and Node Classification

诸神缄默不语-个人CSDN博文目录cs224w（图机器学习）2021冬季课程学习笔记集合文章目录 1. Message Passing and Node Classificati…

人工智能 2023年6月16日
0082
OSError: [WinError 127] 找不到指定的程序、“caffe2_detectron_ops.dll“ or one of its dependencies.

这个问题我查了一下午和半个晚上，各种我能看到的方法都试了一遍，最后在某个博客的评论区看到了个方法，试了下居然可以了。 1 问题表述每个人问题都不一样，先听我说一下我的问题看和你遇…

人工智能 2023年7月23日
0056

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

协同过滤（Collaborative Filtering）

大家都在看