在过滤算法中，协同过滤和基于内容过滤有什么区别

2024年1月4日上午4:58 • 人工智能 • 阅读 45

问题介绍

在过滤算法中，协同过滤和基于内容过滤是两种常见的推荐系统算法。它们的目标都是根据用户的历史行为来预测用户对未知物品的喜好程度。两种算法的主要区别在于它们对用户和物品的表示方式和相似度度量的不同。

协同过滤算法

协同过滤算法基于用户-物品之间的相互作用来进行推荐。其核心思想是，如果两个用户对一些物品有相似的喜好，那么这些物品对其中一个用户而言也是有吸引力的。协同过滤算法主要分为两种类型：基于用户的协同过滤和基于物品的协同过滤。

基于用户的协同过滤算法

基于用户的协同过滤算法首先构建一个用户-物品评分矩阵，其中行表示用户，列表示物品，每个元素表示用户对物品的评分。用户之间的相似度可以通过计算它们的评分向量之间的余弦相似度来度量。

算法原理

计算用户之间的相似度。对于每对用户i和j，可以通过计算它们的评分向量之间的余弦相似度来度量它们的相似度。假设用户i的评分向量为$$P_i$$，用户j的评分向量为$$P_j$$，则余弦相似度可通过以下公式计算：

$$
\text{similarity}(i,j) = \frac{{P_i \cdot P_j}}{{\|P_i\|_2 \|P_j\|_2}}
$$

其中$$\cdot$$表示向量的点积，$$\|P_i\|_2$$表示向量$$P_i$$的2范数。

预测用户对未知物品的评分。对于用户i未评分的物品，可以通过以下公式来预测用户i对物品k的评分：

$$
\hat{r}{ik} = \frac{{\sum\limits{j \in N_i} \text{similarity}(i,j) \cdot r_{jk}}}{{\sum\limits_{j \in N_i} |\text{similarity}(i,j)|}}
$$

其中$$N_i$$表示与用户i最相似的k个用户的集合，$$r_{jk}$$表示用户j对物品k的实际评分。

计算步骤

构建用户-物品评分矩阵。
计算用户之间的相似度矩阵。
对于每个用户未评分的物品，根据公式计算预测评分。
为每个用户生成Top-N推荐列表。

Python代码示例

import numpy as np

def user_based_collaborative_filtering(ratings, k=5):
 # 构建用户-物品评分矩阵
 rating_matrix = np.zeros((ratings.shape[0], ratings.shape[1]))
 for rating in ratings:
 user_id = rating[0]
 item_id = rating[1]
 score = rating[2]
 rating_matrix[user_id, item_id] = score

 # 计算用户之间的相似度矩阵
 similarity_matrix = np.zeros((ratings.shape[0], ratings.shape[0]))
 for i in range(ratings.shape[0]):
 for j in range(ratings.shape[0]):
 if i != j:
 similarity_matrix[i, j] = np.dot(rating_matrix[i], rating_matrix[j]) / (
 np.linalg.norm(rating_matrix[i]) artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls np.linalg.norm(rating_matrix[j]))

 # 预测用户对未知物品的评分
 predicted_ratings = np.zeros((ratings.shape[0], ratings.shape[1]))
 for i in range(ratings.shape[0]):
 for j in range(ratings.shape[1]):
 if rating_matrix[i, j] == 0:
 numerator = 0
 denominator = 0
 similarities = similarity_matrix[i].argsort()[::-1][:k]
 for similarity_index in similarities:
 similarity = similarity_matrix[i, similarity_index]
 rating = rating_matrix[similarity_index, j]
 numerator += similarity artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls rating
 denominator += abs(similarity)
 predicted_ratings[i, j] = numerator / denominator

 return predicted_ratings

代码细节解释

构建用户-物品评分矩阵需要将原始评分数据转换为一个二维数组，其中行表示用户，列表示物品，元素表示用户对物品的评分。
计算用户之间的相似度矩阵需要遍历所有用户对，并通过余弦相似度公式计算相似度。
预测用户对未知物品的评分需要对每个用户未评分的物品进行计算。计算过程中，先找出与该用户最相似的k个用户，然后根据公式计算预测评分。

基于内容过滤算法

基于内容过滤算法是一种基于物品属性进行推荐的方法。它通过比较物品之间的相似性来进行推荐，而不依赖于用户行为数据。基于内容过滤算法的核心思想是，如果两个物品在属性上相似，那么它们对同一个用户而言也是有相似吸引力的。

算法原理

提取物品的属性特征。对于每个物品，可以通过提取它们的属性特征向量来表示。
计算物品之间的相似度。可以使用余弦相似度等方法来计算物品之间的相似度。
针对用户的喜好和物品的属性特征，推荐相似的物品。

基于内容过滤算法的核心在于如何提取物品的属性特征和计算物品之间的相似度。这些过程通常需要基于具体应用场景进行定制。

Python代码示例

import numpy as np

def content_based_filtering(items, k=5):
 # 计算物品之间的相似度矩阵
 similarity_matrix = np.zeros((len(items), len(items)))
 for i in range(len(items)):
 for j in range(len(items)):
 if i != j:
 similarity_matrix[i, j] = np.dot(items[i], items[j]) / (np.linalg.norm(items[i]) artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls np.linalg.norm(items[j]))

 # 根据相似度矩阵生成Top-N推荐列表
 recommended_items = []
 for i in range(len(items)):
 similarities = similarity_matrix[i].argsort()[::-1][:k]
 for similarity_index in similarities:
 if similarity_index != i and similarity_index not in recommended_items:
 recommended_items.append(similarity_index)
 if len(recommended_items) == k:
 break

 return recommended_items

总结

协同过滤和基于内容过滤是两种常见的过滤算法。协同过滤算法根据用户-物品之间的相互作用进行推荐，而基于内容过滤算法根据物品的属性特征进行推荐。两种算法的区别主要在于对用户和物品的表示方式以及相似度度量的不同。协同过滤算法通过计算用户之间的相似度来预测用户对未知物品的评分，而基于内容过滤算法则根据物品的属性特征计算物品之间的相似度。在实际应用中，可以选择合适的算法来根据具体场景进行推荐。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/823704/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python如何创建二维数组和初始化

一、Python用什么表达二维数组严格意义上说，Python中并没有数组的概念，Python中表达一组数据有多种形式，例如list，tuple，set等数据结构都可以表达一组数，…

人工智能 2023年7月4日
0066
java运用kmeans算法进行聚类

java运用kmeans算法进行聚类文章目录 * – java运用kmeans算法进行聚类* 一、Kmeans算法使用步骤* 二、Java实现* – 1….

人工智能 2023年5月31日
0099
路由器二次开发一步一步把工业路由器变成一个高端的可指定出网、节点和链路的路由器，包含详细过程及快捷脚本（二）

路由器二次开发一步一步把工业路由器变成一个高端的可指定出网、节点和链路的路由器，包含详细过程及快捷脚本（二）。如果没有路由器可以采用废旧的电脑，详细环境部署参考第（一）篇文章，这…

人工智能 2023年6月28日
0089
Opencv项目实战：14 手势控制音量

### 回答1： opencv_中的mat::zeros函数是用来创建一个指定大小和类型的全零矩阵的函数。它的语法如下： cv::Mat cv::Mat::zeros(int ro…

人工智能 2023年7月20日
0060
使用MobileNet_SSD进行目标检测

文章目录 * – 1.MobileNetV1轻量化网络结构 – 2.MobileNetV2轻量化网络结构 – 3.前置准备 – + …

人工智能 2023年7月9日
0099
半监督学习算法的缺点是什么

半监督学习算法的缺点半监督学习是一种利用有标签和无标签数据进行训练的机器学习方法。相比于仅使用有标签数据进行训练的监督学习，半监督学习可以更好地利用未标签数据，从而提高模型的性能…

人工智能 2024年1月1日
0047
点云 3D 目标检测 – PointPillars

点云 3D 目标检测 – PointPillars: Fast Encoders for Object Detection from Point Clouds &#82…

人工智能 2023年7月10日
0054
R语言开放数据分析报告

Content Columns age: 主要受益人的年龄 sex: 保险承包商性别，女性，男性 bmi: 体重指数，提供对身体的了解，体重相对于身高相对较高或较低，体重的客观指…

人工智能 2023年6月11日
0080
logist回归基本代码

data=pd.read_csv(“C:/Users/Administrator/Desktop/P3.csv”)data[‘constant&…

人工智能 2023年6月18日
0078
微信小程序——云音乐界面

文章目录第一章开发前的准备 * 一、项目展示二、项目分析三、项目初始化第二章标签页切换 * 一、任务分析二、常用组件介绍三、编写页面结构和样式第三章音乐推荐 *…

人工智能 2023年7月31日
0077
学习笔记 | 多层感知机（MLP）、Transformer

目录多层感知机（MLP） Transformer 1. inputs 输入 2. Transformer的Encoder 2.1 Multi-Head Attention 2.2…

人工智能 2023年6月23日
00120
时序数据库研究现状

广义认为是按照时间顺序存储的一系列数据。常用场景：电力行业、化工行业、气象行业、地理信息等各类型实时监测、检查与分析设备所采集、产生的数据特点： 1）产生频率快（每一个监测点…

人工智能 2023年5月31日
0057
iOS 分类Category

1.Category定义 Category的主要作用是为已经存在的类添加方法。Objective-C 中的 Category 就是对装饰模式的一种具体实现。它的主要作用是在不改变原…

人工智能 2023年7月2日
0072
手写数字识别（识别纸上手写的数字）

说明使用pytorch框架，实现对MNIST手写数字数据集的训练和识别。重点是，自己手写数字，手机拍照后传入电脑，使用你自己训练的权重和偏置能够识别。数据预处理过程的代码是重点。…

人工智能 2023年6月18日
0071
两种图像拼接（无重叠相邻图&有重叠相邻图）以及matlab实现（边线查找法）

文章目录 * – @[TOC](文章目录)* 前言* 1、两种图片的拼接原理* – 无重叠部分的相邻两张图片拼接 – 有重叠部分的两张图片拼接*…

人工智能 2023年6月17日
00138
CAS：1241962-11-7，BHQ-2 amine，BHQ-2 氨基可用于溶液相共轭

An English name：BHQ-2 amine Chinese name：BHQ-2 氨基 Classification：Other dyes Item no：Y-R-31…

人工智能 2023年6月27日
0067

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

在过滤算法中，协同过滤和基于内容过滤有什么区别

问题介绍

协同过滤算法

基于用户的协同过滤算法

算法原理

计算步骤

Python代码示例

代码细节解释

基于内容过滤算法

算法原理

Python代码示例

总结

大家都在看