协同过滤算法中的相似性度量方法有哪些

2024年1月2日上午1:56 • 人工智能 • 阅读 41

问题描述

问题：协同过滤算法中的相似性度量方法有哪些？
要求：使用口语化形式解答，包括详细的介绍、算法原理、公式推导、计算步骤、复杂Python代码示例和代码细节解释。

介绍

协同过滤是一种常用的推荐系统算法，用于预测用户对物品的喜好程度。协同过滤算法基于用户之间或物品之间的相似性，通过利用其他用户或物品的评价信息来预测目标用户对未知物品的评分。

相似性度量方法在协同过滤中起着至关重要的作用。它用于计算用户或物品之间的相似性得分，进而决定哪些用户或物品应该被用于预测目标用户对未知物品的评分。下面将介绍一些常用的相似性度量方法。

1. 皮尔逊相关系数

皮尔逊相关系数是一种常用的相似性度量方法，用于衡量线性相关性程度。它的取值范围在-1到1之间，值越接近1表示正相关，越接近-1表示负相关，接近0表示无相关。皮尔逊相关系数可以通过以下公式计算：

$$
similarity(X, Y) = \frac{\sum{(X – \bar{X})(Y – \bar{Y})}}{\sqrt{\sum{(X – \bar{X})^2} \sum{(Y – \bar{Y})^2}}}
$$

其中，X和Y分别表示两个用户或物品的评分向量，$\bar{X}$和$\bar{Y}$表示对应向量的均值。

计算步骤：
– 计算每个用户或物品的评分均值。
– 根据公式计算相似性得分。

以下是通过皮尔逊相关系数计算两个用户之间的相似性得分的Python代码示例：

import numpy as np

def pearson_similarity(user1, user2):
 mean_user1 = np.mean(user1)
 mean_user2 = np.mean(user2)
 numerator = np.sum((user1 - mean_user1) artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls (user2 - mean_user2))
 denominator = np.sqrt(np.sum((user1 - mean_user1) artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls 2) artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls np.sum((user2 - mean_user2) artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls 2))
 similarity = numerator / denominator
 return similarity

user1 = np.array([4, 5, 3, 2, 4])
user2 = np.array([5, 4, 2, 3, 4])

similarity_score = pearson_similarity(user1, user2)
print(similarity_score)

上述代码首先计算了用户1和用户2的评分均值，然后根据公式计算了两者之间的相似性得分。

2. 余弦相似度

余弦相似度是一种用于衡量角度相似性的度量方法。它将用户或物品的评分向量视为一个多维空间中的向量，并通过计算两个向量之间的夹角余弦值来表示相似性。余弦相似度的取值范围为0到1，值越接近1表示相似度越高。余弦相似度可以通过以下公式计算：

$$
similarity(X, Y) = \frac{X \cdot Y}{||X|| \cdot ||Y||}
$$

其中，X和Y分别表示两个用户或物品的评分向量，$\cdot$表示向量的点积运算，$||X||$和$||Y||$表示向量的模。

计算步骤：
– 根据公式计算相似性得分。

以下是通过余弦相似度计算两个用户之间的相似性得分的Python代码示例：

import numpy as np

def cosine_similarity(user1, user2):
 numerator = np.dot(user1, user2)
 denominator = np.linalg.norm(user1) artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls np.linalg.norm(user2)
 similarity = numerator / denominator
 return similarity

user1 = np.array([4, 5, 3, 2, 4])
user2 = np.array([5, 4, 2, 3, 4])

similarity_score = cosine_similarity(user1, user2)
print(similarity_score)

上述代码利用numpy库中的函数计算了两个用户之间的相似性得分。

3. 欧几里得距离

欧几里得距离是一种度量物品之间差异性的度量方法。它将用户或物品的评分向量视为一个多维空间中的点，并计算两个点之间的直线距离作为相似性的度量。欧几里得距离的取值范围为0到正无穷，值越小表示相似度越高。欧几里得距离可以通过以下公式计算：

$$
distance(X, Y) = \sqrt{\sum{(X – Y)^2}}
$$

其中，X和Y分别表示两个用户或物品的评分向量。

计算步骤：
– 根据公式计算相似性得分的倒数。

以下是通过欧几里得距离计算两个物品之间的相似性得分的Python代码示例：

import numpy as np

def euclidean_distance(item1, item2):
 distance = np.sqrt(np.sum((item1 - item2) artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls 2))
 similarity = 1 / (1 + distance)
 return similarity

item1 = np.array([3, 4, 5, 2, 3])
item2 = np.array([4, 3, 1, 5, 4])

similarity_score = euclidean_distance(item1, item2)
print(similarity_score)

上述代码首先计算了两个物品之间的欧几里得距离，然后根据相似性得分的定义取其倒数作为最终的相似性得分。

以上是关于协同过滤算法中常用的相似性度量方法的详细介绍、算法原理、公式推导、计算步骤和复杂Python代码示例。这些方法在实际应用中具有广泛的应用价值，可根据具体问题选择适合的相似性度量方法来提升协同过滤算法的性能。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/822990/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python知识推理知识图谱_一文了解知识图谱常见的知识表示，图谱存储和查询方法…

对于知识图谱构建，有两个问题是永远绕不掉的。一个是知识图谱的知识表示，一个是知识图谱的存储方式。这两个问题大家也比较关注，而且知识图谱的表示跟知识图谱的存储还是有一定的相关性。知识…

人工智能 2023年6月1日
0079
pandas 处理csv的列数据

目的：做一个很简单的功能，计算显示hit列数字之和，即80=20+20+25+15. datetime host hit volume 0 2018/7/24 weibo.com…

人工智能 2023年7月7日
00110
tensorflow：查看tensorflow版本号、查看cuda版本、查看cudnn版本、查看GPU可用性、查看cuda可用性

1 查看tensorflow版本 1.1 进入对应的环境打开终端、进入对应的虚拟环境，我的是tensorflow1140cuda100 conda activate tensor…

人工智能 2023年6月16日
00124
DRL基础（一）——强化学习发展历史简述

【摘要】介绍强化学习的起源、发展、主要流派、以及应用。强化学习理论和技术很早就被提出和研究了，属于人工智能三大流派中的行为主义。强化学习一度成为人工智能研究的主流，而最近十年多年随…

人工智能 2023年6月17日
00179
2022 CVPR 三维人体重建相关论文汇总（3D Human Reconstruction）

Title: H4D: Human 4D Modeling by Learning Neural Compositional RepresentationAuthor: 1 Fud…

人工智能 2023年6月23日
0098
解决PermissionError: [Errno 13] Permission denied: ‘E:/test/mp3‘

1.MP3 toWAV 背景：将mp3格式的文件批量转为wav格式 from pydub import AudioSegment import os def mp3_wav(mp3…

人工智能 2023年5月27日
00129
tensorflow框架搭建问题解决

进入CMD 环境中，python -m pip install tensorflow（多次尝试）（pip3 install tensorflow）安装成功！此次安装没有安装CUDA…

人工智能 2023年5月24日
0070
知识图谱-词汇挖掘

*叙词表：叙词表又被称为主题词表，是一个针对特定学科领域的词汇表，也可以是涉及多个学科领域的综合性词汇表。改词汇表又一些雨衣相关的规范化名词术语组成。通常按照主题词首字母的顺序进…

人工智能 2023年6月1日
0050
Arduino系列-Wemos D1 WIFI UNO R3开发版的智能家居

一、开发版介绍 Wemos D1有十一个数字输出引脚(包括RX和TX)，除了D0引脚之外，其余的十个引脚均支持PWM、I2C、中断和单总线。有一个模拟引脚(最大3.3V输入)。它的…

人工智能 2023年7月28日
0059
【python-pandas】利用pandas操作Excel.xlsx数据，写入可覆盖，无法追加数据（版本过低）（踩坑）

前言：今天遇到个问题，项目上有个Excel输出文件需要进行二次读写，对已存在的.xlsx文件追加一张sheet表，但是实际操作过程中发现利用pandas.to_excel()操作失…

人工智能 2023年7月6日
0059
【视觉高级篇】20 # 如何用WebGL绘制3D物体？

说明【跟月影学可视化】学习笔记。如何用 WebGL 绘制三维立方体我们知道立方体有8个顶点，6个面，在 WebGL 中，需要用 12 个三角形来绘制它。把每个面的顶点分开，需…

人工智能 2023年6月28日
0081
【基于SVM的数据分类预测——意大利葡萄酒种类识别】的一些笔记

支持向量机结构特点（1）测试数据：测试数据wine,其中包含的数据为classnumber = 3,记录的是类别数目；wine:17813的double型矩阵,记录了178个样…

人工智能 2023年7月2日
0091
联想小娜怎么开启_联想小新Air 14win10系统的微软小娜如何开启

联想小新Air 14win10系统的微软小娜如何开启 win10系统中的小娜可以跟用户进行聊天交流，还可以用它进行搜索，今天就跟大家介绍一下联想小新Air 14win10系统的微软…

人工智能 2023年5月27日
0074
【矩阵论】3. 矩阵运算与函数——张量积

矩阵论1. 准备知识——复数域上矩阵,Hermite变换)1.准备知识——复数域上的内积域正交阵1.准备知识——Hermite阵，二次型，矩阵合同，正定阵，幂0阵，幂等阵，矩阵的秩…

人工智能 2023年6月29日
0099
【流行前沿】Communication Efficient Federated Learning with Adaptive Quantization

今天分享一篇研究联邦学习中量化位数设计的文章，作者YUZHU MAO来自清华深圳研究院，文章发表在ACM Trans. Intell. Syst. Technol. 2022上。 …

人工智能 2023年6月4日
0083
小爱音箱怎么装app_79元的Redmi小爱音箱怎么样？这里有一份体验报告

“你好，我是小爱同学，你的语音助理” 小爱同学对大家来说已经不陌生了，本次拿到手的是伴随Redmi K30系列一起发布的Redmi小爱音箱play。好了，…

人工智能 2023年5月27日
0085

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

协同过滤算法中的相似性度量方法有哪些

问题描述

介绍

1. 皮尔逊相关系数

2. 余弦相似度

3. 欧几里得距离

大家都在看