算法通常使用的度量方法有欧几里得距离、余弦相似度和皮尔逊相关系数等。这些度量方法可以衡量用户或物品之间的相似性，从而进行推荐

2024年1月5日上午4:46 • 人工智能 • 阅读 50

问题描述

在推荐系统中，算法通常使用不同的度量方法来衡量用户或物品之间的相似性，以便进行推荐。本文将介绍三种常用的度量方法：欧几里得距离、余弦相似度和皮尔逊相关系数。我们将详细介绍这些算法的原理、公式推导、计算步骤，并给出相应的Python代码示例。

算法原理

欧几里得距离（Euclidean Distance）：衡量向量之间的距离，通过计算两个向量之间的欧式距离来评估它们之间的相似性。
余弦相似度（Cosine Similarity）：通过计算两个向量之间的夹角余弦值来量化它们之间的相似性。
皮尔逊相关系数（Pearson Correlation Coefficient）：评估两个变量之间的线性相关性，通过计算两个向量的协方差和各自标准差的乘积来度量它们之间的相似度。

欧几里得距离的公式推导

给定两个向量$A=(a_1,a_2,…,a_n)$和$B=(b_1,b_2,…,b_n)$，欧几里得距离$D(A,B)$可以表示为：
$$D(A,B) = \sqrt{{\sum_{i=1}^{n} (a_i – b_i)^2}}$$

余弦相似度的公式推导

给定两个向量$A=(a_1,a_2,…,a_n)$和$B=(b_1,b_2,…,b_n)$，余弦相似度$S(A,B)$可以表示为：
$$S(A,B) = \frac{{\sum_{i=1}^{n} (a_i \cdot b_i)}}{{\sqrt{{\sum_{i=1}^{n} (a_i)^2}} \cdot \sqrt{{\sum_{i=1}^{n} (b_i)^2}}}}$$

皮尔逊相关系数的公式推导

给定两个向量$A=(a_1,a_2,…,a_n)$和$B=(b_1,b_2,…,b_n)$，皮尔逊相关系数$P(A,B)$可以表示为：
$$P(A,B) = \frac{{\sum_{i=1}^{n} ((a_i – \bar{a}) \cdot (b_i – \bar{b}))}}{{\sqrt{{\sum_{i=1}^{n} (a_i – \bar{a})^2}} \cdot \sqrt{{\sum_{i=1}^{n} (b_i – \bar{b})^2}}}}$$
其中，$\bar{a}$和$\bar{b}$分别表示向量$A$和$B$的均值。

计算步骤

对于给定的用户或物品之间的向量数据，可以按照以下步骤计算相似度：

根据数据构建向量表示。
根据度量方法选择适当的公式。
根据公式计算相似度。

Python代码示例

以下是使用Python实现三种度量方法的代码示例：

import numpy as np

# 欧几里得距离
def euclidean_distance(A, B):
 return np.sqrt(np.sum((A - B) artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls 2))

# 余弦相似度
def cosine_similarity(A, B):
 dot_product = np.dot(A, B)
 norm_A = np.linalg.norm(A)
 norm_B = np.linalg.norm(B)
 return dot_product / (norm_A artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls norm_B)

# 皮尔逊相关系数
def pearson_correlation(A, B):
 mean_A = np.mean(A)
 mean_B = np.mean(B)
 cov_AB = np.sum((A - mean_A) artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls (B - mean_B))
 std_A = np.std(A)
 std_B = np.std(B)
 return cov_AB / (std_A artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls std_B)

# 示例数据
A = np.array([1, 2, 3, 4, 5])
B = np.array([4, 5, 6, 7, 8])

# 欧几里得距离
distance = euclidean_distance(A, B)
print("欧几里得距离:", distance)

# 余弦相似度
similarity = cosine_similarity(A, B)
print("余弦相似度:", similarity)

# 皮尔逊相关系数
correlation = pearson_correlation(A, B)
print("皮尔逊相关系数:", correlation)

代码细节解释

在代码示例中，我们使用NumPy库进行向量计算。
欧几里得距离的实现直接使用了NumPy提供的数学函数，计算向量的差的平方和后再开方，即可得到欧几里得距离。
余弦相似度的实现使用了NumPy提供的点积和模长函数，通过计算两个向量的点积再除以模长的乘积，即可得到余弦相似度。
皮尔逊相关系数的实现使用了NumPy提供的均值、协方差和标准差函数，通过计算两个向量的协方差再除以标准差的乘积，即可得到皮尔逊相关系数。
最后，我们使用示例数据进行测试，并打印出计算结果。

综上所述，我们详细介绍了算法的原理、公式推导、计算步骤，并提供了相应的Python代码示例，以及对代码细节进行了解释。这些度量方法可用于衡量用户或物品之间的相似性，并在推荐系统中发挥重要作用。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/823955/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python 各种画图

文章目录 Part.I 基础知识 * Chap.I 快应用 Chap.II 常用语句 Part.II 画图样例 * Chap.I 散点图 Chap.II 柱状图 Chap.III …

人工智能 2023年7月3日
00110
思必驰全新智能硬件品牌“思麦耳”亮相，发布首款360°降噪转写办公神器京东开售

千呼万唤她羞涩地走出来，承载着智能生活领域的新希望，思必驰全新智能硬件品牌Simel来了！ [En] Thousands of calls for her to come out …

人工智能 2023年5月23日
0080
汽车软件通信中间件iceoryx和它的零拷贝技术

1. iceOryx 是什么？这是一头漂亮的”冰羚”，它是一种用于汽车软件中的 ICP 通信中间件，由 Eclipse 基金会发布和维护。通信中间件在汽…

人工智能 2023年6月2日
0079
python从入门到精通——完整教程

文章目录一、pycharm下载安装二、python下载安装三、pycharm上配置python 四、配置镜像源让你下载嗖嗖的快 * – 4.1）pycharm内部…

人工智能 2023年7月3日
0058
K均值 – 案例实现（python）

K均值 K均值案例（python） * 背景介绍算法定义 K值的选取案例实现（python） – 数据集代码实现运行结果总结参考文献 K均值案例（pytho…

人工智能 2023年6月2日
0099
机器学习笔记：LSTM 变体（conv-LSTM、Peephole LSTM、 coupled LSTM、conv-GRU）

1 LSTM复习机器学习笔记 RNN初探 & LSTM_UQI-LIUWJ的博客-CSDN博客机器学习笔记：GRU_UQI-LIUWJ的博客-CSDN博客_gru 机器…

人工智能 2023年6月15日
00108
FastAPI使用教程（更新中）

文章目录一、安装命令二、模板三、启动命令四、访问测试 * 1.访问服务 2.访问API文档五、参数方法详解 * 1.路径参数 2.指定数据类型的路径参数 3.枚举路径参数…

人工智能 2023年6月15日
0090
时间序列分析之GARCH模型介绍与应用

时间序列分析之GARCH模型介绍与应用 * – 前言 – 一：ARCH模型的相关性质 – 二：ARCH实验过程 – 三：GARCH模…

人工智能 2023年6月15日
00114
2021年Windows下安装GPU版本的Tensorflow和Pytorch

视频教程：2021年windows下安装GPU版本的Tensorflow和Pytorch_哔哩哔哩_bilibili 最近比特币的热潮慢慢褪去，显卡的价格也下来了，所以小伙伴们可以…

人工智能 2023年6月25日
0088
yolov5目标框预测

yolov5目标检测模型中，对模型结构的描述较多，也容易理解。但对如何获得目标预测方面描述较少，或总感觉云山雾罩搞不清楚。最近查阅一些资料，并加上运行yolov5程序的感受，总结一…

人工智能 2023年7月27日
0054
Sklearn机器学习——ROC曲线、ROC曲线的绘制和AUC面积、运用ROC曲线找到最佳阈值

目录 1 ROC曲线 2 ROC曲线的绘制 2.1 Sklearn中的ROC曲线和AUC面积 2.2 利用ROC曲线找到最佳阈值 1 ROC曲线上篇博客介绍了ROC曲线的概率和阈…

人工智能 2023年7月4日
0081
树莓派4+TensorFlow+OpenCV+英特尔加速棒环境搭建

文章目录一、树莓派系统烧录二、更换源 * 2.1、设置root登录密码 2.2、更换apt 源 – 2.2.1、先备份源文件 2.2.2、编辑系统源文件 2.2.3…

人工智能 2023年5月26日
00107
【数据分析】——pandas

😊作者简介：大家好我是hellobigorange,大家可以叫我大橙子📃个人主页：hellobigorange的个人主页🔥系列专栏：数据分析(pandas-numpy-matplo…

人工智能 2023年7月9日
0071
Python+OpenCv实现图像边缘检测（滑动调节阈值）

Python+OpenCv实现图像边缘检测（滑动调节阈值）前言一、导入模块二、核心代码 * 1.图像预处理 2.滑动调参 3.边缘检测 4.图像保存 5.主函数三、运行结果…

人工智能 2023年7月19日
0061
WGCNA 简明指南|2. 模块与性状关联分析并识别重要基因

WGCNA 简明指南|2. 模块与性状关联分析并识别重要基因 WGCNA 系列 WGCNA 系列参考关联模块与临床特征量化module-trait(模块-特征)关系基因与性…

人工智能 2023年6月19日
00148
TensorFlow2安装教程

1.安装Anaconda3 清华镜像源： Index of /anaconda/archive/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirr…

人工智能 2023年6月24日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31