python 皮尔森相关系数（Pearson）

2023年7月5日上午4:54 • 人工智能 • 阅读 121

文章目录

一、概述
二、定义
*
2.1 总体样本定义
2.2 估算样本定义
2.3 两种计算方式
2.4 皮尔森距离
三、python 实现
*
3.1 生成随机数据集
3.2 绘制散点图
3.3 计算相关系数
–

一、概述

皮尔森相关系数也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ，是一种线性相关系数，是最常用的一种相关系数。记为r，用来反映两个变量X和Y的线性相关程度，r 值介于-1到1之间，绝对值越大表明相关性越强。
适用连续变量。
相关系数与相关程度一般划分为
0.8 – 1.0 极强相关
0.6 – 0.8 强相关
0.4 – 0.6 中等程度相关
0.2 – 0.4 弱相关
0.0 – 0.2 极弱相关或无相关

二、定义

2.1 总体样本定义

ρ X , Y = c o v ( X , Y ) σ X σ Y = E ( X − μ X ) E ( Y − μ Y ) σ X σ Y \begin{aligned} \rho_{X,Y} = \frac {cov(X,Y)} {\sigma_{X} \sigma_{Y}} = \frac {E(X-\mu_{X}) E(Y-\mu_{Y})} {\sigma_{X} \sigma_{Y}} \end{aligned}ρX ,Y =σX σY c o v (X ,Y )=σX σY E (X −μX )E (Y −μY )
其中，σ X = E { [ X − E ( X ) ] 2 } , σ Y = E { [ Y − E ( Y ) ] 2 } \sigma_{X} = \sqrt{E{[X – E(X)]^{2}}},\sigma_{Y} = \sqrt{E{[Y – E(Y)]^{2}}}σX =E {[X −E (X )]2 },σY =E {[Y −E (Y )]2 }

2.2 估算样本定义

估算样本的协方差和标准差，可得到样本相关系数（即样本皮尔森相关系数），常用 r 表示：
r = ∑ i = 1 n ( X i − X ‾ ) ( Y i − Y ‾ ) ∑ i = 1 n ( X i − X ‾ ) 2 ∑ i = 1 n ( Y i − Y ‾ ) 2 \begin{aligned} r = \frac { \displaystyle \sum_{i=1}^{n} (X_{i} – \overline{X}) (Y_{i} – \overline{Y}) } { \sqrt{ \displaystyle \sum_{i=1}^{n} (X_{i} – \overline{X})^{2} } \sqrt{ \displaystyle \sum_{i=1}^{n} (Y_{i} – \overline{Y})^{2} } } \end{aligned}r =i =1 ∑n (X i −X )2 i =1 ∑n (Y i −Y )2 i =1 ∑n (X i −X )(Y i −Y )
还可以由(Xi,Yi)样本点的标准分数均值估计得到与上式等价的表达式
r = 1 n − 1 ∑ i = 1 n ( X i − X ‾ σ X ) ( Y i − Y ‾ σ Y ) \begin{aligned} r = \frac{1}{n-1} \sum_{i=1}^{n}{ (\frac {X_{i} – \overline{X}} {\sigma_{X}} ) (\frac {Y_{i} – \overline{Y}} {\sigma_{Y}} ) } \end{aligned}r =n −1 1 i =1 ∑n (σX X i −X )(σY Y i −Y )
其中，X i − X ‾ σ X \frac {X_{i} – \overline{X}} {\sigma_{X}}σX X i −X 是样本X的标准分数。

2.3 两种计算方式

(1)
ρ X , Y = c o v ( X , Y ) σ X σ Y = E ( X − μ X ) E ( Y − μ Y ) σ X σ Y = E ( X Y ) − E ( X ) E ( Y ) E ( X 2 ) − E 2 ( X ) E ( Y 2 ) − E 2 ( Y ) \begin{aligned} \rho_{X,Y} = \frac {cov(X,Y)} {\sigma_{X} \sigma_{Y}} = \frac {E(X-\mu_{X}) E(Y-\mu_{Y})} {\sigma_{X} \sigma_{Y}} = \frac {E(XY) – E(X)E(Y)} { \sqrt{E(X^2) – E^{2}(X)} \sqrt{E(Y^2) – E^{2}(Y)} } \end{aligned}ρX ,Y =σX σY c o v (X ,Y )=σX σY E (X −μX )E (Y −μY )=E (X 2 )−E 2 (X )E (Y 2 )−E 2 (Y )E (X Y )−E (X )E (Y )
(2)
ρ X , Y = n ∑ X Y − ∑ X ∑ Y n ∑ X 2 − ( ∑ X ) 2 n ∑ Y 2 − ( ∑ Y ) 2 \begin{aligned} \rho_{X,Y} = \frac {n \sum{XY} – \sum{X}\sum{Y}} { \sqrt{n \sum{X^{2}} – (\sum{X})^{2}} \sqrt{n \sum{Y^{2}} – (\sum{Y})^{2}} } \end{aligned}ρX ,Y =n ∑X 2 −(∑X )2 n ∑Y 2 −(∑Y )2 n ∑X Y −∑X ∑Y

2.4 皮尔森距离

d X , Y = 1 − ρ X , Y d_{X,Y} = 1 – \rho_{X,Y}d X ,Y =1 −ρX ,Y

三、python 实现

3.1 生成随机数据集

import random
import pandas as pd

n = 10000
X = [random.normalvariate(100, 10) for i in range(n)]
Y = [random.normalvariate(100, 10) for i in range(n)]
Z = [i*j for i,j in zip(X,Y)]
df = pd.DataFrame({"X":X,"Y":Y,"Z":Z})

3.2 绘制散点图

import matplotlib.pyplot as plt

pd.plotting.scatter_matrix(df)
plt.show()

3.3 计算相关系数

3.3.1 自定义函数（无显著性检验）

import math

def PearsonFirst(X,Y):
    '''
        公式一
    '''
    XY = X*Y
    EX = X.mean()
    EY = Y.mean()
    EX2 = (X**2).mean()
    EY2 = (Y**2).mean()
    EXY = XY.mean()
    numerator = EXY - EX*EY
    denominator = math.sqrt(EX2-EX**2)*math.sqrt(EY2-EY**2)

    if denominator == 0:
        return 'NaN'
    rhoXY = numerator/denominator
    return rhoXY

def PearsonSecond(X,Y):
    '''
        公式二
    '''
    XY = X*Y
    X2 = X**2
    Y2 = Y**2
    n = len(XY)
    numerator = n*XY.sum() - X.sum()*Y.sum()
    denominator = math.sqrt(n*X2.sum() - X.sum()**2)*math.sqrt(n*Y2.sum() - Y.sum()**2)

    if denominator == 0:
        return 'NaN'
    rhoXY = numerator/denominator
    return rhoXY

r1 = PearsonFirst(df['X'],df['Z'])
r2 = PearsonSecond(df['X'],df['Z'])
print("r1: ",r1)
print("r2: ",r2)

3.3.2 python 函数

（1） `pandas.corr 函数（无显著性检验）`

参数解析
DataFrame. corr(
method = ‘pearson’, # 可选值为{‘pearson’:’皮尔森’, ‘kendall’:’肯德尔秩相关’, ‘spearman’:’斯皮尔曼’}
min_periods=1 # 样本最少的数据量
)

df.corr(method="pearson")

（2） `scipy.stats.pearsonr 函数 （有显著性检验）`

from scipy.stats import pearsonr

r = pearsonr(df['X'],df['Z'])
print("pearson系数：",r[0])
print("   P-Value：",r[1])

（3） `pandas.corr 加 scipy.stats.pearsonr 获取相关系数检验P值矩阵`

def GetPvalue_Pearson(x,y):
    return pearsonr(x,y)[1]

df.corr(method=GetPvalue_Pearson)

参考：pandas.DataFrame.corr
参考：皮尔森相关系数(Pearson correlation coefficient)
参考：scipy.stats.pearson

Original: https://blog.csdn.net/small__roc/article/details/123519616
Author: 数据分析小鹏友
Title: python 皮尔森相关系数（Pearson）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/671122/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Spring JdbcTemplate.queryForObject()

Spring JdbcTemplate 是JDBC核心包中的中心类。它简化了 JDBC 与 Spring 的使用，并有助于避免常见错误。在此页面上，我们将学习使用它的 queryF…

人工智能 2023年6月29日
0066
手把手教你用pytorch实现k折交叉验证，解决类别不平衡

在用深度学习做分类的时候，常常需要进行交叉验证，目前pytorch没有通用的一套代码来实现这个功能。可以借助 sklearn中的 StratifiedKFold，KFold来实现，…

人工智能 2023年6月16日
0072
[Ubuntu]Scrcpy+Zeromq实现手机屏幕yuv数据传输，并通过OpenCV实现连续播放——（一）（图文+代码解析）

第一篇主要讲解Scrcpy源码的编译以及yuv数据的提取等基础操作。 Scrcpy作为Android投屏神器，除了能进行低延迟的投屏之外，还能通过将server端从电脑传入移动设备…

人工智能 2023年7月20日
0097
C语言之指针（中）

目录前言一、字符指针1.用法（两种）2.例子二、指针数组三、数组指针1.数组指针的定义1.概念2.例子2.数组名3.使用1.使用的情景2.例子四、数组参数、指针参数1.数组传参2….

人工智能 2023年6月26日
0075
connected paper 在可视化图形中浏览相关论文

网站介绍 Connected Papers是一个旨在帮助科研工作者搜索文献的免费工具。今天偶然发现，记录一下自己的使用经历。顺便推荐给大家。网址：https://www.conne…

人工智能 2023年6月1日
00124
CVPR 2022 | 图像修复！中科大&微软提出PUT：减少Transformer在图像修复应用中的信息损失…

点击下方卡片，关注” CVer“公众号 AI/CV重磅干货，第一时间送达图1 本文方法和现有方法的一些对比结果本文介绍我们在CVPR 2022发表的用…

人工智能 2023年5月26日
0058
（详细步骤+双y等常用命令）使用plot绘制MATLAB/SIMULINK中的数据（to workspace）

目录 0 背景 1 两种方法 1.1 方法一 1.2 方法二 2 常用的画图命令 2.1 设置plot坐标轴和标题 2.2 设置plot图像中字体大小（坐标轴、图例、刻度） 2.3…

人工智能 2023年7月17日
0075
Pytorch 叶子张量 leaf tensor (叶子节点) (detach)

在Pytorch中，默认情况下，非叶节点的梯度值在反向传播过程中使用完后就会被清除，不会被保留。只有叶节点的梯度值能够被保留下来。对于任意一个张量来说，我们可以用 tensor…

人工智能 2023年7月21日
0042
2022数学建模国赛B题思路分析

分享一下，仅供参考借鉴，切勿直接使用！致谢一下全糖奶茶屋！一、问题重述 1.1 问题背景由于无人机集群在遂行编队飞行时, 应尽可能的避免外界干扰, 因此需要尽可能的保持电磁静默…

人工智能 2023年7月27日
0097
线性回归-Ridge脊回归

线性回归 Linear Regression 假设model是 y ^ = f ( x ) = X β \hat{y} = f(x) = X\beta y ^=f (x )=X …

人工智能 2023年6月18日
0077
Labelme转VOC格式

目录 1.VOC的数据内容 2.创建自己数据集 1.VOC的数据内容 VOC数据集的下载路径： The PASCAL Visual Object Classes Challenge…

人工智能 2023年7月9日
00109
图像去雾开源数据集资源汇总

D-HAZY 下载地址：http://m6z.cn/5IBatp D-HAZY，建立在Middelbury 和NYU深度数据集上，这些数据集提供各种场景的图像及其相应的深度图。包含…

人工智能 2023年7月28日
00100
TensorFlow简单使用（基础篇）

目录一、TensorFlow的数据类型二、如何创建一个张量三、常用函数 1.强制转换、最大值、最小值 2.平均值、求和 3.标记为可训练 4.四则运算 5.平方、次方与开方 …

人工智能 2023年5月23日
0069
pandas中concat/append方法

目录 concat方法 concat语法 concat代码 append方法 append语法 append代码 concat方法 concat⽅法类似于数据库中union …

人工智能 2023年7月7日
0077
【使用Anaconda+pycharm搭建pytorch环境】

目录前言一、安装Anaconda并创建pytorch环境 * – 1.下载Anaconda 2.安装步骤 3.Anaconda安装完成，利用Conda创建环境二、…

人工智能 2023年7月21日
0050
8. DICOM图像显示-DCMTK-图像显示和源码分析

上篇文章讲了dcmtk的dcmimgle模块的DicomImage类的像素数据的多个处理过程，最终通过DicomImage类的getOutputData()获取P values值，…

人工智能 2023年6月22日
00101

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30