变量之间的相关性:协方差、相关系数

协方差

方差和标准差衡量的是一个变量(一组数据)的离散程度,也就是变量和均值之间的偏离程度。

协方差衡量的是两个变量之间的相关性,如:

正相关:两个变量具有相同的变化趋势(也称同方向),要么同时变大,要么同时变小,这时协方差是正的;

负相关:两个变量具有相反的变化趋势(也称反方向),一个变大,另一个变小,这时协方差是负的;

无相关:两个变量没有相关关系,这时协方差为0。

协方差描述的是两个变量是否同时偏离期望值(或均值),偏离的方向相同就是正相关,偏离的方向相反就是负相关。

方差是协方差的一种特殊情况,也就是两个变量完全相同。

协方差的公式定义,期望值(或均值)分别为 E[X] 与 E[Y] 的两个实随机变量 X 与 Y 之间的协方差Cov(X, Y)定义为:

例子:变量A有5个值 [5, 10, 6, 15, 2],变量B有5个值 [6, 9, 7, 10, 3],两个变量的协方差计算如下:

E[A] = (5 + 10 + 6 + 15 + 2) / 5 = 7.6

E[B] = (6 + 9 + 7 + 10 + 3) / 5 = 7

A – E[A] = [ -2.6 , 2.4 , -1.6 , 7.4, -5.6 ]

B – E[B] = [ -1 , 2 , 0 , 3, -4 ]

(A – E[A]) * (B – E[B]) = [ -2.6 , 2.4 , -1.6 , 7.4, -5.6 ] * [ -1 , 2 , 0 , 3, -4 ] = 52

Cov(A, B) = E[(A – E[A]) * (B – E[B])] = 52 / 5 = 10.4

可以看出A和B是正相关关系,但是具体正相关的程度是多少,从协方差中是看不出来的。

如果A和B的量纲(单位)一样,用协方差表示的相关程度还有点作用,但是如果两个变量采用不同的量纲,它们的协方差在数值上具有很大的差异,这就不能用来表示相关程度了。这需要另外一个知识:相关系数。

注意:协方差也可以用向量的知识来描述,如计算出两个向量的内积,为正表示正相关,为负表示负相关,为零表示无相关。

相关系数

下面介绍的是 Pearson 相关系数(皮尔逊相关系数),公式如下:

变量之间的相关性:协方差、相关系数

表示 X 的标准差,

变量之间的相关性:协方差、相关系数

表示 Y 的标准差。

Pearson 相关系数的取值范围是 [-1, 1]:

等于0:表示没有相关关系;

小于0:表示负相关关系,越接近 -1 时表示负相关关系越显著;

大于0:表示正相关关系,越接近 1 时表示正相关关系越显著。

如图:

根据上面的协方差的例子,A的标准差为 4.49,B的标准差为 2.44,得出A和B的相关系数:

ρ AB =10.4 / (4.49 *2.44 ) = 0.94

看出A和B是正相关关系,且A和B具有较大的相关程度。

即使两个变量具有不同量纲,但是它们的 Pearson 相关系数始终在[-1, 1]之间,这样就有利于判断两个变量的相关程度了。

Original: https://blog.csdn.net/hlzgood/article/details/110468565
Author: Leon.ENV
Title: 变量之间的相关性:协方差、相关系数

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/636118/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球