Heatmap热力图、pandas.DataFrame.corr()、皮尔森相关系数

Heatmap热力图

Heatmap热力图是一个以颜色变化来显示数据的矩阵。

matplotlib可通过以下两种方法绘制heamap;

matplotlib.axes.Axes.imshow
matplotlib.pyplot.imshow

我们以天池上的精灵宝可梦数据为例:

Heatmap热力图、pandas.DataFrame.corr()、皮尔森相关系数
plt.subplots(figsize=(20,15))
ax = plt.axes()
ax.set_title("Correlation Heatmap")
corr = df.corr()
sns.heatmap(corr,
            xticklabels=corr.columns.values,
            yticklabels=corr.columns.values)

Heatmap热力图、pandas.DataFrame.corr()、皮尔森相关系数

从上面可以很直观的看出每项之间的关系系数,在左边是表示的颜色指数,绝对值越靠近1表示关系越靠近。

pandas.DataFrame.corr()

在上述代码中,有一个corr(),它的使用方法一般是

pandas.DataFrame.corr()
DataFrame.corr(self, method, min_periods=1)

method是计算相关系数的方法,默认是皮尔森相关系数;
min_periods是说,最小样本数,因为相关系数有些缺点,比如样本数太少的话,相关系数的意义就不是很大。

皮尔森相关系数

Heatmap热力图、pandas.DataFrame.corr()、皮尔森相关系数

COV为两个变量的协方差,分母为两个变量标准差的乘积。 ux是X的平均值, uy 是Y的平均值,E为期望。皮尔森相关系数是一个线性相关的系数,反映两个量之间的线性相关程度的。这个值常用小写字母r来表示。r值范围在-1到1之间,绝对值越接近于1,相关性越强(负相关/正相关)。

总之,热力图是数据处理很常见的图像,在做数据处理的过程中,可以比较直观看出各项特征之间的关系,皮尔森相关系数也是一项有力的助手。

Original: https://blog.csdn.net/am_student/article/details/121390131
Author: 进步小白
Title: Heatmap热力图、pandas.DataFrame.corr()、皮尔森相关系数

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/639593/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球