Heatmap热力图
Heatmap热力图是一个以颜色变化来显示数据的矩阵。
matplotlib可通过以下两种方法绘制heamap;
matplotlib.axes.Axes.imshow
matplotlib.pyplot.imshow
我们以天池上的精灵宝可梦数据为例:
plt.subplots(figsize=(20,15))
ax = plt.axes()
ax.set_title("Correlation Heatmap")
corr = df.corr()
sns.heatmap(corr,
xticklabels=corr.columns.values,
yticklabels=corr.columns.values)
从上面可以很直观的看出每项之间的关系系数,在左边是表示的颜色指数,绝对值越靠近1表示关系越靠近。
pandas.DataFrame.corr()
在上述代码中,有一个corr(),它的使用方法一般是
pandas.DataFrame.corr()
DataFrame.corr(self, method, min_periods=1)
method是计算相关系数的方法,默认是皮尔森相关系数;
min_periods是说,最小样本数,因为相关系数有些缺点,比如样本数太少的话,相关系数的意义就不是很大。
皮尔森相关系数
COV为两个变量的协方差,分母为两个变量标准差的乘积。 ux是X的平均值, uy 是Y的平均值,E为期望。皮尔森相关系数是一个线性相关的系数,反映两个量之间的线性相关程度的。这个值常用小写字母r来表示。r值范围在-1到1之间,绝对值越接近于1,相关性越强(负相关/正相关)。
总之,热力图是数据处理很常见的图像,在做数据处理的过程中,可以比较直观看出各项特征之间的关系,皮尔森相关系数也是一项有力的助手。
Original: https://blog.csdn.net/am_student/article/details/121390131
Author: 进步小白
Title: Heatmap热力图、pandas.DataFrame.corr()、皮尔森相关系数
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/639593/
转载文章受原作者版权保护。转载请注明原作者出处!