数据分析常用技巧之：读取 xls 后缀文件、数据相关性可视化、异常值替换和删除、求各列数据之间的相关性、数据分箱、数据排序、数据标准化和归一化

2023年7月6日下午10:56 • 人工智能 • 阅读 78

文章目录

常用工具包
读取 xls 结尾的文件
删除整列（或行）都为 nan 的列（或行）
筛选文中是否存在异常值
数据标准化和归一化
对 dataframe 中的不同列计算相关性
对 dataframe 分箱
对 dataframe 中的 Series 排序
数据相关性可视化
*
heatmap 产生相关性矩阵
通过 sns.regplot() 可视化两组数据是否存在相关关系
plt 作图的中文显示问题

常用工具包

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import sklearn
from sklearn.preprocessing import MinMaxScaler, StandardScaler
import seaborn as sns

读取 xls 结尾的文件

今天面对一个 xxxx.xls 的文件，我本来想用 pd.read_excel 来读取，但是失败了，最后通过下面语句读取成功：

df = pd.read_csv(filepath, encoding='gbk', sep='\t')

注意编码格式，文本中包含中文字符的时候，可能默认的编码格式会失败，因此选用 ‘gbk’ 格式进行编码

删除整列（或行）都为 nan 的列（或行）

df.dropna(axis=1, how='all')
df.dropna(axis=0, how='all')

筛选文中是否存在异常值

当我对拿到的数据想要进行归一化和标准化操作的时候，编译器提醒我，有些数据不是 float 类型，这个时候我知道我的数据中一定存在缺失值
但是不同的系统或者生成数据的机构在生成数据的时候往往会使用不同的符号来代替缺失的值，例如在本文的例子中，数据中缺失的值都用 - 一个横线来表示
遍历每一列查看有多少异常值

for column in df_new.columns:
    print(np.sum(df[column] == '-'))

将所有的异常值 - 替换成 nan：

for column in df_new.columns:
    df_new[column][df_new[column] == '-'] = np.nan

删除这些存在 nan 的行或者列，并将操作覆盖原来的 df：

df_new.dropna(axis=0, how='any', inplace=True)

数据标准化和归一化

'''数据标准化和归一化'''
    std_scale = StandardScaler()
    m_m_scale = MinMaxScaler()
    m_m_data = m_m_scale.fit_transform(df)
    std_data = std_scale.fit_transform(m_m_data)

这里的 df 指的是要进行归一化和标准化的 pandas 的 dataframe

对 dataframe 中的不同列计算相关性

corrs =df.corr()

corrs 是 df 中各个列的相关性矩阵

对 dataframe 分箱

假设现在有下面的 dataframe；我想把年龄分成 3 段，然后分别统计各自的数量或者进行其他计算


bins = np.arange(20,35,5)
print(bins)

cats = pd.cut(df['年龄'],bins=bins,labels=bins[:-1])

df.loc[:,"label"] = cats

df = df.astype(np.float64)

数据分析常用技巧之：读取 xls 后缀文件、数据相关性可视化、异常值替换和删除、求各列数据之间的相关性、数据分箱、数据排序、数据标准化和归一化

经过分箱的 df
这里出现了一个问题，就是有些在边界上的值划分需要小心
在df.cut() 的函数介绍里你可以获得更多相关的内容

; 对 dataframe 中的 Series 排序

对于上面的例子，假设我想按照年龄排序，使用下列语句：


 sorted_df = df.sort_values(by='年龄', ascending=False)

数据相关性可视化

heatmap 产生相关性矩阵

第一步：使用 df.corr() 产生相关性矩阵
第二步：调用 seaborn 中的 heatmap 来可视化相关性矩阵

import seaborn as sns
corrs = df.corr()
sns.heatmap(corrs)

例如，对于这堆数据
可以求得的相关性矩阵的可视化如下图：

通过 sns.regplot() 可视化两组数据是否存在相关关系

更多参数设置和使用可以参考：
https://www.cnblogs.com/cgmcoding/p/13293395.html


sns.regplot(x=df['身高'],y=df['年龄'],x_estimator=np.mean)


sns.regplot(x=df['身高'],y=df['年龄'])

plt 作图的中文显示问题

从上面的两个图上可以发现，纵坐标由于包含中文字符，所以显示不出来
加上这两行代码就能够显示出图中的中文字符了

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

Original: https://blog.csdn.net/qq_42902997/article/details/123588106
Author: 暖仔会飞
Title: 数据分析常用技巧之：读取 xls 后缀文件、数据相关性可视化、异常值替换和删除、求各列数据之间的相关性、数据分箱、数据排序、数据标准化和归一化

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/674950/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python-opencv第四期：threshold函数详解

概要：众嗦粥汁所周知，在如今计算机视觉（ Computer Version short for CV）是人工智能与机器人技术发展的一个重大研究方向，而 opencv作为一个专门为…

人工智能 2023年7月27日
0063
OpenCV学习（二）—树莓派上安装opencv

缘由前面用单片机做的人脸识别，还是挺简单的，不过准确性来说，可能还是比较差，用个照片都能糊弄过去，可能还需要加一些红外什么的识别人体吧，不过这么一说，干嘛非要用人脸照片当钥匙呢，…

人工智能 2023年6月19日
0088
研究性论文_基于层次聚类方法的流量异常检测

流量格式转换在网络中捕获的流量数据包的初始格式通常为pcap格式，内容表现形式为 16进制的数据为了将其转化为安全分析人员熟知的IP、端口等内容，需要将pcap格式转换成netf…

人工智能 2023年5月31日
0080
Python 实现朴素贝叶斯代码演示

朴素贝叶斯可以细分为三种方法：分别是伯努利朴素贝叶斯、高斯朴素贝叶斯和多项式朴素贝叶斯。下文就这三种方法进行详细讲解和演示。目录一、伯努利朴素贝叶斯方法 1.1 例子解答 1….

人工智能 2023年7月4日
0091
图像分类篇——AlexNet详解

一、概述 AlexNet是由2012年ImageNet竞赛参赛者Hinton和他的学生Alex Krizhevsky设计的。AlexNet在当年赢得了ImageNet图像分类竞赛的…

人工智能 2023年6月30日
0070
目标检测指标TP、FP、TN、FN和Precision、Recall

目标检测指标TP、FP、TN、FN，Precision、Recall 1. IOU计算在了解 Precision(精确度)、Recall（召回率之前我们需要先了解一下IOU(In…

人工智能 2023年7月10日
0039
《Python 快速入门》C站最全Python标准库总结

本文收录于《100 天精通 Python – 快速入门到黑科技》专栏，是由 CSDN 内容合伙人丨全站排名 Top 4 的硬核博主不吃西红柿倾力打造。分基础知识篇、…

人工智能 2023年6月3日
0082
C++基础-2-引用

引用 2.1 引用的基本语法 2.2 引用的注意事项 2.3 引用做函数参数 2.4 引用做函数返回值 2.5 引用的本质 2.6 常量引用参考：《黑马程序员》C++教程 Ori…

人工智能 2023年6月4日
0062
【知识学习】马氏距离 Mahalanobis Distance

1. 协方差的意义 2. 马氏距离 2.1 概述 2.2 公式 2.3 实际意义 2.4 局限性 2.4.1 协方差矩阵必须满秩【不平衡数据少数类一般都不是】 2.4.2 不能处理…

人工智能 2023年7月18日
00129
【TDA4】源码更新编译和运行(Linux+RTOS mode)

目录说明一、下载源码二、准备文件三、设置环境（首次编译需要）四、编译PSDK Linux 五、编译PSDK RTOS 六、运行测试关于 RTOS SDK 说明硬件平台…

人工智能 2023年6月2日
0075
安装opencv时报错fatal error: dynlink_nvcuvid.h: No such file or directory 解决方法

ubuntu安装Opencv3.4.3时编译时带 DWITH_CUDA=ON出错“fatal error: dynlink_nvcuvid.h: No such fil…

人工智能 2023年7月20日
0048
代理模型介绍大全

目录 1.代理模型简介 1.1代理模型的由来 1.2什么是代理模型 1.3代理模型的类别 2.如何构建代理模型 3.代理模型中的高低可信度模型 1.代理模型简介一次看文献的时候，…

人工智能 2023年6月12日
0067
数据增强中的仿射变换：旋转，缩放，平移以及错切(shear)

引言在深度学习（图像领域）中，为了提升训练样本数量数据增强是非常常见的手段。比如：随机水平翻转随机色调(H)、饱和度(S)、明度(V)调整随机旋转，缩放，平移以及错切还有…

人工智能 2023年5月26日
0074
pytorch :OSError: [WinError 1455] 页面文件太小，无法完成操作。 Error loading 【已解决】

OSError: [WinError 1455] 页面文件太小，无法完成操作。 Error loading “D:\ProgramData\Anaconda3\envs…

人工智能 2023年7月25日
0079
差分进化算法（Differential Evolution)概述

差分进化算法（Differential Evolution)概述 1 引言最优化方法分为传统优化方法和启发式优化方法两大类。传统优化方法大多利用目标函数的梯度 (或导数)…

人工智能 2023年6月24日
00113
latex中显示代码

如何在latex中添加代码模块首先在开头导入以下的包 \usepackage{listings} \usepackage{ctex} % 用来设置附录中代码的样式 \lstset…

人工智能 2023年6月4日
0067

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

数据分析常用技巧之：读取 xls 后缀文件、数据相关性可视化、异常值替换和删除、求各列数据之间的相关性、数据分箱、数据排序、数据标准化和归一化

文章目录

heatmap 产生相关性矩阵

通过 sns.regplot() 可视化两组数据是否存在相关关系

大家都在看