python数据分析之pandas数据清洗（数据查看、空值的处理）

2023年8月2日下午2:00 • Python • 阅读 51

文章目录

*
– 一、准备工作（导入数据）
– 二、数据查看
–
+ 1、查看数据表的基本信息
+ 2、空值的与缺失值概念（NAN、NAT）
+ 3、查看所有值是否为空值
+ 4、判断是否存在空值
+ 5、唯一值查看
– 三、数据清洗
–
+ 1、空值的处理
+ 2、格式转换
+ 3、更改列名即字段名
+ 4、保留一个重复值
+ 5、数据替换

一、准备工作（导入数据）


import pandas as pd
import numpy as np

df = pd.DataFrame(pd.read_excel("TMao.xlsx"))

注意：

需要安装openpyxl库才可以读取xlsx文件，使用 pip install openpyxl
以上导入文件的语句用一句即可。

二、数据查看

1、查看数据表的基本信息

（根据需要对数据进行总体上的查看，建议不要全部执行，而是一条一条依次执行查看效果）


df.shape

df.columns

df.info

df.dtypes

df['订单付款时间'].dtype
df['订单金额'].dtype

查看列名df.columns：

2、空值的与缺失值概念（NAN、NAT）

空值：在pandas中的空值是””，也叫空字符串；

缺失值：在dataframe中为NAN或者NAT（缺失时间），在series中为none或者nan

3、查看所有值是否为空值

（所有值全部列出来，不实用的操作，这里简单介绍一下用法）


df.isnull()

df["订单付款时间"].isnull()

4、判断是否存在空值


df.isnull().any()

df["订单付款时间"].isnull().any()

if df["订单付款时间"].isnull().any():
     print(df[df.isnull().values==True])
     print(df[df.isna().values==True])

5、唯一值查看


df["订单金额"].unique()

df.values

df.head()
df.tail(10)

三、数据清洗

1、空值的处理

1）删除含有空值的行或列：用dropna()时可以同时剔除Nan和NaT


df.isnull().any()
print(df[df['订单付款时间'].isna().values==True])

df2 = df.dropna(axis=0,how='any',thresh=None,subset=None,inplace=False)
df2['订单付款时间'].isna().any()

df2.shape

axis:维度，axis=0表示index行,axis=1表示columns列，默认为0

how:”all”表示这一行或列中的元素全部缺失（为nan）才删除这一行或列，”any”表示这一行或列中只要有元素缺失，就删除这一行或列

thresh:一行或一列中至少出现了thresh个才删除。

subset：在某些列的子集中选择出现了缺失值的列删除，不在子集中的含有缺失值得列或行不会删除（有axis决定是行还是列）

inplace：刷选过缺失值得新数据是存为副本还是直接在原数据上进行修改。

2）若发现dropna()后仍然存在空值，则有可能其中并不是空值，而是空字符串，这里就可以将空字符串替换成空值再进行dropna()操作

df.replace(to_replace=r'^\s*$',value=np.nan,regex=True,inplace=True)
df['订单付款时间'].dropna()

3）填充含有空值的行或列（ffill / bfill）

df.isna().any()
df3 = df.fillna(method='ffill',axis=0,inplace=False,limit=None,downcast=None)
df3.isna().any()

df['订单金额'].fillna(df[订单金额].mean())

value:需要用什么值去填充缺失值

axis:确定填充维度，从行开始或是从列开始

method：ffill:用缺失值前面的一个值代替缺失值，如果axis=1，那么就是横向的前面的值替换后面的缺失值，如果axis=0，那么则是上面的值替换下面的缺失值。backfill/bfill，缺失值后面的一个值代替前面的缺失值。注意这个参数不能与value同时出现

limit:确定填充的个数，如果limit=2，则只填充两个缺失值。

2、格式转换

1）清除空格字符strip
调用map函数对str对象进行空格去除，若去除逗号可以用map(str.strip(‘,’))

df['收货地址']=df['收货地址'].map(str.strip())

2）大小写转换lower/upper

df['编码']=df['编码'].strip().lower()

3）更改数据格式astype

df['订单金额'].astype('int')

3、更改列名即字段名

df.rename(columns={'实付金额':'实付'})

4、保留一个重复值

df['收货地址'].drop_duplicates()
df['收货地址'].drop_duplicates(keep='last')

5、数据替换

把收货地址中的四川改为四川省

df['收货地址'].replace('四川', '四川省')

Original: https://blog.csdn.net/Viewinfinitely/article/details/124728721
Author: Chung丶无际鹰
Title: python数据分析之pandas数据清洗（数据查看、空值的处理）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/730811/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pytorch入门之tensor

矩阵的转置: tensor.t()、tensor.transpose(参数1,参数2,…)、tensor.permute() 【注意：一维数组没有转置】（1） tens…

Python 2023年8月25日
0045
python带你实现任意下载AcFun视频数据~

Original: https://www.cnblogs.com/Qqun261823976/p/16592831.htmlAuthor: python倩Title: pytho…

Python 2023年5月23日
0074
python两个数据表中的对应数据相加

记录一下自己的学习过程。有很多省份的数据，想要求全国的综合。这些数据都分别存在csv里。如下：我希望把全部省份加起来，算一个全国总和。这时候需要用到数据表对应值相加。代码如…

Python 2023年8月6日
0058
matplotlib教程

三、matplotlib概述 matplotlib是python的一个绘图库。使用它可以很方便的绘制出版质量级别的图形。通常用于数据可视化数据可视化数据可视化是指使用图形的方式…

Python 2023年9月1日
0053
python通过指定excel模板导出_Python（openpyxl）：将数据从一个excel文件放到另一个（模板文件），并用另一个名称保存，同时保留temp…

实际上不需要使用shutil模块，因为您可以使用openpyxl.load_工作簿加载模板，然后用其他名称保存。在此外，for循环中的ws.append(r)将附加到现有的数据中…

Python 2023年8月7日
0071
跟我学Python图像处理丨基于灰度三维图的图像顶帽运算和黑帽运算

摘要：本篇文章结合灰度三维图像讲解图像顶帽运算和图像黑猫运算，通过Python调用OpenCV函数实现。本文分享自华为云社区《[Python图像处理] 十三.基于灰度三维图的…

Python 2023年5月24日
0069
彻底弄懂Javascript模块导入导出

笔者开始学习Javascript的时候，对模块不太懂，不知道怎么导入模块，导出模块，就胡乱一通试比如 import xx from ‘test.js’ 不起作用，就加个括号 im…

Python 2023年10月11日
0067
创建django项目

未设置国内镜像源时，下载速度很慢，附带修改pip镜像源 [global] index-url = https://mirrors.aliyun.com/pypi/simple/ […

Python 2023年8月6日
0041
使用 Kubeadm 部署 Kubernetes(K8S) 安装

1. 安装要求在开始之前，部署Kubernetes集群机器需要满足以下几个条件：一台或多台机器，操作系统 CentOS7.x-86_x64 硬件配置：2GB或更多RAM，2个C…

Python 2023年10月19日
0086
2022-12-15 c++总结

根据之前学习的进行总结，温故而知新，理解有误请大佬们评论区指正，感谢～基本概念理解在整个代码编译过程中，除了语言上的标准外，对编译的概念理解通透也是必需的： #ifndef T…

Python 2023年9月17日
0051
Diffusion model理论推导

直观理解Diffusion model 生成式模型本质上是一组概率分布。如下图所示，左边是一个训练数据集，里面所有的数据p d a t a p_{data}p d a t a 都…

Python 2023年9月28日
0062
NumPy库—NAN和INF值

1. 认识首先了解一下这两个英文单词的含义： import numpy as np data = np.random.randint(0,10,size=(3,5)) data …

Python 2023年8月28日
0066
【Flash动画制作】

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月9日
0062
python中while和update_关于python：在逐行迭代的同时更新pandas中的数据框

我有一个看起来像这样的熊猫数据框(非常大) date exer exp ifor mat 1092 2014-03-17 American M 528.205 2014-04-19…

Python 2023年8月20日
0046
使用SVM对鸢尾花数据进行分类

numpy中含逗号的切片：对于普通的切片： list名[首：尾：步长] numpy中的切片：数组名[首：尾，首：尾：步长]（逗号用于区分维度，注意：逗号前面不能限定步长）什么…

Python 2023年8月27日
0046
python中科学计数法转换为十进制受到小数点限制_python-在Matplotlib中以科学计数法显示第一个十进制数字…

我目前正在用科学记数法生成不同的y轴图,从而在某些地块上产生类似2或6的刻度,而在另一些图上却产生2.5或8.9的刻度.我希望在y轴上始终带有一个带有十进制小数点的刻度,即使它添加…

Python 2023年9月5日
0045

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31