python pandas数据清洗_常用pandas清洗数据命令

2023年8月7日下午11:22 • Python • 阅读 43

pandas清洗数据常用命令

安装jupyter notebook

启动 jupyter

可以在里面编写python代码

1、加载数据df = pd.DataFrame(pd.read_excel(‘test.xlsx’))

2、显示数据的几行几列 (980，13)df.shap

3、去除显示信息时中间的省略号pd.set_option(‘display.width’,None)

{因为在pandas中默认读取文件显示是按照最小内存来读取的，所以使用这代码设置读取文件长度

没有限制即不省略中间的部分}

4、设置行与行之间不省略df.set_option(‘display.max_rows’, None)

{ 详情见：http://www.cnblogs.com/zhuPython/p/9258950.html }

5、是空值就显示True不是就false df.isnull()

和isnull相反df.notnull()

6、去除含有空值的行df.dropna()

7、对空值进行填充(任意值或0)df.fillna(0)

8、去除重复值df.drop_duplicates()

9、对指定值进行替换

{ 详见：https://www.jianshu.com/p/2557a805211f }

①、普通替换(只替换整个，不会查询部分)df[‘户型面积’] = df[‘户型面积’].replace(‘平米’,’替换’)

{ 也就是只查询单元格中整个内容符合替换条件不，如果一部分符合不替换加上inplace = true

参数对文本进行操作 }

②、可以替换成空即删除多余的内容 df[‘户型面积’] = df[‘户型面积’].str.replace(‘平米’,”)

{ 这中形式同样可以解决①中的只查询替换整个单元格的问题 }

③、可以使用正则表达式替换df[‘户型面积’] = df[‘户型面积’].replace(‘平米’,’替换’)

{ 要加参数reges = true表示使用正则表达式 }

10、把一列数据分割df[‘A’],df[‘B’] = df[‘AB’].str.split(‘~’,1).str

11、检查该列是否都是字符 loandata[’emp_length’].apply(lambda x: x.isalpha())

数字 loandata[’emp_length’].apply(lambda x: x.isalnum())

字母loandata[’emp_length’].apply(lambda x: x.isdigit())

12、统计该列各种字段的数量 df[‘城市’].value_counts()

14、查看统计结果是false的所有列df2 = df[df[‘售价’].apply(lambda x: x.isalnum())==False]

15、dataframe转化为数组np.array(df)df.as_matrix()

16、异常值检查

标签：常用,df,户型,替换,apply,清洗,replace,pandas,lambda

来源： https://blog.csdn.net/weixin_42390218/article/details/90574174

Original: https://blog.csdn.net/weixin_42627853/article/details/112827993
Author: 加小强
Title: python pandas数据清洗_常用pandas清洗数据命令

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/741120/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

flask爬取电影更新数据

10-1 运行会定时执行脚本 apscheduler Flask-APScheduler 10-2 Python manage.py runjob -m test,执行的是jobs…

Python 2023年8月12日
0033
使用 matplotlib 绘制带日期的坐标轴

使用 matplotlib 绘制带日期的坐标轴源码及参考链接效果图 ; 代码 import numpy as np import matplotlib.pyplot as pl…

Python 2023年9月2日
0029
PyTest测试用例创建和使用步骤

对于实现的接口代码，如登陆，我们常常会有多种情况的登陆，但其实本质就是每次发送登陆的请求参数不一样，我们如何只写一个测试接口，实现我们多条不同数据的登陆呢? 1、固件/前后置处理方…

Python 2023年9月11日
0058
27-spark各版本对比

一、spark1.x（1）引入内存计算的理念解决中间结果落盘导致的效率低下。早期官网中给出数据，在理想状况下，性能可达到MR的100倍（2）支持丰富的API，支持多种编程语言，如p…

Python 2023年11月7日
0044
conda命令行常用操作

conda命令行常用操作 1 conda介绍 * 1.1 查看版本 2.1 更新到当前版本 3.1 查看某个命令帮助文档 2 环境 (environment) * 2. 1 查看所…

Python 2023年9月9日
0049
彻底理解闭包实现原理

前言闭包对于一个长期写 Java 的开发者来说估计鲜有耳闻，我在写 Python 和 Go 之前也是没怎么了解，光这名字感觉就有点”神秘莫测”，这篇文章的…

Python 2023年10月17日
0041
数据分析第七讲 pandas练习数据的合并、分组聚合、时间序列、pandas绘图

文章目录数据分析第七讲 pandas练习数据的合并和分组聚合 * 一、pandas-DataFrame – 练习1 + 对于这一组电影数据，如果我们想runtim…

Python 2023年8月20日
0039
第2课：解析pygame最小框架中的语法

插件的安装若要在vscode中运行python语句，需要保证已经安装jupyter插件，就可以利用jupyter插件检测代码，运行python代码，应该新建一个 .ipynb类…

Python 2023年9月19日
0040
项目中引进这玩意，排查日志又快又准！

大家好，我是三友~~ 随着微服务盛行，很多公司都把系统按照业务边界拆成了很多微服务，在排错查日志的时候，因为业务链路贯穿着很多微服务节点，导致定位某个请求的日志以及上下游业务的日志…

Python 2023年10月11日
0035
一文读懂K-Means原理与Python实现

目录一、K-Means原理 1.聚类简介 ①分层聚类 ②质心聚类 ③其他聚类 2.K-means的原理 3.K-means的应用场景二、K-Means的案例实战 1.数据查看 …

Python 2023年8月1日
0047
Pytest入门（一）

一. 为什么要使用Pytest 官网：pytest: helps you write better programs — pytest documentation Pytest操作…

Python 2023年9月14日
0050
电子商务企业如何利用数据标签

准确的搜索结果和个性化推荐无疑是现代电子商务的基石。随着全球越来越多的企业迁移到网上，每家这样的公司的目标都很简单——帮助用户快速轻松地找到他们想要的东西，以便在电子平台上实现最大…

Python 2023年10月24日
0036
可视化神器Plotly玩转股票图

可视化神器Plotly玩转股票图本文是可视化神器Plotly绘图的第7篇，讲解的是如何通过Plotly来绘制与股市相关的图形，比如基础K线图、OHLC图等。温馨提示⚠️：股市有…

Python 2023年8月21日
00161
python做飞机大战游戏单机_Python制作简易版飞机大战小游戏

开发工具 Python版本：3.6.4 相关模块： pygame模块；以及一些Python自带的模块。相关文件欢迎与我交流环境搭建安装Python并添加到环境变量，pip…

Python 2023年9月24日
0038
VUE3.0+Antdv+Asp.net WebApi开发学生信息管理系统（三）

在B/S系统开发中，前后端分离开发设计已成为一种标准，而VUE作为前端三大主流框架之一，越来越受到大家的青睐，Antdv是Antd在Vue中的实现。本系列文章主要通过Antdv和A…

Python 2023年6月10日
0098
Python从0到1丨细说图像增强及运算

摘要：本文主要讲解常见的图像锐化和边缘检测方法，即Roberts算子和Prewitt算子。一.图像锐化由于收集图像数据的器件或传输图像的通道存在一些质量缺陷，或者受其他外界因素…

Python 2023年10月30日
0018

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

python pandas数据清洗_常用pandas清洗数据命令

大家都在看