【利用python进行数据分析】学习笔记-第7章数据清洗和准备——处理缺失数据

2023年8月9日上午12:40 • Python • 阅读 50

第7章数据清洗和准备

7.1 处理缺失数据

7.1.1 查看缺失数据


In [10]: string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])

In [11]: string_data
Out[11]:
0   aardvark
1  artichoke
2        NaN
3    avocado
dtype: object

In [12]: string_data.isnull()
Out[12]:
0  False
1  False
2   True
3  False
dtype: bool

In [13]: string_data[0] = None
In [14]: string_data.isnull()
Out[14]:
0   True
1  False
2   True
3  False
dtype: bool

缺失数据处理的函数函数说明dropna根据各标签的值中是否存在缺失数据对轴标签进行过滤，可通过阈值调节对缺失值的容忍度fillna用指定值或插值方法（如ffill或bfill）填充缺失数据isnull返回一个含有布尔值的对象，这些布尔值表示哪些值是缺失值/NA，该对象的类型与源类型一样notnullisnull的否定式

7.1.2 滤除缺失数据


In [15]: from numpy import nan as NA

In [16]: data = pd.Series([1, NA, 3.5, NA, 7])

In [17]: data.dropna()
Out[17]:
0  1.0
2  3.5
4  7.0
dtype: float64

In [18]: data[data.notnull()]
Out[18]:
0  1.0
2  3.5
4  7.0
dtype: float64

In [19]: data = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA],
   ....:                      [NA, NA, NA], [NA, 6.5, 3.]])

In [20]: cleaned = data.dropna()

In [21]: data
Out[21]:
     0    1    2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
2  NaN  NaN  NaN
3  NaN  6.5  3.0

In [22]: cleaned
Out[22]:
     0    1    2
0  1.0  6.5  3.0

In [23]: data.dropna(how='all')
Out[23]:
     0    1    2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
3  NaN  6.5  3.0

In [24]: data[4] = NA
In [25]: data
Out[25]:
     0    1    2    4
0  1.0  6.5  3.0  NaN
1  1.0  NaN  NaN  NaN
2  NaN  NaN  NaN  NaN
3  NaN  6.5  3.0  NaN

In [26]: data.dropna(axis=1, how='all')
Out[26]:
     0    1    2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
2  NaN  NaN  NaN
3  NaN  6.5  3.0

In [27]: df = pd.DataFrame(np.random.randn(7, 3))

In [28]: df.iloc[:4, 1] = NA

In [29]: df.iloc[:2, 2] = NA

In [30]: df
Out[30]:
           0          1          2
0  -0.204708        NaN        NaN
1  -0.555730        NaN        NaN
2   0.092908        NaN   0.769023
3   1.246435        NaN  -1.296221
4   0.274992   0.228913   1.352917
5   0.886429  -2.001637  -0.371843
6   1.669025  -0.438570  -0.539741

In [31]: df.dropna()
Out[31]:
          0          1          2
4  0.274992   0.228913   1.352917
5  0.886429  -2.001637  -0.371843
6  1.669025  -0.438570  -0.539741

In [32]: df.dropna(thresh=2)
Out[32]:
          0          1          2
2  0.092908        NaN   0.769023
3  1.246435        NaN  -1.296221
4  0.274992   0.228913   1.352917
5  0.886429  -2.001637  -0.371843
6  1.669025  -0.438570  -0.539741

7.1.3 填充缺失数据


In [33]: df.fillna(0)
Out[33]:
           0          1          2
0  -0.204708   0.000000   0.000000
1  -0.555730   0.000000   0.000000
2   0.092908   0.000000   0.769023
3   1.246435   0.000000  -1.296221
4   0.274992   0.228913   1.352917
5   0.886429  -2.001637  -0.371843
6   1.669025  -0.438570  -0.539741

In [34]: df.fillna({1: 0.5, 2: 0})
Out[34]:
           0         1         2
0  -0.204708   0.500000   0.000000
1  -0.555730   0.500000   0.000000
2   0.092908   0.500000   0.769023
3   1.246435   0.500000  -1.296221
4   0.274992   0.228913   1.352917
5   0.886429  -2.001637  -0.371843
6   1.669025  -0.438570  -0.539741

In [37]: df = pd.DataFrame(np.random.randn(6, 3))

In [38]: df.iloc[2:, 1] = NA

In [39]: df.iloc[4:, 2] = NA

In [40]: df
Out[40]:
           0         1          2
0   0.476985  3.248944  -1.021228
1  -0.577087  0.124121   0.302614
2   0.523772       NaN   1.343810
3  -0.713544       NaN  -2.370232
4  -1.860761       NaN        NaN
5  -1.265934       NaN        NaN

In [41]: df.fillna(method='ffill')
Out[41]:
           0         1          2
0   0.476985  3.248944  -1.021228
1  -0.577087  0.124121   0.302614
2   0.523772  0.124121   1.343810
3  -0.713544  0.124121  -2.370232
4  -1.860761  0.124121  -2.370232
5  -1.265934  0.124121  -2.370232

In [42]: df.fillna(method='ffill', limit=2)
Out[42]:
           0         1          2
0   0.476985  3.248944  -1.021228
1  -0.577087  0.124121   0.302614
2   0.523772  0.124121   1.343810
3  -0.713544  0.124121  -2.370232
4  -1.860761       NaN  -2.370232
5  -1.265934       NaN  -2.370232

In [43]: data = pd.Series([1., NA, 3.5, NA, 7])
In [44]: data.fillna(data.mean())
Out[44]:
0  1.000000
1  3.833333
2  3.500000
3  3.833333
4  7.000000
dtype: float64

fillna函数的参数：参数说明value用于填充缺失值的标量值或字典对象method插值方式axis待填充的轴inplace修改调用者对象而不产生副本limit可以连续填充的最大数量

Original: https://blog.csdn.net/qq_51283283/article/details/115375696
Author: From Star.
Title: 【利用python进行数据分析】学习笔记-第7章数据清洗和准备——处理缺失数据

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/743524/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Django入门总结

[__项目基础__] >检查python扩展包是否安装框架 pip list >若未安装django框架 pip install -i http://pypi.doub…

Python 2023年8月4日
0061
python 生成均匀分布的随机数_Python数据分析入门日记Day5 :科学技术库Numpy:生成随机数…

Python数据分析入门日记Day5 ——科学技术库Numpy：生成随机数今天学习了在Numpy中生成随机数，主要运用到random模块，这是关于学习Python科学数据库Num…

Python 2023年8月25日
0051
猿创征文｜程序猿乘风破浪 Python Pygame 原创小游戏【源码+解析】

第一次参加猿创征文活动，肯定要来一波大的！Σ(⊙▽⊙”a！！！在夏天结束不久之际，让我们再来一波冲浪，感受夏日阳光下程序员的刻苦钻研精神，和无处可放基情。最近学习…

Python 2023年11月8日
0045
pandas库数据处理总结

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月9日
0080
修复psycopg2.DatabaseError: error with status PGRES_TUPLES_OK and no message from the libpq

目前的项目使用Flask作为框架，Greenplum作为数据库搭了简单的后端，数据库连接选用的包是psycopg2。服务是使用uwsgi设置多进程多线程进行管理的，部署在k8s的环…

Python 2023年8月15日
0061
Linux学习笔记1——Linux简介、版本、安装

1、Linux简介：一种开源的，免费的操作系统，安装在计算机硬件上，用来管理计算机的硬件和软件资源的系统软件。 Linux注重安全性，稳定性，高并发处理能力，没有优异的可视化界面…

Python 2023年6月12日
0082
视频实时行为检测——基于yolov5+deepsort+slowfast算法

文章目录前言一、核心功能设计二、核心实现步骤 * 1.yolov5实现目标检测 2.deepsort实现目标跟踪 3.slowfast动作识别三、核心代码解析 * 1.参数…

Python 2023年9月16日
0059
Python数据处理中常见的案例

判断文件是否存在： import os import pandas as pd MarkTest_path = dest_path+’\\’+’MarkTest.csv’ if n…

Python 2023年8月7日
0057
Go 语言入门 2-集合(map)的特性及实现原理

go 语言中的集合(map)，跟其他语言的 hashmap， dict 功能相似，主要是用于存储 kv 结构的数据，不仅保障了 key 的唯一性，还提供了 O(1) 的性能。我…

Python 2023年6月11日
0083
开源数字基础设施项目 — Speckle

Speckle是用于 3D 设计的任何东西的开源数字基础设施。处理软件孤岛、实时协作、数据管理、版本控制和自动化之间的互操作性。致力于构建一个开源代码平台，让建筑设计工作者能够协作…

Python 2023年10月18日
0079
高翔ORB-SLAM2稠密建图编译（添加实时彩色点云地图+保存点云地图）

目录前言 * 系统版本一、准备工作 * 下载源码二、编译 ./build.sh * 1.删除一些build文件夹 2.创建 Vocabulary 文件夹 3.在CMakeLi…

Python 2023年10月26日
0043
pytorch中张量的创建和张量中数据类型的转化

1、使用torch.tensor()函数创建张量张量的最基本的创建方法和Numpy中创建Array的格式是一致的，都是创建函数(序列) 的格式，张量的创建函数：torch.te…

Python 2023年8月28日
0054
物联网省/国赛AIOT智能家居全流程演示

文章目录前言一、虚拟仿真部署部分 * 打开虚拟终端，配置与Home Assistant连接 – 添加 MQTT 连接重启 HA服务 Home Assistant平…

Python 2023年9月26日
0057
【毕业设计】机器学习驾驶疲劳检测系统 – python

文章目录 0 前言 1 总结 2 基于多视频窗口的疲劳驾驶监测系 3 基于近红外图像的疲劳驾驶检测 4 基于面部特征的全天候疲劳驾驶检测及预警 5 其他方法最后 0 前言 🔥 H…

Python 2023年8月3日
00103
flask+echarts+pyecharts+layui+bootstrap+爬虫 flask快速搭建学习

首先看一下示例图，按顺序以下页面称首页，什么都有（乱取的），登录页，资源管理开始。bootstarp模板包下载地址https://codeload.github.com/twb…

Python 2023年8月15日
0059
简易计时器开发

事情是这样的，学校给了一个网页，让我们去学习，网页超过5分钟无操作会自动跳出，需要一个定时器来提醒我们每隔一段时间去操作网页，我在网上查了几个定时器，都不太符合要求，于是自己动手做…

Python 2023年9月17日
0059

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【利用python进行数据分析】学习笔记-第7章 数据清洗和准备——处理缺失数据

7.1 处理缺失数据

7.1.1 查看缺失数据

7.1.2 滤除缺失数据

7.1.3 填充缺失数据

大家都在看

【利用python进行数据分析】学习笔记-第7章数据清洗和准备——处理缺失数据