【博学谷学习记录】超强总结，用心分享 | 人工智能常用数据分析库pandas入门（5）

2023年8月21日下午8:42 • Python • 阅读 66

在前几篇关于 pandas 的文章中，笔者分别介绍了：

本篇介绍 数据清洗，包括 删除数据、 数据去重、 缺失值处理，这些都是拿到一个原始数据表之后很常用的操作。

原始数据集中可能有某些行/列数据并不是需要的，此时可以只截取需要的数据，或者把不需要的直接删除。截取数据直接用查看数据的方法截取所需行/列并赋值给一个变量即可，删除数据可以用 drop 方法，单独删除某列可以用 pop 方法或者直接使用 del df[‘列名’]。其中， pop 和 del 方法都是就地删除。

df/series.drop(labels, axis=0, index, colums, level, inplace=False, errors)
labels：单个标签或列表，指定要删除的索引或列标签。
axis：与 labels 参数配合，为 0 或 ‘index’ 则删除行，为 1 或 ‘columns’ 则删除列。
index：行标签或其列表，指定删除的行。
columns：列标签或其列表，指定删除的列。
level：对于 MultiIndex，将从中删除标签的指定级别。
inplace：若为 False 则返回副本，否则执行就地操作并返回无。
errors：默认为 ‘raise’。若为 ‘ignore’，则忽略错误，仅删除现有标签。
df.pop(item)
item ：一个单列列名，指定要删除哪个列。
*注意：该方法是就地删除！返回的是被删除的列。

示例如下：

import numpy as np
import pandas as pd

df = pd.DataFrame(data = [(1, 144.5, np.nan, 33, 'M', 78.5),
(2, 167.2, 5.4, 45, 'M',  np.nan),
(3, 124.1, 5.2, 23, 'F', 66.5),
(4, 144.5, np.nan, 33, 'M', 80),
(5, 133.2, 5.7, 54, 'F', np.nan),
(3, 124.1, 5.2, 23, 'F', 66.5),
(5, 129.2, 5.3, 42, 'M', 69)], columns=['id','weight','height','age','gender','score'])

df.drop([2,5])
df.drop(labels=['weight','height'], axis=1)
df.drop(index=[2,5], columns=['weight','height'])
df.pop('age')
del df['height']

原始数据集中可能包含所有列或者部分列完全相同的行，这可能是完全多余的，保留它们对后续处理无益，此时就需要去重。可以用 duplicated 方法看看哪些行有重复值，或者直接用 drop_duplicates 方法去重。

df.duplicated(subset, keep=first) 或者 series.duplicated(keep=first)
subset：给出了考虑哪些列的重复值。默认考虑所有列。
keep：若为 ‘first’ ，则对于重复数据，第一次出现时标记为 False，后面出现时标记为 True；若为 ‘last’ ，则对于重复数据，最后一次出现时标记为 False，前面出现时标记为 True；若为 False，则对于重复数据，所有出现的地方都标记为 True。
df.drop_duplicates(subset, keep='first', inplace=False, igore_index=False) 或者 series.drop_duplicates(keep='first', inplace=False)
subset、keep：同上。
inplace：如果为 True，则原地修改。否则返回去重后的对象。

示例如下：

df.duplicated()
df.duplicated(subset=['id','age'], keep='last')

df.drop_duplicates()
df.drop_duplicates(subset=['age','gender'], keep='first')

原始数据集可能会包含缺失数据，在 Pandas 中用来自 NumPy 库的 NaN/NAN/nan 表示缺失值。缺失值和其它类型的数据不同，它毫无意义，NaN 不等于0，也不等于空串。两个 NaN 也不相等，因此为了后续处理需要对缺失值进行处理。查看是否有缺失值可以用 isna / isnull / notna / notnull 方法，处理方法主要有：删除（ dropna）、填充（ fillna）、替换（ replace）、插值（ interpolate）：

df/series.isnull() 或者 df/series.isna()
返回同 shape 的 bool 值的 DataFrame/Series，无参。
df/series.notnull() 或者 df/series.notna()
同上。
df.dropna(axis=0, how='any', thresh, subset, inplace=False) 或者 series.dropna(axis=0, inplace=False, how)
axis：如果为 0/’index’，则沿着0轴过滤；如果为 1/’columns’，则沿着1轴过滤。
how：如果为 ‘any’，则如果某行/列中只要有任何 NaN，则删除该行/列；如果为’all’，则如果某行/列数据全部为 NaN 才删除该行/列。
thresh：一个整数，要求该行/列必须有 thresh 个非 NaN 才保留，比how的优先级高。
subset：指定考虑行/列的哪些子集上的NaN。
inplace：若为True，则原地修改，否则返回处理后的数据。
df/series.fillna(value, method, axis, inplace=False, limit, downcast)
value：一个标量、字典、Series 或者 DataFrame。注意： value 与 method 只能指定其中之一，不能同时提供。如果为标量，则它指定了填充NaN的数据；如果为Series/dict，则它指定了填充每个 index 的数据；如果为 DataFrame，则它指定了填充每个 DataFrame 单元的数据。
method：指定填充方式。可以为： ‘backfill’/’bfill’ （使用下一个可用的有效值填充）； ‘ffill’/’pad’ （使用前一个可用的有效值填充）。
axis、inplace：同上。
limit：一个整数。如果指定了 method，则当有连续的N个NaN时，只有其中的limit个NaN会被填充。
downcast：指定类型转换。
df.replace(to_replace, value, inplace=False, limit, regex=False, method='pad')
to_replace：一个字符串、正则表达式、列表、字典、Series、数值、None，指定需要被替换的那些值。
value：指定替换值。
inplace：同上。
limit：一个整数，指定了连续填充的最大跨度。
regex：一个布尔值，是否正则替换。若为True，则 to_replace 必须是字符串。
method：指定填充类型，可以为’pad’/’ffill’/’bfill’，当 to_replace 是个列表时该参数有效。
df.interpolate(method='linear', axis=0, limit, inplace=False, limit_direction, limit_area, downcast, **kwargs)
method：指定插值的方法。’linear’表示线性插值，支持多级索引，还有其他 scipy 插值函数。
axis、limit、inplace、downcast：同上。
limit_direction：当设定了 limit 时，指定处理前面还是后面 limit 个NaN，可以为 ‘forward’/’backward’/’both’。
其他参数传递给 scipy 插值函数。

示例如下：

df.isna()
df.notna()

df.dropna()
df.dropna(subset=['id','score'])

df.fillna(0)
df.fillna({'height':5,'score':60})
df.fillna(method='ffill')

df.replace(np.nan, 0)
df.replace(np.nan, {'height':5,'score':60})
df.replace({'height':{np.nan:5}, 'score':{np.nan: 60}})
df.replace(['M','F'],['Man','Woman'], regex=False)

df.interpolate()
df.interpolate(method='linear', limit_direction='backward')
df.interpolate(method='quadratic')

以上。

Original: https://blog.csdn.net/weixin_45447382/article/details/127287597
Author: 看流星划过天外
Title: 【博学谷学习记录】超强总结，用心分享 | 人工智能常用数据分析库pandas入门（5）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/756048/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Hadoop（4）-Python借助pyhdfs对Hadoop的HDFS分布式文件系统的全部操作详细实例演示

推荐文章很多小伙伴都发现了，用户自主「申请上首页」的按钮取消了，那博主们写的文章还有上首页曝光的机会吗？我们的回答是”当然有！！！”虽然我们取消了上首页申…

Python 2023年5月24日
0086
技术基建如何降本增效——云迁移

原创不易，求分享、求一键三连互联网寒冬大背景下，降本增效尤其是降本成了大部分公司的选择，我们公司也不例外，但显然困难很大！因为刚发生了团队合并行为…具体困难有以下几点…

Python 2023年10月23日
0060
矩阵&矩阵的维度&矩阵按某一维度进行拼接

以Numpy为例介绍，但是不仅仅适用于ndarry；只要是矩阵按照axis=k这种方式拼接都满足如下方式 Numpy的一个很重要的数据类型就是ndarry NumPy Ndarra…

Python 2023年8月24日
0045
MYSQL-INNODB索引构成详解

作者：郑啟龙摘要：对于MYSQL的INNODB存储引擎的索引，大家是不陌生的，都能想到是 B+树结构，可以加速SQL查询。但对于B+树索引，它到底”长”…

Python 2023年10月13日
0029
【python】day08-09 pygame之泡泡堂游戏【综合性最强】（因为没有详细分析过代码，所以不会直接，也不会分享私发）

这个项目教之前六个是比较大的，今天开始的主要任务是跟着老师学Flask框架，泡泡堂的任务只每天做一点。因为我想按顺序排知识点，所以先发篇文章占着这个知识点的位置。 1.项目介绍 …

Python 2023年9月23日
0039
Docker | 使用dockerfile生成镜像，清理docker空间

用 dockerfile 生成镜像并挂载数据卷编写 dockerfile 文件创建 dockerfile01 文件基础镜像 FROM centos VOLUME [&quot…

Python 2023年10月19日
0024
UI自动化之python+pytest+allure+selenium

一、基础搭建 1.下载pycharm，配置环境变量2.安装对应版本的webdriver，将webdriver放在项目根目录3.pip install pytest4.pip ins…

Python 2023年9月11日
0041
Python Pandas PK esProc SPL，谁才是数据预处理王者？

做数据分析和人工智能运算前常常需要大量的数据准备工作，也就是把各种数据源以及各种规格的数据整理成统一的格式。因为情况非常复杂多样，很难有某种可视化工具来完成此项工作，常常需要编程才…

Python 2023年8月30日
0042
BP神经网络的诊断分类（初学者+matlab代码实现）

1、简介 bp神经网络作为反向传播的经典算法。是我最初接触的第一个神经网络，使我对机器学习产生了很高的兴趣。同时我作为老初学者，给大家介绍具体代码及思路。 2.基本原理老规矩， …

Python 2023年9月28日
0039
零基础学Python：Pandas用法

本文目录：一、Series * 1.创建Series – 通过ndarray创建的Series 通过dict创建Series 通过list创建Series 2.Ser…

Python 2023年8月20日
0055
对ide的简单介绍

今天的题目有点难今天给你介绍的是ide。工欲善其事必先利其器，好的ide能帮助我们更好的编写代码。当然，好的ide也更能得到青睐，饱受好评的ide有这样几个， devC++？…

Python 2023年5月24日
0048
vscode新建python虚拟环境

文章目录 * – 新建虚拟环境venv – 激活虚拟环境 – 退出虚拟环境 – vscode选择解释器 – vscode…

Python 2023年8月14日
0050
第六章平均绝对误差（MAE）与均方根误差（RMSE）

目录 6.1 平均绝对误差 6.1.1 平均绝对误差概念 6.1.2 Python代码实现平均绝对误差 6.2 均方根误差 6.2.1 均方根误差的概念 6.2.2 Python代…

Python 2023年8月2日
0053
在一维的世界里寻找迭代次数的影子

( A, B )—1302—( 1, 0 )( 0, 1 ) 让网络的输入只有1个节点，AB各由3张二值化的图片组成，排列组合A和B的所有可能性，固定收敛误…

Python 2023年10月7日
0045
pytest合集（7）— Mark标记

一、mark标记 Pytest提供的mark标记，允许我们标记测试函数，测试类和整个模块。通过不同的标记实现不同的运行策略，如标记冒烟测试用例。使用装饰器@pytest.mark…

Python 2023年9月10日
0035
python rest api 框架_Flask RESTX：功能齐全的框架，用于使用Flask进行快速，轻松和文档化的API开发…

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月13日
0032

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【博学谷学习记录】超强总结，用心分享 | 人工智能常用数据分析库pandas入门（5）

大家都在看