pandas数据处理

2023年7月7日下午6:34 • 人工智能 • 阅读 59

pandas数据处理

1.处理丢失数据

有两种丢失数据：
None
np.nan(NaN)
区别：

type(None)
type(np.nan)

为什么在数据分析中需要用到的是浮点类型的空而不是对象类型?
数据分析中常常使用某些形式的运算来处理原始数据，如果原始数据中的空值为 NaN的形式，则不会干扰或者中断运算
NaN可以参与运算
None不可以参与运算


np.nan+1

None + 1

【注意】在pandas中如果遇到了None形式的空值则pandas会将其强制转换成NaN形式

2.处理空值操作

方法
isnull
notnull
any
all
dropna
fillna


df=DataFrame(data=np.random.randint(0,100,size=(7,5)))
df.iloc[2,3]=None
df.iloc[4,2]=np.nan
df.iloc[5,4]=None

方法一：对空值进行过滤(删除空所在的行数据)
技术： isnull,notnull,any,all


df.isnull()

df.isnull().any(axis=1)

df.notnull().all(axis=1)

df.loc[df.notnull().all(axis=1)]

方法二： dropna:可以直接将缺失的行或者列进行删除


df.dropna(axis=0)

方法三：对缺失值进行覆盖
fillna，使用空的近邻值进行填充


df.fillna(value=100)

df.fillna(axis=0,method='bfill')

方法四：使用空值对应列的均值进行空值填充

for col in df.columns:

    if df[col].isnull().sum()>0:

        mean_value=df[col].mean()

        df[col]=df[col].fillna(value=mean_value)

总结：什么时候用 dropna，什么时候用 fillna
尽量使用 dropna,如果删除成本太高，则使用 fillna

4.处理重复数据

方法
duplicated()
drop_duplicates()


df = DataFrame(data=np.random.randint(0,100,size=(8,6)))
df.iloc[1] = [1,1,1,1,1,1]
df.iloc[3] = [1,1,1,1,1,1]
df.iloc[5] = [1,1,1,1,1,1]


df.duplicated(keep='first')

df.loc[~df.duplicated(keep='first')]

df.drop_duplicates(keep='first')

5. 处理异常数据

- &#x81EA;&#x5B9A;&#x4E49;&#x4E00;&#x4E2A;1000&#x884C;3&#x5217;&#xFF08;A&#xFF0C;B&#xFF0C;C&#xFF09;&#x53D6;&#x503C;&#x8303;&#x56F4;&#x4E3A;0-1&#x7684;&#x6570;&#x636E;&#x6E90;&#xFF0C;&#x7136;&#x540E;&#x5C06;C&#x5217;&#x4E2D;&#x7684;&#x503C;&#x5927;&#x4E8E;&#x5176;&#x4E24;&#x500D;&#x6807;&#x51C6;&#x5DEE;&#x7684;&#x5F02;&#x5E38;&#x503C;&#x8FDB;&#x884C;&#x6E05;&#x6D17;

df=DataFrame(data=np.random.random(size=(1000,3)),columns=['A','B','C'])

two_std=df['C'].std()*2
df.loc[~(df['C']>two_std)]

df.loc[df['C']<two_std]

6. 随机查看5条数据

data.sample(5)

Original: https://blog.csdn.net/m0_46926492/article/details/124316487
Author: 荼靡，
Title: pandas数据处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/676836/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

RTX3090安装TensorFlow-GPU环境并迁移tf1.15代码

在网上看到不少用 tf-nightly-gpu安装的，实测后发现有一定兼容性问题，无法正常运行卷积操作，运行 tf.config.list_physical_devices(‘GP…

人工智能 2023年5月26日
00111
数据载入、存储及文件格式——《利用python数据分析》第六章学习

数据载入、存储及文件格式——《利用python数据分析》第六章学习前言这次带来第六章的学习笔记，希望这次效率高点，快点写完。代码环境这次小升级，Pycharm 2021.3 +…

人工智能 2023年7月18日
0060
sklearn岭回归

from sklearn.linear_model import Ridgek=np.linspace(0,1,29)#(start, end, num=num_points)使k…

人工智能 2023年6月17日
0090
PointPillars解读

论文： PointPillars: Fast Encoders for Object Detection from Point Clouds代码： https://github.c…

人工智能 2023年5月28日
0084
中小企业该如何选择合适，性价比超高的CRM客户管理系统？

企业选择产品，面临的不仅是经济成本，还有时间成本、人力成本，因此最怕”试”，万一失败，损失重大，因此选型一定要慎之又慎。那么，企业如何才能选择一款最合适的…

人工智能 2023年6月27日
0077
最新 CCF A 类人工智能会议论文下载汇总 (含2022)

2023年部分 CCF A 类会议论文下载地址汇总 2022年部分 CCF A 类会议论文下载地址汇总 2021年部分 CCF A 类会议论文下载地址汇总 2020 年前部分 CC…

人工智能 2023年6月25日
00101
【WY】数据分析 — Bokeh交互图表阶段一：进阶语法五 —— 折线图

版权声明：本文为博主原创文章，未经博主允许不得转载。文章目录一、折线图 * 1.1 单线图：p.line() – 1.1.1 例 1：列名：index + colu…

人工智能 2023年7月8日
0056
深度学习框架安装(Tensorflow&PyTorch&PaddlePaddle）

一、前言本文中讲解的深度学习框架安装的步骤是基于Anaconda的，所以大家要想按照本文中的步骤安装深度学习框架，需要先安装Anaconda （换源要慎重）。注：如果电脑是集成…

人工智能 2023年7月27日
0057
2022年RPA行业发展十大趋势，六千字长文助你看懂RPA

2022年RPA行业发展十大趋势，六千字长文助你看懂RPA 2022年RPA行业如何发展?十大趋势助你看懂RPA行业未来这里有2022年RPA行业发展的十大趋势，关注RPA的朋友…

人工智能 2023年6月4日
00120
编译原理：词法分析

一、词法分析任务 ; 二、正则表达式到自动机 1.正则表达式字母表中每一个字符都是一个正则表达式。 L(ε)={ε}，L(a)={a} (其中a是字母表中一个字符)。同时多个正…

人工智能 2023年6月29日
0094
第10章聚类分析(CA)

1 概念 聚类分析又称群&…

人工智能 2023年5月31日
0077
【对话生成】常见对话生成数据集整理，含下载链接(更新至2022.06.04)

本文主要整理对话生成领域相关的数据集，尤其是开放域对话生成。当前可以把开放域对话生成任务划分为：传统开放域对话生成、多模态对话生成、情感对话生成、个性化对话生成、策略控制对话生成等…

人工智能 2023年6月4日
00105
torch.nn.functional.interpolate()函数详解

通常可以使用pytorch中的torch.nn.functional.interpolate()实现插值和上采样。上采样，在深度学习框架中，可以简单理解为任何可以让你的图像变成…

人工智能 2023年7月20日
0050
关于图像的傅里叶变换的理解

最近再学opencv关于图像的傅里叶变换的知识，自己感觉很难理解，查阅相关书籍和博客发现很多写的都比较含糊。下面是转载自知乎一个博主关于图像的傅里叶变换的通俗解释：通俗讲解：图像傅…

人工智能 2023年6月18日
0091
OpenCV读取图片

OpenCV读取图片的两种方式第一种方式：直接通过Anaconda读取、显示 ①读取有色图片 import cv2 img = cv2.imread("images/1…

人工智能 2023年5月26日
0081
逻辑回归、Softmax回归 — 鸢尾花分类

目录 1.逻辑回归一些回归算法也可用于分类。逻辑回归（Logistic回归，也称为Logit回归）被广泛用于估算一个实例属于某个特定类别的概率。比如，这封电子邮件属于垃圾邮件的…

人工智能 2023年6月24日
0084

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas数据处理

目录

1.处理丢失数据

2.处理空值操作

4.处理重复数据

5. 处理异常数据

6. 随机查看5条数据

大家都在看