pandas 预处理

2023年8月18日下午5:09 • Python • 阅读 50

1.清除空值

如果我们要删除包含空字段的行，可以使用 dropna() 方法
DataFrame.dropna(axis=0, how=’any’, thresh=None, subset=None, inplace=False)

axis：默认为 0，表示逢空值剔除整行，如果设置参数 axis＝1 表示逢空值去掉整列。
how：默认为 ‘any’ 如果一行（或一列）里任何一个数据有出现 NA 就去掉整行，如果设置 how=’all’ 一行（或列）都是 NA 才去掉这整行。
inplace：如果设置 True，将计算得到的值直接覆盖之前的值并返回 None，修改的是源数据。

2.去除重复值

drop_duplicates()
keep：可选参数有三个：’first’、 ‘last’、 False，默认值 ‘first’。其中：

first表示：保留第一次出现的重复行，删除后面的重复行。
last表示：删除重复项，保留最后一次出现。
False表示：删除所有重复项。

subset : 接收string或sequence。表示进行去重的列。默认为None，表示全部列
inplace：布尔值，默认为False，是否直接在原数据上删除重复项或删除重复项后返回副本。

data={'A':['one','one','one','two','two','two'],
      'B':[1,1,2,1,1,2],
      'C':[1,2,3,4,5,6],

}
df=pd.DataFrame(data)
df

df.drop_duplicates('A')

df.drop_duplicates(['A','B'])

df.drop_duplicates(['A','B']).reset_index()

注意：drop_duplicates删除重复行时，行索引也会删除。需要重置索引
data.reset_index(drop=True)
获得新的index，原来的index变成数据列，保留下来。
不想保留原来的index，使用参数 drop=True，默认 False。

df.drop_duplicates(['A','B']).reset_index(drop=True)

3.修改异常值

    for x in n.index:
        if n.loc[x,'recently_logged'] == '--':
            n.loc[x, 'recently_logged'] = n.loc[x, 'register_time']

n.loc[n['recently_logged'] == '--', 'recently_logged'] = n.loc[n['recently_logged'] == '--', 'register_time']

df.loc[df['Sex'] == 'female', 'Sex'] = 0
df.loc[df['Sex'] == 'male', 'Sex'] = 1

for x in df.index:
  if df.loc[x, "age"] > 120:
    df.drop(x, inplace = True)

4.判段是否非空

isnull() 判断各个单元格是否为空
查看数据整体的缺失值情况
isnull().sum()

可以指定指定空数据类型：
比如
missing_values=[“n/a”, “na”]

; 5.填充空值

fillna()

df.fillna(0)

用均值填充空值

x = int(df["a"].mean())
df["a"].fillna(x, inplace = True)

类似可以使用median()中位数，mode()众数
注意上面的int()或者根据需要改成float，不进行类型转换是pandas.core.series.Series无法填充
参数method:’bfill’ 用缺失值后面的数填充缺失值
‘ffill’用缺失值前面的数填充。

df.fillna(method='ffill', inplace=True)

原始数据点击提取码：pfnw

(pima的数据来源在下面的github地址)
数据放到github上了
点击此处

; 6数据类型转换

astype()强制转化数据类型
通过创建自定义的函数进行数据转化
pandas提供的to_nueric()以及to_datetime()

import pandas as pd
import numpy as np
data={
    'x':[1,2,3,4,5],
    'y':['a','b','c','d',np.nan],
    'z':['12%','13%','24%','22%','44%'],
    'r':['2021','2022','2033','2012','2019'],
    'w':[11,22,33,44,'a']
}
df=pd.DataFrame(data)
df

df['x'].astype(float)
df['x']=df['x'].astype(float)
df['x'].dtype

def f(x):
    return x.replace('%','')
df['z']=df['z'].map(f)
df

df['sex']=['female','male','female','male','male']
print(df)
df['sex']=np.where(df['sex']=='female',1,0)
df

df['r']=pd.to_datetime(df['r'])
df['r'].dtypes

pd.to_numeric(df['w'],errors='coerce')

arg ： scalar(标量)，list(列表)，
(tuple)元组，一维数组(1-d array)或Series

errors ： {‘ignore’，’raise’，’coerce’}，
默认为’raise’如果为’raise’，则无效的解析将引发异常如果为 ‘coerce’，则将无效解析设置为NaN如果为 ‘ignore’，则无效的解析将返回输入

Original: https://blog.csdn.net/m0_52118763/article/details/120580433
Author: 开始King
Title: pandas 预处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/753239/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python更改下载源地址（WARNING: The repository located at mirrors.aliyun.com is not a trusted ）

python更改下载源地址 python默认的pip源在国外，如果下载比较大的第三方库时可能会非常非常慢，甚至会报错，所以为了有一个更加友好的python使用体验，建议为pytho…

Python 2023年9月22日
0072
django单元测试中出现ImportError: Failed to import test module:问题

django单元测试中出现ImportError: Failed to import test module:问题 ERROR: <em><strong>….

Python 2023年8月4日
0039
Django request.META（获取用户ip）

request.META 是一个Python字典，包含了所有本次HTTP请求的Header信息，比如用户IP地址和用户Agent（通常是浏览器的名称和版本号）。注意，Header…

Python 2023年8月5日
0033
docker学习：docker安装

Centos7 安装docker 下载安装yum install docker-ce 启动dockersystemctl start docker 创建并编写镜像加速文件vim /…

Python 2023年6月12日
0038
Flask 学习-64.current_app的使用与应用上下文（AppContext）

前言在很多框架里面都提到一个词：上下文(Context)，比如django里面的request 就是一个请求上下文对象。flask 里面 current_app 用于获取应用ap…

Python 2023年8月14日
0062
关于qt5.2~qt5.8的下载地址

今天下载qt5.3的时候发现原来的qt镜像里删除了5.2到5.8之间的版本。网上找了一下发现了一个qt的镜像可以下载http://qtmirror.ics.com/pub/qtpr…

Python 2023年6月3日
0090
reportportal 集成 robotframework 自动化执行及结果可视化

前言：最近领导想了个需求，想把目前组内在linux平台上执行的自动化脚本搞成可视化，如果是web站点相关日志可视化倒是简单了，ELK就是不错的选择，大部分可视化项目这种的，可以做…

Python 2023年10月18日
0036
用Python写一个自动下载B站视频、弹幕、评论的软件

哈喽兄弟们，今天来实现一个Python采集视频、弹幕、评论与一体的小软件。平常咱们都是直接代码运行，不过今天我们做成软件，这样的话，咱们不仅能自己用，还能分享给小伙伴，女朋友一起…

Python 2023年11月1日
0075
45-pytest-pytest.main()使用

pytest.main使用 * – + 前言 + pytest.main() + 参数运行 + 指定测试用例 + 指定plugins参数前言前面一直使用命令行运行p…

Python 2023年9月12日
0035
小喵2022年的年度总结，啊滴妈呀，开了眼了。

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年11月8日
0031
numpy多维数组索引

切片索引 python的numpy中的多维数组，有时候需要定位到数组中的某些区域元素的位置。一维数组很简单，我们可以直接指定索引，或者使用切片索引。比如: data[0]，这时候…

Python 2023年8月24日
0049
python 为html页面增加背景_Pandas dataframe.to_html（）-将背景色添加到头部

您可以尝试以下两种方式：import pandas as pd import numpy as np Set up a DataFrame np.random.seed(24) d…

Python 2023年8月19日
0031
地图要素增删改服务WFS: Openlayer+GeoServer+GeoPackage

前端：Openlayer 后台：GeoServer 数据库：GeoPackage 工具：QGIS 一个完整的地图服务DEMO todo: 待更新 posted @2021-04-0…

Python 2023年6月3日
0089
全网最详细numpy的argmin与argmax解析（一次性理解np.argmin）

本文以np.argmin()进行讲解，np.argmax()与之类似，np.argmin()求最小值对应的索引，np.argmax()求最大值对应的索引首先看一下官方注释 de…

Python 2023年8月2日
0046
写bug的日常——pandas导入csv文件的编码问题（UnicodeDecodeError:）

通常，在利用python做数据分析时，pandas库的 pd.read_csv(‘XXX.csv’) 是个很好用的导入csv文件的工具。但是，今天在导入一份csv文件时却出现了Un…

Python 2023年8月20日
0051
scrapy python proxy unsolved_python3.5 + Scrapy踩过的那些坑

验证码登录： scrapy 通过 xpath 模块可以轻松解析出所需的标签，这个暂且不提。项目中遇到一个问题，在解析图形验证码的过程中发现其url只一个固定值，我们通过Reques…

Python 2023年10月6日
0034

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30