Python数据分析学习笔记（二）——数据清洗及特征处理

2023年8月16日下午1:09 • Python • 阅读 65

一、缺失值的观察与处理

通常拿到的数据中含有很多缺失值，需要经过数据清洗达到可以分析的标准。
处理缺失值一般有三种思路：

将缺失值置为一个常数
使用函数DataFrame.fillna()
可以通过常数填充，还可以通过字典填充不同常数
参数：
method：填充方法，ffill——用前一个非空缺值填充，bfill——用下一个空缺值填充
limit：限制填充个数
axis：修改填充方向
将缺失值所在行删除
使用函数DataFrme.dropna()
参数：
axis: 默认axis=0。0为按行删除,1为按列删除
how: 默认 ‘any’。 ‘any’指带缺失值的所有行/列;’all’指清除一整行/列都是缺失值的行/列
thresh: int,保留含有thresh个非nan值的行
subset: 删除特定列中包含缺失值的行或列
inplace: 默认False，不改动原数据


df.info()
df.isnull().sum()
df[np.isnan(df['Age'])]=0

df.dropna()

df.fillna()
df[df['Age']==None]=0

df[df['Age'].isnull()] = 0

二、重复值的观察与处理

重复值的观察
使用duplicated()方法，可以查找列表中重复值，仅在两条记录中所有数据都相等时才会被判定为重复
duplicated()支持从前向后和从后向前的检索顺序，后被检索到的重复数据在重复值判断中显示True

df.duplicated()
df.duplicated().sum()
df[df.duplicated()]

重复值的处理
使用drop_duplicates()方法可以删除重复记录

df.drop_duplicates(inplace = True)
df.reset_index
df.to_csv('test_clear.csv')

三、特征观察与处理

观察列索引可以发现，不同数据有不同的数据类型。
数值型特征分为离散型数值特征和连续型数值特征，一般可以直接用于模型的训练，但有时为了模型的稳定性及鲁棒性会对连续变量进行离散化。
文本型特征往往需要转换成数值型特征才能用于建模分析

分箱操作
是一种无监督离散化方法，分为等距离分箱和等频度分箱。特征离散化后模型会更稳定，降低了模型过拟合的风险。
可以使用pandas.cut()方法实现分箱
pandas.cut(x,bins,right,labels,retbins,precision)
x：被切分的数组，必须是一维的
bins：被切分后的区间，可以是一个int型的标量（x被切分为bins个组）、标量序列（定义了被分割后每一个区间的边缘），或者pandas.IntervalIndex（定义要使用的精确区间）
right：bool型参数，表示是否包含区间右部
labels：给分割后的区间打标签


df['AgeBand'] = pd.cut(df['Age'],5,labels=[1,2,3,4,5])

df['AgeBand']=pd.cut(df['Age'],[0,5,15,30,50,80],labels=[1,2,3,4,5])

df['AgeBand']=pd.qcut(df['Age'],[0,0.1,0.3,0.5,0.7,0.9],labels=[1,2,3,4,5])

变换文本型变量
1、查看文本变量及名称
data.value_counts()可以用于查看表格某列中有多少不同值，并计算每个不同值有多少重复值
unique()方法可以用于统计list中的不同值，返回一个array，仅返回不同值
nunique()方法可以直接统计不同值的个数
map()方法会根据提供的函数对制定序列做映射

df['Sex'].value_counts()

male      453
female    261
Name: Sex, dtype: int64

df['Sex'].unique()

array(['male', 'female'], dtype=object)

df['Sex'].nunique()

2

df['Sex_num']=df['Sex'].map({'male':1,'famale':2})

2、将文本型变量进行转化

对于离散特征的编码分两种情况：
1、特征取值之间没有大小之分的意义，比如颜色，就可以用独热编码
2、特征取值之间有大小之分的意义，比如衣服的尺码，可以直接用映射进行
pd.get_dummies()可以用于生成独热编码
参数：
data：Series或者DataFrame
prefix：用于追加DataFrame列名的字符串。在DataFrame上调用get_dummies时，传递一个长度等于列数的列表。或者，prefix可以是一个将列名映射到前缀的字典

for feat in ['Age','Embarked']：
    x = pd.get_dummies(df[feat],prefix=feat)
    df=pd.concat([df,x],axis=1)

以上学习内容来自Datawhale

Original: https://blog.csdn.net/Malcohol/article/details/122394017
Author: Malcohol
Title: Python数据分析学习笔记（二）——数据清洗及特征处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/751163/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

配置 conda 镜像环境

环境： conda/4.11.0 CPython/3.8.8 Windows/10镜像源选用阿里云镜像站anaconda镜像：https://mirrors.aliyun.com/…

Python 2023年9月9日
0065
SV 中 fork join 的用法

目录 fork join 的三种用法： 1、fork join 2、fork join_any 3、fork join_none wait fork disable fork 一道…

Python 2023年11月7日
0062
并发编程之线程池

线程池为什么需要线程池？如果性能允许的话，我们完全可以在 for 循环代码起很多的线程去帮我们执行任务，代码如下 public class ManyThread { publi…

Python 2023年10月17日
0060
Bert文本分类实战（附代码讲解）

[ BERT_是目前自然语言处理领域最先进的模型之一，拥有强大的语言理解能力和处理文本任务的能力。其中 _BERT_多分类 _文本分类_的应用广泛，可以用于情感分析、垃圾邮件过滤、…

Python 2023年8月1日
0058
PyTorch-01（PyTorch安装）——安装PyTorch前在conda搭建虚拟环境的报错

目录一. Anacoda建立虚拟环境 1.打开Anaconda的Prompt 2.搭建虚拟环境时报的错误： 2.1 错误的解决办法 3. 查看环境是否安装成功 4. 进入创建的p…

Python 2023年9月7日
00135
数据科学家赚多少？基于pandasql和plotly的薪资分析与可视化 ⛵

💡 作者：韩信子@ShowMeAI📘 数据分析实战系列：https://www.showmeai.tech/tutorials/40📘 AI 岗位&攻略系列：https:/…

Python 2023年10月30日
0064
python flask智能租房项目——详情页

基本信息展示 1. 后端接⼝设计接⼝描述接⼝参数请求⻚⾯详情⻚请求⽅式 GET请求地址 /house/int:hid返回数据房源对象，包括：id、address、rooms…

Python 2023年8月15日
0056
关于解决python中使用pygame开发联机游戏中鼠标、键盘事件监测无限循环和数据不间断接收导致游戏无法响应问题。

基本问题：在使用Pygame开发设计小游戏程序时，基本开发框架是引入pygame,初始化、进行无限循环（监听事件、对事件进行响应、刷新屏幕）。如果你要实现网络联机游戏，那还需要…

Python 2023年9月19日
0061
python+大数据之数据可视化完整版

第一章绪论 1.开发环境windows-x64位，pycharm，python3.82.基本功能介绍本次可视化页面的制作主要有三步，web服务器页面的制作，爬取页面的国家和GDP…

Python 2023年8月4日
0064
sensor_msgs::Image消息及其参数

很多的博客直接将原网址复制粘贴过来，这里做一个整理，另外原网址是：https://docs.ros.org/en/melodic/api/sensor_msgs/html/msg/…

Python 2023年10月8日
0041
tensorflow安装成功但是No module named ‘tensorflow‘（已解决）

tensorflow安装成功但仍报错No module named ‘tensorflow’（已解决）之前好好的训练环境，突然用不了gpu训练了，于是卸…

Python 2023年8月2日
0061
Python：20行代码爬取高质量帅哥美女视频，让你一次看个够

兄弟姐妹们！又到了做曹操小偷的时候了！冲向鸭子！ [En] Brothers and sisters! It’s time to become a Cao thief …

Python 2023年5月25日
0095
如何使用 pandas 操作 excel 并显示dataframe多行，全列

转帖一个好文 excel 操作https://shazhenyu.blog.csdn.net/article/details/83104653?utm_medium=distrib…

Python 2023年8月7日
0073
python plot xticks_理解matplotlib xticks语法

我正在读一本书，我发现了这个密码：import matplotlib.pyplot as plt plt.scatter(x,y) plt.title(“Web tra…

Python 2023年9月5日
0045
汇编逆向-Qt

Qt源码解析索引汇编逆向— 授权破解示例分析问题模拟运行环境 x64dbg Windows 10 Qt5.12.3 示例代码使用Qt显示当前时间，模拟一般授权软件的时间判…

Python 2023年10月7日
0041
python opencv实现 tiff转raw格式以及扩充体积补零

tiff转raw格式 import numpy as npimport imageioimport cv2src = np.fromfile(“路径名.tiff&#82…

Python 2023年8月26日
00109

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python数据分析学习笔记（二）——数据清洗及特征处理

一、缺失值的观察与处理

二、重复值的观察与处理

三、特征观察与处理

大家都在看