一起动手学数据分析 task02 数据清洗及特征处理

2023年8月9日上午1:38 • Python • 阅读 44

第二章第一节学习目录

*
– 2.1 缺失值观察与处理
–
+ 2.1.1 任务一：缺失值观
+ 2.1.2 任务二：对缺失值进行处理
– 2.2 重复值观察与处理
–
+ 2.2.1 任务一：查看数据中的重复值
+ 2.2.2 任务二：对重复值进行处理
+ 2.2.3 任务三：将前面清洗的数据保存为csv格式
– 2.3 特征观察与处理
–
+ 2.3.1 任务一：对年龄进行分箱（离散化）处理
+ 2.3.2 任务二：对文本变量进行转换
+ 2.3.3 任务三（附加）：从纯文本Name特征里提取出Titles的特征(所谓的Titles就是Mr,Miss,Mrs等)
– 【总结】

2.1 缺失值观察与处理

因为数据集会有缺失或者重复影响数据分析的效果，所以我们需要在分析之前进行数据的一些处理。
首先我们照旧需要引入相应的库和数据包。

#&#x52A0;&#x8F7D;&#x5E93;
import numpy as np
import pandas as pd
#&#x52A0;&#x8F7D;&#x6587;&#x4EF6;
df = pd.read_csv('train.csv')

2.1.1 任务一：缺失值观

(1) 查看每个特征缺失值个数
上一章我们就用过如下的函数查看各个参数的基本信息，在这些信息中表明了每个参数共有多少个值，从而，我们可以推断出有几个缺失值：

#&#x67E5;&#x770B;&#x7F3A;&#x5931;&#x503C;
df.info()

当然，查看缺失值不止这一种方法，上一章提过的判空函数也可进行缺省值的查看：

df.isnull()

其中true表示数据缺失。
当然，我们也可以进行缺省值的统计：

df.isnull().sum()

(2) 查看Age， Cabin， Embarked列的数据
这个在上一章的博客里也提到了如何查看指定列的信息。

df[['Age','Cabin','Embarked']].head()

2.1.2 任务二：对缺失值进行处理

(1)处理缺失值一般有几种思路
a.用同一个数字来补全，默认0

df.fillna()

b.相互填充(上面数据补下面数据，或下面数据补上面数据）
如下例子是向后填充，也就是上面数据补下面数据：

df.fillna(method='ffill')

如下例子是向前填充，也就是下面数据补上面数据：

df.fillna(method='bfill')

(2) 对Age列的数据的缺失值进行处理
处理方式同样有很多种：
a.用0来补全：

df.fillna({'Age':0})

因为只补全Age，所以需要在函数中注明。
b.用loc函数

df.loc[df['Age'].isnull(),'Age'] = 0

loc函数用于显示需要显示的值，这在上一章有提到过。
c.用none

df[df['Age']==None]=0

d.用isnull

df[df['Age'].isnull()] = 0

d.用np.nan

df[df['Age'] == np.nan] = 0

在这一个问题下面，在np.nan,None以及.isnull()几种方式中最好用np.nan，因为数值列读取数据后用None一般搜索不到浮点数的数据类型。而且在一般在实际应用中，np.nan多用于单个值的检验，pd.isnull()用于对一个DataFrame或Series（整体）的检验。
将几种方式分别进行使用及判空查看，则可发现Age已经没有空值了：

df.isnull().sum()

(3) 使用不同的方法直接对整张表的缺失值进行处理
上面已经运用了很多种补全方法，这里我们来补全一下整张表。
第一种方式：

df.dropna().head()

这种方式是丢弃有空值的行，当然想丢弃有空值的列可以在函数中设置参数，即可改变，这个函数有五个参数，我们可以进行设置来达到我们的目的。
第二种方式：
这种方式就是在上两个问题中所使用的，它用来补全数据而非删除，这里我们用0来统一补全数据。

#&#x7528;0&#x8865;&#x5168;&#x6574;&#x5F20;&#x8868;
df=df.fillna(0)
df.isnull().sum()

（需要记得赋值，否则只是显示，而没有真正进行保存）
我们可以从图中看出已经没有了空缺值。

2.2 重复值观察与处理

2.2.1 任务一：查看数据中的重复值

#&#x67E5;&#x770B;&#x91CD;&#x590D;&#x884C;
df[df.duplicated()]

我们可以从图中看出此数据集中没有重复行。

2.2.2 任务二：对重复值进行处理

先设一个有重复值的数据集：

a=pd.DataFrame({'a':['1','1','2','2','2'],
                'b':['3','3','3','4','4'],
                'c':[5,5,3.5,15,5]})
a

（1）查看重复行：

a[a.duplicated()]

我们从索引得知，第二行重复了。
（2）重复值的清理

#&#x6E05;&#x9664;&#x91CD;&#x590D;&#x503C;
a = a.drop_duplicates()
a.head()

我们可以观察到，第一行已经被清除了。

2.2.3 任务三：将前面清洗的数据保存为csv格式

#&#x5C06;&#x524D;&#x9762;&#x6E05;&#x6D17;&#x7684;&#x6570;&#x636E;&#x4FDD;&#x5B58;&#x4E3A;csv&#x683C;&#x5F0F;
df.to_csv('test_clear.csv')

我们可以看到文件已经生成并保存在当前目录下了。

2.3 特征观察与处理

对数据进行观察，我们可以发现特征主要分为两种类型：数值类型和文本类型。
数值类型可直接进行模型的训练，但是文本类型需要先进行数值转换，才能进行分析运用。

2.3.1 任务一：对年龄进行分箱（离散化）处理

(1) 分箱操作是什么？
分箱操作，即是分箱离散化，将数据进行离散化的归类，是一种无监督离散化方法，主要分为两类：等距离分箱和等频度分箱。
其中，等距离分箱即等宽度分箱，设有K个空间，则每个空间的间距 I=（Max-Min）/K；等频率分箱，即等深度分箱。
使用分箱操作可以剔除那些异常的数据，防止后续模型训练出错。

(2) 将连续变量Age平均分箱成5个年龄段，并分别用类别变量12345表示

#&#x5C06;&#x8FDE;&#x7EED;&#x53D8;&#x91CF;Age&#x5E73;&#x5747;&#x5206;&#x7BB1;&#x6210;5&#x4E2A;&#x5E74;&#x9F84;&#x6BB5;&#xFF0C;&#x5E76;&#x5206;&#x522B;&#x7528;&#x7C7B;&#x522B;&#x53D8;&#x91CF;12345&#x8868;&#x793A;
df['AgeBand'] = pd.cut(df['Age'], 5,labels = [1,2,3,4,5])
df.head()

我们可以看到，后面已经加入一列用于分箱的特征。
用直方图进行直观感受（五段即是16岁为一段，因为最大岁数80，最小0岁）：

#&#x753B;&#x76F4;&#x65B9;&#x56FE;
from matplotlib import pyplot as plt
plt.hist(df['Age Bins'])

我们可以从中看出40岁以内的人占大多数人。
保存数据：

df.to_csv('test_ave.csv')

(3) 将连续变量Age划分为(0,5] (5,15] (15,30] (30,50] (50,80]五个年龄段

#right&#x9ED8;&#x8BA4;&#x5DE6;&#x95ED;&#x53F3;&#x5F00;&#xFF0C;&#x8FD9;&#x91CC;&#x9700;&#x6539;&#x53D8;&#x53C2;&#x6570;&#x503C;
df['Age Bins'] = pd.cut(df['Age'], [0,5,15,30,50,80],right=False)
df.head()

我们可以清楚的看到每个人年龄的区间。
保存数据：

df.to_csv('test_cut.csv')

(4) 将连续变量Age按10% 30% 50% 70% 90%五个年龄段，并用分类变量12345表示

注意：代码里的注释很重要

#Bin edges must be unique,&#x6240;&#x4EE5;&#x6211;&#x4EEC;&#x9700;&#x8981;&#x7528;&#x5230;&#x53E6;&#x4E00;&#x4E2A;&#x53C2;&#x6570;duplicates&#xFF0C;&#x53D6;&#x6D88;&#x552F;&#x4E00;&#x6027;
Bin labels must be one fewer than the number of bin edges,&#x6240;&#x4EE5;&#x6807;&#x7B7E;&#x5FC5;&#x987B;&#x4E3A;&#x56DB;&#x4E2A;&#x800C;&#x4E0D;&#x662F;&#x4E94;&#x4E2A;
df['Age Bins'] = pd.qcut(df['Age'],[0,0.1,0.3,0.5,0.7,0.9],duplicates='drop',labels = [1,2,3,4])
df.head(10)

这种方法会导致Age Bins特征下属于5的标签变为空值。后来进行研究，发现需要在0.9后再加上1，补全整个百分制才可以显示正确。如下所示：

df['Age Bins'] = pd.qcut(df['Age'],[0,0.1,0.3,0.5,0.7,0.9,1],duplicates='drop',labels = [1,2,3,4,5])
df.head(10)

保存数据：

df.to_csv('test_pr.csv')

2.3.2 任务二：对文本变量进行转换

(1) 查看文本变量名及种类
方法一：
Sex：

df['Sex'].unique()

Cabin：

df['Cabin'].unique()

Embarked:

df['Embarked'].unique()

在图中，我们可以清楚的看到各个特征有哪些值和类型是什么。
方法二：
Sex：

df['Sex'].value_counts()

Cabin：

df['Cabin'].value_counts()

Embarked:

df['Embarked'].value_counts()

从图中我们可以看出，各个特征值有哪些，每个值有几个。
(2) 将文本变量Sex， Cabin ，Embarked用数值变量12345表示
方法一：
Sex：

#&#x65B9;&#x6CD5;&#x4E00;: replace
df['Sex_num'] = df['Sex'].replace(['male','female'],[1,2])
df.head()

这里我们将1设置为男性，2设置为女性。
方法二：
Cabin：
由于Cabin的值太多，我们引入处理包sklearn.preprocessing来进行快速处理。
注意此函数只能用于全是文本的数据，之前补缺失值的时候有数值加入，这里需要将0转为文本类型（astype(str))）。

#&#x8FDB;&#x884C;&#x591A;&#x6570;&#x503C;&#x7684;&#x6587;&#x672C;&#x5411;&#x6570;&#x503C;&#x7C7B;&#x578B;&#x8F6C;&#x5316;
from sklearn.preprocessing import LabelEncoder
df['Cabin_num']= LabelEncoder().fit_transform(df['Cabin'].astype(str))
df.head()

方法三：
Embarked:

#&#x65B9;&#x6CD5;&#x4E09;: map
df['Embarked_num'] = df['Embarked'].map({'S':1,'C':2,'Q':3,0:4})
df.head()

(3) 将文本变量Sex， Cabin， Embarked用one-hot编码表示
one-hot编码：One-Hot编码，又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。这样可以有效的对特征进行分类，也有利于后续的比较。
下面，为了加快速度，我们用循环的方式将三个参数设为one-hot编码。

#&#x5C06;&#x7C7B;&#x522B;&#x6587;&#x672C;&#x8F6C;&#x6362;&#x4E3A;one-hot&#x7F16;&#x7801;

for feat in ["Sex","Cabin","Embarked"]:
    x = pd.get_dummies(df[feat], prefix=feat)
    df = pd.concat([df, x], axis=1)
    #df[feat] = pd.get_dummies(df[feat], prefix=feat)

df.head()

2.3.3 任务三（附加）：从纯文本Name特征里提取出Titles的特征(所谓的Titles就是Mr,Miss,Mrs等)

我们可以使用如下方法：

df['Title'] = df.Name.str.extract('([A-Za-z]+)\.')
df.head()

如图所示，我们就已经提取出了名字前的前缀：

保存本节结论：

df.to_csv('test_fin.csv')

【总结】

在本章本节主要学习了数据缺失值和重复值的处理，以及对文本数据向数值类型转化和处理的方法。利用本节所学，我们可以更清晰更直观的了解到我们的数据是什么样的，该如何去处理它们，让他们为我们所用，在后期对模型的训练具有重要的意义。

Original: https://blog.csdn.net/weixin_43356993/article/details/121970199
Author: 北辰若星⭐
Title: 一起动手学数据分析 task02 数据清洗及特征处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/743623/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

vivo前端智能化实践：机器学习在自动网页布局中的应用

作者：vivo 互联网前端团队- Su Ning 在设计稿转网页中运用基于self-attention机制设计的机器学习模型进行设计稿的布局，能够结合dom节点的上下文得出合理的方…

Python 2023年10月23日
0049
WPF+ASP.NET SignalR实现后台通知

在实际业务中，当后台数据发生变化，客户端能够实时的收到通知，而不是由用户主动的进行页面刷新才能查看，这将是一个非常人性化的设计。比如数字化大屏，并没有人工的干预，而是自动的刷新数据…

Python 2023年6月10日
0072
Matplotlib关于字体及子图的详细操作

Matplotlib关于字体及子图的详细操作 1. Matplotlib关于字体的详细操作 2. 图片排版与修饰 Matplotlib关于字体的详细操作方法一、 from mat…

Python 2023年9月3日
0035
Django在Python中安装及创建项目

Django在Python中应用 Pycharm中创建Django项目 * 安装第三方库Django 创建应用 MVT模式请求与响应参考教程：Django3.2 快速入门（四小…

Python 2023年8月4日
0044
Python基于PC版微信实现机器人

在 github中有基于 web版的微信实现的实时收发消息 api， python调用起来非常简单。但是目前来说，大部分的用户没法登录 web版的微信，因此也就没法使用。今天我们…

Python 2023年8月9日
0049
【并发操作】协程，线程，进程是什么，在Python中怎么应用？

前言生活中的多任务时时刻刻存在，例如小张一边码字一边看屏幕，又例如小蔡可以一边跳舞一边打篮球，这就是生活中的多任务。那么计算机中的多任务是什么呢、怎么使用呢？就让我们一起探讨计算…

Python 2023年6月10日
0064
pytest单元测试框架

pytest 一. pytest做的四件事二. pytest的运行方式 * 2.1 主函数模式 2.2 命令行模式 2.3 基于pytest.ini文件的规则执行（生产中多用这种…

Python 2023年9月13日
0045
Python数据分析三大库——Numpy入门(1)-ndarray介绍、切片、转置

1、ndarray 1.1 ndarray简单介绍 NumPy最重要的一个特点就是其N维数组对象（即ndarray），该对象是一个快速而灵活的大数据集容器。你可以利用这种数组对整块…

Python 2023年8月28日
0058
JS新年倒计时

✅作者简介：热爱国学的Java后端开发者，修心和技术同步精进。🍎个人主页：Java Fans的博客🍊个人信条：不迁怒，不贰过。小知识，大智慧。💞当前专栏：前端案例分享专栏✨特色专栏…

Python 2023年9月7日
0040
【无标题】工商银行科技菁英岗笔经面经

工商银行2022夏季招聘笔经面经投递信息笔试面试本文还发布于牛客网投递信息应聘岗位：科技菁英-珠海-后端开发工程师投递渠道：官网（中国工商银行人才招聘 (icb…

Python 2023年10月8日
0057
一文带你学会python新年倒计时

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年9月17日
0027
手把手教你使用Numpy、Matplotlib、Scipy等5个Python库

导读：用Python设计控制系统，你会用到接下来要介绍的几个模块：Numpy、Matplotlib、Scipy、Sympy和Python-Control。作者：南裕树（Yuki …

Python 2023年8月27日
0086
这道Python列表基础题目你确定会

Original: https://www.cnblogs.com/123456feng/p/16106174.htmlAuthor: 蚂蚁ailingTitle: 这道Pytho…

Python 2023年5月24日
0058
手把手教你使用Numpy、Matplotlib、Scipy等5个Python库

导读：用Python设计控制系统，你会用到接下来要介绍的几个模块：Numpy、Matplotlib、Scipy、Sympy和Python-Control。作者：南裕树（Yuki …

Python 2023年9月1日
0049
python lambda表达式

作用函数名=lambda 参数: 表达式就是写在一行的函数而已，例如用例 >>> myfun = lambda x: x-10 >>> m…

Python 2023年6月12日
0091
Python OpenCV 单目相机标定、坐标转换相关代码（包括鱼眼相机）

前言本文不讲原理，只关注代码，有很多博客是讲原理的，但是代码最多到畸变矫正就结束了，实际上就是到 OpenCV 官方示例涉及的部分。在官方示例中使用黑白棋盘格求解了相机的内外参和…

Python 2023年8月2日
00153

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31