动手学数据分析之 2数据清洗及特征处理

2023年7月18日上午4:19 • 人工智能 • 阅读 55

首先大致了解数据清洗。通常情况下我们拿到的数据是会存在缺少值或者有一些异常点等，需要经过一定的处理才能继续后边的分析或建模。所以拿到数据的第一步是进行数据清洗，将数据清洗成可以分析或建模的样子。

我们拿到的数据经常会有很多缺失值，比如有些列存在NaN，那其他列还有没有缺失值，这些缺失值要怎么处理呢

2.1.1 缺失值观察

(1) 请查看每个特征缺失值个数
(2) 请查看Age， Cabin， Embarked列的数据以上方式都有多种方式

#&#x65B9;&#x6CD5;&#x4E00;
df.info()

info(）用于打印DataFrame的简要摘要，显示有关DataFrame的信息，包括索引的数据类型dtype和列的数据类型dtype，非空值的数量和内存使用情况。

info(）方法最后输出的是每列不为空的数量。也就是说如果有某列数据的数量比实际的索引数量要少，说明该列存在缺少值。

注意info()和describe()的区别：

describe()函数用于生成描述性统计信息。描述性统计数据：数值类型的包括均值，标准差，最大值，最小值，分位数等；类别的包括个数，类别的数目，最高数量的类别及出现次数等；输出将根据提供的内容而有所不同。

方法二最后输出的是该列缺失值的数量。

#&#x65B9;&#x6CD5;&#x4E8C;
df.isnull().sum()

(1)缺失值处理的三种方法：

直接使用含有缺失值的特征；
删除含有缺失值的特征（该方法在包含缺失值的属性含有大量缺失值而仅仅包含极少量有效值时是有效的）；
缺失值补全。

(2) 常见的缺失值补全方法：

均值插补
同类均值插补
建模预测
高维映射
多重插补
极大似然估计
压缩感知和矩阵补全

(3) 举例对整张表的缺失值进行处理

#1#
df[df['Age']==None]=0
df.head(3)
'''''
#2#
df[df['Age'].isnull()] = 0
df.head(3)
'''''
#3#
df[df['Age'] == np.nan] = 0
df.head()

&#x68C0;&#x7D22;&#x7A7A;&#x7F3A;&#x503C;&#x7528;np.nan,None&#x4EE5;&#x53CA;.isnull()&#x54EA;&#x4E2A;&#x66F4;&#x597D;&#xFF0C;&#x8FD9;&#x662F;&#x4E3A;&#x4EC0;&#x4E48;&#xFF1F;&#x5982;&#x679C;&#x5176;&#x4E2D;&#x67D0;&#x4E2A;&#x65B9;&#x5F0F;&#x65E0;&#x6CD5;&#x627E;&#x5230;&#x7F3A;&#x5931;&#x503C;&#xFF0C;&#x539F;&#x56E0;&#x53C8;&#x662F;&#x4E3A;&#x4EC0;&#x4E48;&#xFF1F;

&#x6570;&#x503C;&#x5217;&#x8BFB;&#x53D6;&#x6570;&#x636E;&#x540E;&#xFF0C;&#x7A7A;&#x7F3A;&#x503C;&#x7684;&#x6570;&#x636E;&#x7C7B;&#x578B;&#x4E3A;float64&#x6240;&#x4EE5;&#x7528;None&#x4E00;&#x822C;&#x7D22;&#x5F15;&#x4E0D;&#x5230;&#xFF0C;&#x6BD4;&#x8F83;&#x7684;&#x65F6;&#x5019;&#x6700;&#x597D;&#x7528;np.nan

df.dropna().head(3)

dropna()方法-丢弃含空值的行、列

函数形式： dropna(axis=0, how=’any’, thresh=None, subset=None, inplace=False)

参数：

axis：轴。0或’index’，表示按行删除；1或’columns’，表示按列删除。
how：筛选方式。’any’，表示该行/列只要有一个以上的空值，就删除该行/列；’all’，表示该行/列全部都为空值，就删除该行/列。
thresh：非空元素最低数量。int型，默认为None。如果该行/列中，非空元素数量小于这个值，就删除该行/列。
subset：子集。列表，元素为行或者列的索引。如果axis=0或者’index’，subset中元素为列的索引；如果axis=1或者’column’，subset中元素为行的索引。由subset限制的子区域，是判断是否删除该行/列的条件判断区域。
inplace：是否原地替换。布尔值，默认为False。如果为True，则在原DataFrame上进行操作，返回值为None。

df.fillna(0).head(3)//&#x7528;0&#x586B;&#x5145;

fillna()方法-填充空值

函数形式： fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)

参数：

value：用于填充的空值的值。
method： {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None。定义了填充空值的方法， pad / ffill表示用前面行/列的值，填充当前行/列的空值， backfill / bfill表示用后面行/列的值，填充当前行/列的空值。
axis：轴。0或’index’，表示按行删除；1或’columns’，表示按列删除。
inplace：是否原地替换。布尔值，默认为False。如果为True，则在原DataFrame上进行操作，返回值为None。
limit：int， default None。如果method被指定，对于连续的空值，这段连续区域，最多填充前 limit 个空值（如果存在多段连续区域，每段最多填充前 limit 个空值）。如果method未被指定，在该axis下，最多填充前 limit 个空值（不论空值连续区间是否间断）
downcast：dict, default is None，字典中的项为，为类型向下转换规则。或者为字符串”infer”，此时会在合适的等价类型之间进行向下转换，比如float64 to int64 if possible。

数据中会存在重复值，要怎样处理呢

2.2.1 查看数据中的重复值

df[df.duplicated()]

2.2.2 对重复值进行处理

以下是对整个行有重复值的清理的方法举例：

df = df.drop_duplicates()
df.head()

2.2.3 将前面清洗的数据保存为csv格式

df.to_csv('test_clear.csv')

对特征进行一下观察，可以把特征大概分为两大类：
数值型特征：Survived ，Pclass， Age ，SibSp， Parch， Fare，其中Survived， Pclass为离散型数值特征，Age，SibSp， Parch， Fare为连续型数值特征
文本型特征：Name， Sex， Cabin，Embarked， Ticket，其中Sex， Cabin， Embarked， Ticket为类别型文本特征。

数值型特征一般可以直接用于模型的训练，但有时候为了模型的稳定性及鲁棒性会对连续变量进行离散化。文本型特征往往需要转换成数值型特征才能用于建模分析。

2.3.1 对年龄进行分箱（离散化）处理

(1) 分箱操作是什么？

分箱操作就是将连续数据转换为分类对应物的过程。简单点说就是将不同的东西，按照特定的条件放到一个指定容器里，比如分水果，把绿色的放一个篮子里，红色一个篮子等等，这个篮子就是箱，而水果就是数据，其中颜色就是条件

(2) 将连续变量Age平均分箱成5个年龄段，并分别用类别变量12345表示

(3) 将连续变量Age划分为(0,5] (5,15] (15,30] (30,50] (50,80]五个年龄段，并分别用类别变量12345表示

(4) 将连续变量Age按10% 30% 50% 70% 90%五个年龄段，并用分类变量12345表示

(5) 将上面的获得的数据分别进行保存，保存为csv格式

#&#x5C06;&#x8FDE;&#x7EED;&#x53D8;&#x91CF;Age&#x5E73;&#x5747;&#x5206;&#x7BB1;&#x6210;5&#x4E2A;&#x5E74;&#x9F84;&#x6BB5;&#xFF0C;&#x5E76;&#x5206;&#x522B;&#x7528;&#x7C7B;&#x522B;&#x53D8;&#x91CF;12345&#x8868;&#x793A;
df['AgeBand'] = pd.cut(df['Age'], 5,labels = [1,2,3,4,5])
df.head()

df.to_csv('test_ave.csv')
''''
#&#x5C06;&#x8FDE;&#x7EED;&#x53D8;&#x91CF;Age&#x5212;&#x5206;&#x4E3A;(0,5] (5,15] (15,30] (30,50] (50,80]&#x4E94;&#x4E2A;&#x5E74;&#x9F84;&#x6BB5;&#xFF0C;&#x5E76;&#x5206;&#x522B;&#x7528;&#x7C7B;&#x522B;&#x53D8;&#x91CF;12345&#x8868;&#x793A;
df['AgeBand'] = pd.cut(df['Age'],[0,5,15,30,50,80],labels = [1,2,3,4,5])
df.head(3)

df.to_csv('test_cut.csv')
'''''
#&#x5C06;&#x8FDE;&#x7EED;&#x53D8;&#x91CF;Age&#x6309;10% 30% 50 70% 90%&#x4E94;&#x4E2A;&#x5E74;&#x9F84;&#x6BB5;&#xFF0C;&#x5E76;&#x7528;&#x5206;&#x7C7B;&#x53D8;&#x91CF;12345&#x8868;&#x793A;
df['AgeBand'] = pd.qcut(df['Age'],[0,0.1,0.3,0.5,0.7,0.9],labels = [1,2,3,4,5])
df.head()

df.to_csv('test_pr.csv')

2.3.2 对文本变量进行转换

(1) 查看文本变量名及种类
(2) 将文本变量Sex， Cabin ，Embarked用数值变量12345表示
(3) 将文本变量Sex， Cabin， Embarked用one-hot编码表示

#&#x67E5;&#x770B;&#x7C7B;&#x522B;&#x6587;&#x672C;&#x53D8;&#x91CF;&#x540D;&#x53CA;&#x79CD;&#x7C7B;

#&#x65B9;&#x6CD5;&#x4E00;: value_counts
df['Sex'].value_counts()

#&#x65B9;&#x6CD5;&#x4E8C;: unique
df['Sex'].unique()

#&#x5C06;&#x7C7B;&#x522B;&#x6587;&#x672C;&#x8F6C;&#x6362;&#x4E3A;12345

#&#x65B9;&#x6CD5;&#x4E00;: replace
df['Sex_num'] = df['Sex'].replace(['male','female'],[1,2])
df.head()

#&#x65B9;&#x6CD5;&#x4E8C;: map
df['Sex_num'] = df['Sex'].map({'male': 1, 'female': 2})
df.head()

#&#x65B9;&#x6CD5;&#x4E09;: &#x4F7F;&#x7528;sklearn.preprocessing&#x7684;LabelEncoder
from sklearn.preprocessing import LabelEncoder
for feat in ['Cabin', 'Ticket']:
    lbl = LabelEncoder()
    label_dict = dict(zip(df[feat].unique(), range(df[feat].nunique())))
    df[feat + "_labelEncode"] = df[feat].map(label_dict)
    df[feat + "_labelEncode"] = lbl.fit_transform(df[feat].astype(str))

df.head()

#&#x5C06;&#x7C7B;&#x522B;&#x6587;&#x672C;&#x8F6C;&#x6362;&#x4E3A;one-hot&#x7F16;&#x7801;

#&#x65B9;&#x6CD5;: OneHotEncoder
for feat in ["Age", "Embarked"]:
    x = pd.get_dummies(df["Age"] // 6)
    x = pd.get_dummies(pd.cut(df['Age'],5))
    x = pd.get_dummies(df[feat], prefix=feat)
    df = pd.concat([df, x], axis=1)
    #df[feat] = pd.get_dummies(df[feat], prefix=feat)

df.head()

2.3.3 从纯文本Name特征里提取出Titles的特征(所谓的Titles就是Mr,Miss,Mrs等)

df['Title'] = df.Name.str.extract('([A-Za-z]+)\.', expand=False)
df.head()

Original: https://blog.csdn.net/jassnsnn/article/details/121961952
Author: jassnsnn
Title: 动手学数据分析之 2数据清洗及特征处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/700104/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

机器学习强基计划0-1：教程导读(附几十种经典模型源码合集)

目录 1 教程介绍 2 教程大纲 3 强基计划 4 经典算法合集 5 注意事项 Reference ; 1 教程介绍机器学习的各大模型在工程领域具有非常广泛的应用，也非常便于与其…

人工智能 2023年6月12日
0091
PySpark数据分析基础：pyspark.mllib.regression机器学习回归核心类详解(一)+代码详解

目录前言一、Spark MLlib 二、回归类 1.LabeledPoint 2.LinearModel 3.LinearRegressionModel load方法 pred…

人工智能 2023年6月17日
00158
（学习笔记）图像处理——直方图均衡化（HE）

文章目录 * – 前言 – 原理 – 步骤 – 优缺点 – 改进 – + 自适应均衡化（AHE） + 限制对…

人工智能 2023年6月20日
00171
Tensorflow笔记——神经网络优化

目录 1.常用函数：（1）tf.cast （2）tf.random.normal （3）tf.where 2.神经网络复杂度 (1)时间复杂度 (2)空间复杂度 3.学习率衰减策…

人工智能 2023年7月14日
0084
零基础学习Transformer：AttentionLayer and Self-AttentionLayer

Transformer Model Transformer是一个Seq2Seq模型，有一个encoder和一个decoder Transformer不是RNN，没有循环的结构，只有…

人工智能 2023年5月28日
0070
【MySQL】MySQL事务隔离机制与实现原理详解（MySQL专栏启动）

📫作者简介：小明java问道之路，专注于研究 Java/ Liunx内核/ C++及汇编/计算机底层原理/源码，就职于大型金融公司后端高级工程师，擅长交易领域的高安全/可用/并发…

人工智能 2023年6月29日
0096
load opencv videoio gstreamer453 64d dll failed 打开摄像头慢

环境：win10+opencv4.5.3+opencv_contrib-4.5.3+vs2019状态：禁用笔记本自带摄像头，使用webcam 问题配置好opencv和contri…

人工智能 2023年7月20日
0068
PyTorch安装及配置（详细的步骤）

一、Anaconda安装及配置这一步我前面的博客已经写过，这里就不再赘述！ https://blog.csdn.net/wzk4869/article/details/12671…

人工智能 2023年7月5日
0066
pytorch深度学习：神经网络实现数据分类(分类问题)

这一节，用pytorch实现神经网络分类问题，再次熟悉pytorch搭建神经网络的步骤。问题的提出分类问题是将数据划分种类的一种问题，常见的有二分类和多分类问题，这节就是做一个…

人工智能 2023年7月3日
0076
风、光、柴油机、蓄电池、电网交互微电网经济调度优化问题研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，matlab项目合作可私信。🍎个人主页：Matlab科研工作室🍊个人信条：格物致知。更多Matlab仿真内容点击👇…

人工智能 2023年6月27日
0098
还看不懂Python OpenCV？不，我不允许！隔壁大爷都说看得懂！❤️环境配置+问题分析+视频图像入门❤️万字只为你~

📢📢📢📣📣📣🌻🌻🌻Hello，大家好我叫是Dream呀，一个有趣的Python博主，小白一枚，多多关照😜😜😜🏅🏅🏅CSDN Python领域新星创作者，大二在读，欢迎大家找我合作学…

人工智能 2023年6月19日
0088
ZYNQ_FPGA_SPI通信协议多种实现方式

文章目录 PL PS * SPI GPIO AXI-GPIO AXI-Quad-SPI 本文记录一下在使用AD9363中的SPI通信问题，同时针对在ZYNQ系列开发板上实现SPI的…

人工智能 2023年6月29日
0087
Flume笔记

目录 1. Flume 概述 * 1.1 Flume 定义 1.2 Flume 基础架构 – 1.2.1 Agent 1.2.2 Source 1.2.3 Sink 1…

人工智能 2023年6月26日
0070
机器学习——支持向量机

首先区分一对概念：线性可分：存在一条直线或一个平面或超平面，可以将样本集分开。非线性可分：不存在…… 这里我们假设中间那条直线的方程为：权重（…

人工智能 2023年6月16日
0083
Filterin

问题背景在数据处理和信号处理领域，Filtering（滤波）是一个常见的操作。滤波是指从一组数据中提取特定频率成分或者去除某些频率成分的过程。在本文中，我们将介绍滤波的基本概念、…

人工智能 2024年1月2日
0035
04_Cypher之进阶操作

文章目录 Create与Relationship * Merge VS Create 节点与关系的赋值 FOREACH标记节点 return 集合与系统函数 * list与list…

人工智能 2023年6月1日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

动手学数据分析之 2数据清洗及特征处理

大家都在看