动手学数据分析—-task2——-数据清洗及特征处理

2023年7月9日上午1:34 • 人工智能 • 阅读 97

本节主要学习内容为：数据清洗及特征处理。数据在收集的过程中，数据收集人员往往只是负责把数据收集起来，对数据内容遗漏，标签错误的问题往往不会注意，所以数据分析人员拿到数据后，通过数据统计、可视化、数据清洗等手段把遗漏、错误、重复等数据问题解决掉，才能进行下一步分析工作。


import numpy as np
import pandas as pd

df = pd.read_csv('./data/train.csv')


df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

df[['Age','Cabin','Embarked']].head(3)

1.1.2 任务二：对缺失值进行处理

(1)处理缺失值一般有几种思路

(2) 请尝试对Age列的数据的缺失值进行处理

(3) 请尝试使用不同的方法直接对整张表的缺失值进行处理


df[df['Age']==None]=0
df[df['Age'].isnull()] = 0
df[df['Age'] == np.nan] = 0

【思考】检索空缺值用np.nan,None以及.isnull()哪个更好，这是为什么？如果其中某个方式无法找到缺失值，原因又是为什么？
isnull()方法更好，isnull()可以同时识别np.nan和None类型

df.dropna().head(3)
df.fillna(0).head(3)

【参考】https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html
【参考】https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html

1.2 重复值观察与处理

1.2.1 查看数据中的重复值


df[df.duplicated()]

1.2.2 处理重复值


df = df.drop_duplicates()

1.2.3 将前面清洗的数据保存为csv格式

df.to_csv('test_clear.csv')

1.3 特征观察与处理

我们对特征进行一下观察，可以把特征大概分为两大类：
数值型特征：Survived ，Pclass， Age ，SibSp， Parch， Fare，其中Survived， Pclass为离散型数值特征，Age，SibSp， Parch， Fare为连续型数值特征
文本型特征：Name， Sex， Cabin，Embarked， Ticket，其中Sex， Cabin， Embarked， Ticket为类别型文本特征。

数值型特征一般可以直接用于模型的训练，但有时候为了模型的稳定性及鲁棒性会对连续变量进行离散化。文本型特征往往需要转换成数值型特征才能用于建模分析。

1.3.1 对年龄进行分箱（离散化）处理

(1) 分箱操作是什么？

(2) 将连续变量Age平均分箱成5个年龄段，并分别用类别变量12345表示

(3) 将连续变量Age划分为(0,5] (5,15] (15,30] (30,50] (50,80]五个年龄段，并分别用类别变量12345表示

(4) 将连续变量Age按10% 30% 50% 70% 90%五个年龄段，并用分类变量12345表示

(5) 将上面的获得的数据分别进行保存，保存为csv格式


df['AgeBand'] = pd.cut(df['Age'], 5,labels = [1,2,3,4,5])
df.head()


df['AgeBand'] = pd.cut(df['Age'],[0,5,15,30,50,80],labels = [1,2,3,4,5])
df.head(3)


df['AgeBand'] = pd.qcut(df['Age'],[0,0.1,0.3,0.5,0.7,0.9],labels = [1,2,3,4,5])
df.head()

【参考】https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.qcut.html
【参考】https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.cut.html

1.3.2 对文本变量进行转换

(1) 查看文本变量名及种类
(2) 将文本变量Sex， Cabin ，Embarked用数值变量12345表示
(3) 将文本变量Sex， Cabin， Embarked用one-hot编码表示


df['Sex'].value_counts()

male      453
female    261
0           1
Name: Sex, dtype: int64

df['Cabin'].value_counts()

G6             4
C23 C25 C27    4
B96 B98        4
F33            3
C22 C26        3
              ..

D37            1
C92            1
E58            1
E77            1
B4             1
Name: Cabin, Length: 135, dtype: int64

df['Embarked'].value_counts()

S    554
C    130
Q     28
0      1
Name: Embarked, dtype: int64


df['Sex'].unique()

array(['male', 'female', 0], dtype=object)


df['Sex_num'] = df['Sex'].replace(['male','female'],[1,2])
df.head()


df['Sex_num'] = df['Sex'].map({'male': 1, 'female': 2})
df.head()


from sklearn.preprocessing import LabelEncoder
for feat in ['Cabin', 'Ticket']:
    lbl = LabelEncoder()
    label_dict = dict(zip(df[feat].unique(), range(df[feat].nunique())))
    df[feat + "_labelEncode"] = df[feat].map(label_dict)
    df[feat + "_labelEncode"] = lbl.fit_transform(df[feat].astype(str))

df.head()


for feat in ["Age", "Embarked"]:

    x = pd.get_dummies(df[feat], prefix=feat)
    df = pd.concat([df, x], axis=1)

df.head()

1.3.3 从纯文本Name特征里提取出Titles的特征(所谓的Titles就是Mr,Miss,Mrs等)


df['Titles'] = df.Name.str.extract('([A-Za-z]+)\.', expand=False)
df.head()

1.4 数据重构

1.4.1 用concat方法将左上和右上两张表合为一张表


import numpy as np
import pandas as pd

df1 = pd.read_csv('./data/train-left-up.csv')
df2 = pd.read_csv('./data/train-right-up.csv')
pd.concat([df1, df2], axis = 1).to_csv('result_up.csv')
result_up = pd.concat([df1, df2], axis = 1)
result_up.head()

1.4.2 用concat方法将左下和右下两张表合为一张表,并和result_up和为一张表


import numpy as np
import pandas as pd

df3 = pd.read_csv('./data/train-left-down.csv')
df4 = pd.read_csv('./data/train-right-down.csv')
pd.concat([df3, df4], axis = 1).to_csv('result_down.csv')
result_down = pd.concat([df3, df4], axis = 1)
result = pd.concat([result_up, result_down)]
result.head()

1.4.3 使用DataFrame自带方法join和append，来完成上面四张表的合并

result_up = df1.join(df2)
result_down = df3.join(df4)

result = result_up.append(result_down)
result.head()

DataFrame.join()
DataFrame.append

1.4.4 使用pandas.merge和DataFrame.append完成上面四张表的合并

df1 = pd.read_csv('./data/train-left-up.csv')
df2 = pd.read_csv('./data/train-right-up.csv')
df3 = pd.read_csv('./data/train-left-down.csv')
df4 = pd.read_csv('./data/train-right-down.csv')
result_up = pd.merge(df1, df2, left_index = True, right_index = True)
result_down = pd.merge(df3, df4, left_index = True, right_index = True)
result = result_up.append(result_down)
result.head()

【参考】：pandas.merge

on：列名，join用来对齐的那一列的名字，用到这个参数的时候一定要保证左表和右表用来对齐的那一列都有相同的列名。

left_on：左表对齐的列，可以是列名，也可以是和dataframe同样长度的arrays。

right_on：右表对齐的列，可以是列名，也可以是和dataframe同样长度的arrays。

left_index/ right_index: 如果是True的haunted以index作为对齐的key

how：数据融合的方法。

sort：根据dataframe合并的keys按字典顺序排序，默认是，如果置false可以提高表现。

1.4.5 将数据变成Series类型的数据

unit_result = result.stack().head(20)
uinit_result.head()

【参考】：DataFrame.stack
返回一个经过重塑的DataFrame或Series，该DataFrame或Series有一个多级索引，与当前的DataFrame相比有一个或多个新的最内层。新的最内层是通过旋转当前数据帧的列来创建的:

如果列是单一的，输出是一个Series;
2）如果列是多层的，则从指定的级别获取新的索引级别，输出是一个DataFrame

Original: https://blog.csdn.net/jackhh1/article/details/118770185
Author: 黄水生
Title: 动手学数据分析—-task2——-数据清洗及特征处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/679709/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

第三节课 Pandas，Numpy的简单使用

1、安装numpy 2、numpy的操作 3、相关操作 4、Pandas数据分析 5、绘图 6、数据清洗 pip install numpy 安装jupyter，安装noteboo…

人工智能 2023年7月18日
0048
基于openpose的K聚类算法手势识别

【写在前面的话】记录信息记录时间：2022.1.10 记录地点：实验室记录背景：年终总结的时候，想到的有个综合设计的课题没有整理。说明当初学校那边考虑到大部分同学在考研没…

人工智能 2023年5月31日
0056
【毕业设计】机器学习股票大数据量化分析与预测系统 – python 毕业设计

文章目录 0 前言 1 课题背景 2 实现效果 * UI界面设计 web预测界面 RSRS选股界面 3 软件架构 4 工具介绍 * Flask框架 MySQL数据库 LSTM 5 …

人工智能 2023年6月16日
0079
Gaussian Embedding

文章目录 1. 前驱知识 * transE 2. 高斯分布 3. 结论性概念 4. KG2E 5. Qualitative Analysis 6. Link Prediction …

人工智能 2023年6月10日
0090
【数据挖掘】各种各样的错误(python)

line 643, in parseraise ParserError(“Unknown string format: %s”, timestr) date…

人工智能 2023年6月19日
0083
OpenCV笔记：cv2.VideoCapture 完成视频的跳帧输出操作

背景我开始关注这个问题，是在使用 PaddleOCR + OpenCV 进行视频文字识别的时候，因为OpenCV 需要循环读取视频的每一帧进行解析，这就导致视频播放特别卡顿。由于…

人工智能 2023年7月27日
0079
国科大学习资料–数据挖掘（刘莹）–第二章习题及参考答案

国科大学习资料–数据挖掘（刘莹）–第二章习题及参考答案国科大学习资料–数据挖掘（刘莹）–第二章习题及参考答案国科大学习资料–数据挖掘（刘莹）–第二章习题及参考答案第 2 章数…

人工智能 2023年7月18日
0058
Keras实现RNN和LSTM做回归预测（python）

学习了RNN和LSTM的理论知识，下面再来使用Keras实现一下这些模型。理论知识：循环神经网络（RNN） LSTM神经网络和GRU Keras实现神经网络： Keras实现全…

人工智能 2023年6月18日
0065
pandas进阶用法（一）筛选条件、多重索引、缺失值

一篇比较好的pandas指南，适合已经熟悉pandas，并想掌握一些进阶用法的读者,不适合对pandas完全不了解的新人。文章大部分是Stack Overflow常见问题集合。 p…

人工智能 2023年7月7日
00108
《数据处理与知识发现》作业复习用

“第1章计算机基础知识（总计14学时，包括实训内容） ” “课题 “第一节 “课时 ” 2 学时 &#82…

人工智能 2023年6月19日
0082
3.深度学习（一）

文章目录第三章深度学习基础 * 3.1 基本概念 – 3.1.1 神经网络组成？ 3.1.2 神经网络有哪些常用模型结构？ 3.1.3 如何选择深度学习开发平台？ …

人工智能 2023年7月14日
0059
知识图谱——Python操作Neo4j导入CSV文件建立图谱

首先Neo4j是图数据库，最重要的就是结点和边的关系，每两个结点和边都可以看成三元组，主谓宾的关系，当然结点也是可以添加属性的，但是首先要有结点，在添加属性。本片文章就是用简单的方…

人工智能 2023年6月1日
0061
Python分多组求平均值的优雅操作

tags: Python Pandas 最近遇到一个问题, 如何分组计算平均值, 例如, 对于随机生成的范围在0~1000的数据, 这里用下面的代码实现: import rando…

人工智能 2023年6月19日
0066
【毕业设计】天气预测与数据分析系统 – 机器学习 python

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月16日
0075
MMDetection 使用示例：从入门到出门

最近对目标识别感兴趣，想做一些有趣目标识别项目自己玩耍，本来选择的是 YOLOV5 的，但无奈自己使用 YOLOV5 环境训练模型时，不管训练多少次 mAP 指标总是为 0，而其它…

人工智能 2023年7月9日
0076
安卓耳机左右音量调节_详介缤特力5200降噪蓝牙耳机怎么连接手机

今天给大家介绍一款新的蓝牙耳机，来自缤特力的VOYAGER5200。现在市场上蓝牙通讯耳机品牌和质量参差不齐，耳机降噪能力大小是越来越多用户看重的功能之一。而缤特力VOYAGER…

人工智能 2023年5月27日
0076

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31