动手学数据分析 Task02

2023年7月7日上午9:27 • 人工智能 • 阅读 53

第二章：数据清洗及特征处理

学习目标：将学习缺失值、重复值、字符串和数据转换等操作，将数据清洗成可以分析或建模的样子。

学习心得：通过对本次task02的学习，了解了数据清洗和数据预处理的重要性，要想得到成功的结果，数据必须是正确的，具体来说学会了如何检查并处理缺失值、重复值，然后还对一些连续特征离散化，也用的了上一个任务讲到的方法，收获很大。

可以看到Cabin列存在NaN，如何查看其他列有没有NaN的值？

; 2.1 缺失值观察和处理

查看缺失值

df.info()
df.isnull().sum()

缺失值检查

处理思路:先根据列值选出为空的行索引，然后把这一行设为空值。
方法一：

df[df['Age']== None]=0
df.head(10)

用None处理无效，是因为数值列读取数据后，空缺值的数据类型为float64，所以用None一般索引不到。

方法二：

df[df['Age'].isnull()] = 0
df.head(10)

方法三：

df[df['Age'] == np.nan] = 0
df.head(10)

其实np.nan()和pd.isnull()都可以对不论是DataFrame、Python list还是仅仅一个数值进行空值检测。但一般在实际应用中，np.isnan()多用于单个值的检验，pd.isnull()用于对一个DataFrame或Series（整体）的检验。

缺失值处理

方法一： dropna( )
对于Serial对象,丢弃带有NAN的所有项;对于DataFrame对象,丢弃带有NAN的行

方法二： fillna( )
以常数替换NAN值

2.2重复值观察和处理

查看所有的重复值

df[df.duplicated()]

对整个行有重复值的清理的方法

df = df.drop_duplicates()
df.head(100)

2.3特征观察与处理

对年龄进行离散化处理
将连续变量Age平均分箱成5个年龄段，并分别用类别变量12345表示

df['AgeBand'] = pd.cut(df['Age'], 5,labels = [1,2,3,4,5])
df.head(100)

将连续变量Age划分为(0,5] (5,15] (15,30] (30,50] (50,80]五个年龄段，并分别用类别变量12345表示

df['AgeBand'] = pd.cut(df['Age'],[0,5,15,30,50,80],labels = [1,2,3,4,5])
df.head(3)

将连续变量Age按10% 30% 50 70% 90%五个年龄段，并用分类变量12345表示
（有问题，90%到100%的变量就会变为NaN ,因为没有考虑到他们）

df['AgeBand'] = pd.qcut(df['Age'],[0,0.1,0.3,0.5,0.7,0.9],labels = [1,2,3,4,5])
df.head(100)

对文本变量进行转换
查看类别文本变量名及种类
方法一：

df['Sex'].value_counts()

df['Cabin'].value_counts()

方法二：

df['Sex'].unique()

将类别文本转换为12345


df['Sex_num'] = df['Sex'].replace(['male','female'],[1,2])
df.head()


df['Sex_num'] = df['Sex'].map({'male': 1, 'female': 2})
df.head()


from sklearn.preprocessing import LabelEncoder
for feat in ['Cabin', 'Ticket']:
    lbl = LabelEncoder()
    label_dict = dict(zip(df[feat].unique(), range(df[feat].nunique())))
    df[feat + "_labelEncode"] = df[feat].map(label_dict)
    df[feat + "_labelEncode"] = lbl.fit_transform(df[feat].astype(str))

df.head()

将类别文本转换为one-hot编码


for feat in ["Age", "Embarked"]:
    x = pd.get_dummies(df[feat], prefix=feat)
    df = pd.concat([df, x], axis=1)

df.head()

Original: https://blog.csdn.net/qq_42882457/article/details/121959614
Author: ZZE15832206526
Title: 动手学数据分析 Task02

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/675948/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

上采样、转置卷积、反卷积、反池化，傻傻分不清

下采样 downsample：是图像处理上的概念，即将分辨率大的图像转换为分辨率小的图像，即将图像缩小。可以采用的…

人工智能 2023年6月20日
0094
【超详细】利用CIFAR10数据集进行完整的网络模型训练

本文利用CIFAR10模型来进行进行完整的网络模型训练，可以让我们知道进行数据训练的基本过程。除此之外，本文来提到一些完整的网络模型训练的时候，应该注意的细节问题。文章目录一、…

人工智能 2023年7月12日
00105
哪款蓝牙耳机性价比最高？四款高性价比蓝牙耳机点评

随着不少旗舰级智能手机取消了3.5mm耳机孔，各种真无线蓝牙耳机出现在耳机市场中。以至于在同质化的环境中，很难找到一款拥有自己的风格和特点，适合运动的真无线蓝牙耳机。一、南卡A2…

人工智能 2023年5月25日
0057
3050ti安装TensorFlow与Pytorch

1.首先在已有的anaconda环境下建立新的虚拟环境。conda create -n third_env python=3.7conda activate third_env 2…

人工智能 2023年5月25日
0066
机器学习练习题

1.在NumPy中创建一个元素均为0的数组可以使用（）函数。 [A]A.zeros( ) B.arange( ) C.linspace( ) D.logspace( )2.通常（…

人工智能 2023年6月16日
0064
2021电赛D题：基于互联网的摄像测量系统思路

2021年全国电赛题目如下：一：主要思路基于opencv，树莓派，以及网络交换机组成的摄像测量系统。由测量摄像系统与网络传输系统组成。支持开机自启动，一键测量，声光提示结束测量…

人工智能 2023年6月18日
0077
2023最新SSM计算机毕业设计选题大全（附源码+LW）之java手游账号交易系统u2741

对于即将毕业或者即将做课设的同学而言，由于经验的欠缺，面临的第一个难题就是选题，确定好题目之后便是开题报告，如果选题首先看自己学习那些技术，不同技术适合做不同的产品，比如自己会些简…

人工智能 2023年6月28日
0090
PyTorch nn.GRU 使用详解

我们看官方文档一些参数介绍，以及如下一个简单例子：看完之后，还是一脸懵逼: 输入什么鬼？输出又什么鬼？(这里我先把官网中 h0 去掉了，便于大家先理解更重要的概念) impor…

人工智能 2023年7月20日
00103
欠拟合的原因以及解决办法（深度学习）

之前这篇文章，我分析了一下深度学习中，模型过拟合的主要原因以及解决办法：过拟合的原因以及解决办法（深度学习）_大黄的博客-CSDN博客这篇文章中写一下深度学习中，模型欠拟合的原…

人工智能 2023年6月23日
0098
机器学习收入阶层分类(python)

文章目录相关文件一.数据说明二.特征工程 * 2.1导入相关包 2.2导入数据 2.3资本收入-资本支出构造新的feature 2.4将数据中的非数字数据类型转化为数值型数据…

人工智能 2023年7月1日
00101
回归预测值预测区间_【Origin】通过线性拟合添加置信区间

问题描述：如何像封面那样，添加一个置信区间呢？一、快速解答：使用Origin的线性拟合工具就可以，直接在你当前的图形窗口，点击’Linear Fit’…

人工智能 2023年6月18日
00154
标签平滑(label smoothing)

在常见的多分类问题中，先经过softmax处理后进行交叉熵计算，原理很简单可以将计算loss理解为，为了使得网络对测试集预测的概率分布和其真实分布接近，常用的做法是使用one-ho…

人工智能 2023年5月27日
0069
单目深度估计–深度学习篇

文章目录一：深度估计应用背景 * 1.深度估计的定义 2.深度估计的应用场景 3.几种深度估计的方法 4.使用深度学习估计的优缺点二：单目深度估计模型 * 1.使用的数据集 2…

人工智能 2023年7月26日
0071
python语言处理初探——分词、词性标注、提取名词

这个教程里我们只需要调库，不需要了解原理，很简单的参考文章：参考：Python NLTK 自然语言处理入门与例程参考1：NLP入门学习1——分词、词性标注 – CSD…

人工智能 2023年5月30日
0086
简单seq2seq代码使用tensorflow的LSTMCell构造循环decoder

好多预测模型的论文都是用seq2seq实现的，具体是LSTM_encoder将输入序列编码为一个tensor（又叫output、H或Y），同时保留序列状态state（又叫w或c）；…

人工智能 2023年5月24日
0098
【亲测通过】MaskRcnn_tf1.x如何升级到MaskRcnn_tf2.x，实现RTX3090环境训练自定义数据集模型。

一、背景: 之前一篇博文中已经实现了maskrcnn_tf1.15.0环境的win10+cpu模型训练，但cpu训练实在是非常的耗时，据说tf1.x是支持RTX1060的（本人未测…

人工智能 2023年7月9日
0069

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

动手学数据分析 Task02

第二章：数据清洗及特征处理

; 2.1 缺失值观察和处理

2.2重复值观察和处理

2.3特征观察与处理

大家都在看