【机器学习】决策树案例三：利用决策树进行泰坦尼克号事故人员存活分类预测

2023年7月1日下午3:48 • 人工智能 • 阅读 76

利用决策树进行泰坦尼克号事故人员存活分类预测

3 利用决策树进行泰坦尼克号事故人员存活分类预测
*
3.1 导入模块与加载数据
3.2 特征工程
3.3 划分数据
3.4 模型创建与应用
3.5 模型可视化
3.6 参数自动搜索

手动反爬虫，禁止转载：
原博地址

https://blog.csdn.net/lys_828/article/details/122048988（CSDN博主：Be_melting）

 知识梳理不易，请尊重劳动成果，文章仅发布在CSDN网站上，在其他网站看到该博文均属于未经作者授权的恶意爬取信息

3 利用决策树进行泰坦尼克号事故人员存活分类预测

3.1 导入模块与加载数据

import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings('ignore')

data= pd.read_csv('../data/data_titanic.csv',index_col=0)
data.head()

输出结果如下。

关于泰坦尼克号事故分析的案例已经在前面的数据分析实战部分有着详细地介绍，这里主要是进行决策树模型的分类预测，还是像之前案例操作一样，通过info()对所有的字段信息进行查看。

3.2 特征工程

部分字段是存在着缺失，还有部分字段属于是字符串数据类型需要进行编码化处理。首先处理的是无关字段和数据缺失量较多的字段，代码如下。

data.drop(["Cabin","Name","Ticket"],inplace=True,axis=1)
data.isna().sum()

输出结果如下。Cabin字段中是缺失值达到了一半以上；Name属于文本数据，虽然没有缺失值但是人员姓名基本上和事故结果没有联系；最后就是Ticket字段，这部分是票的单号，也是和事故结果无果的字段。

删除部分字段后，剩下字段中还是有缺失值，需要进行缺失值的处理。针对Age字段，采用均值进行填充，Embarked字段只有两个缺失值，直接进行删除即可，代码操作如下。

data["Age"] = data["Age"].fillna(data["Age"].mean())
data = data.dropna()
data.isna().sum()

输出结果如下，结果核实没有缺失值。

再次调用info()方法查看各字段的信息，输出结果如下。

对于Sex字段还是属于字符串数据类型，需要进行编码化处理，代码如下。

data["Sex"] = (data["Sex"]== "male").astype("int")
data["Sex"]

输出结果如下。除了上面的操作外，也可以使用apply的方式进行lambda表达式的判断，属于常用的操作。

除了Sex外，还有一个字段也是字符串数据类型，就是Embarked字段，表示上船的地点。

data["Embarked"].unique().tolist()

输出结果如下。Sex字段是二分类数据，对于多分类的字段的数据处理就是另外一种方式。

采用唯一值在列表中的坐标对多分类中的数据进行编码，代码操作如下。

labels = data["Embarked"].unique().tolist()
data["Embarked"] = data["Embarked"].apply(lambda x: labels.index(x))
data["Embarked"]

输出结果如下。对于多分类数据的编码，常用的操作也就是按照唯一值进行对应索引的编号。除此之外，也可以使用之前get_dummpies()方法进行多分类编码。

数据清洗完毕后，再次查看数据，输出结果如下。

核实字段的缺失值和各字段的数据类型，代码及输出结果如下，核实数据无误。

3.3 划分数据

首先进行特征数据和标签数据的划分，代码如下。

X = data.iloc[:,data.columns != "Survived"]
y = data.iloc[:,data.columns == "Survived"]
X.head()
y.head()

输出结果如下。

接着进行训练集和测试集数据划分，代码如下。

from sklearn.model_selection import train_test_split
Xtrain, Xtest, Ytrain, Ytest = train_test_split(X,y,test_size=0.25)
data.count()
Xtrain.count()
Xtest.count()

输出结果如下。测试数据量和训练数据量总和与原数据集数据量一致。

3.4 模型创建与应用

clf = DecisionTreeClassifier(random_state=25)
clf = clf.fit(Xtrain, Ytrain)
score_ = clf.score(Xtest, Ytest)
score_

输出结果如下。模型在测试数据集上的得分为0.767，在训练数据集上的得分为0.983。

3.5 模型可视化

from sklearn import tree
data.columns
tree.export_graphviz(clf,out_file='titanic_lv6.dot',feature_names=['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare',
       'Embarked']  ,label='all',rounded=True,filled=True)

输出结果如下。除了直接把对应的特征字段的名称全部放在列表中，也可以使用data.columns进行remove，去掉里面的标签字段即可，这里没有传入class_name参数，因为已经是处理好的数值字段，不用再进行设置。

用软件打开后，显示的结果如下。结果太繁杂，没有办法一下子理清头绪。

3.6 参数自动搜索

刚刚可视化的结果，把所有的可能性结果全部输出，这也是决策树模型的特点，只要是可以分，模型会把所有的分类全部分清楚。但是也就造成的决策树分支过多，因此需要指定最合适的树的分支数量。除此之外，对于批判标准，也可以进行不同类型的指定。

from sklearn.model_selection import GridSearchCV

parameters = {
    "max_depth":[*range(1,10)],
    'criterion':("gini","entropy")
}
clf = DecisionTreeClassifier(random_state=25)
GS = GridSearchCV(clf, parameters, cv=10)
GS.fit(Xtrain,Ytrain)
GS.best_score_
GS.best_params_

输出结果如下。这里的经过网格搜索的方式确定参数，要比直接采用模型默认参数进行得分要高。需要注意由于之前是随机进行数据分割的，没有指定randon_state，所以模型每次跑出的结果会有差异，但是经过网格搜索后的结果要比默认的结果要得分好一些。

关于里面的cv=10这个参数，可以把说明文档调用出来，看一下详细的介绍，这里就是表示交叉验证的折数，默认不指定就是3折交叉验证。

交叉验证整个过程就可以进行下面的图例进行解答（假定100进行切分，以下只是切分的一种情况，进行4折交叉验证）。

常用的就是十折交叉验证：

（1）英文名叫做10-fold cross-validation，用来测试算法准确性，是常用的测试方法（也就是这里的cv=10）。
（2）将数据集分成十份，轮流将其中9份作为训练数据，1份作为测试数据，进行试验。每次试验都会得出相应的正确率（或差错率）。
（3）10次的结果的正确率（或差错率）的平均值作为对算法精度的估计，一般还需要进行多次10折交叉验证（例如10次10折交叉验证），再求其均值，作为对算法准确性的估计。

那么还有一个问题：具体的划分数据的比例如何确定呢？一定是要二八开吗？这个是不确定的，需要根据数据量的大小来决定，8:2,7:3,9:1一般都是比较常见的（本案例是7.5:2.5），还有特殊的情况，比如数据量特别大的时候不需要一定要满足特定比例（假使数据有3000000条，10%就是30w了，可能由于机器的性能，这里可以指定取5w条数据进行测试就可以了）。

Original: https://blog.csdn.net/lys_828/article/details/122048988
Author: 百木从森
Title: 【机器学习】决策树案例三：利用决策树进行泰坦尼克号事故人员存活分类预测

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/663605/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【ROS】RTABMAP+ORBSLAM3在ROS环境下测试数据集

需求使用Kinectv2-RGBD摄像头测试了RTABMAP和ORBSLAM3这两个算法的视觉里程计精度 ORBSLAM3的里程计精度在视觉SLAM中应该算是相当高的算法了，RT…

人工智能 2023年6月2日
0094
视频实例分割paper（一）《Video Instance Segmentation》

【主要贡献】 1.视频实例分割第一次被正式定义和探索 2.创建了第一个大规模视频实例分割数据集 2.9k视频 40个目标类别 3.提出一种新的视频实例分割算法MaskTrack R…

人工智能 2023年5月26日
0094
双边滤波（Bilateral Filtering）

双边滤波（Bilateral Filtering） 1、基本思路双边滤波（Bilateral Filtering）的基本思路是同时考虑像素点的空域信息和值域信息。即先根据像素值对…

人工智能 2023年6月17日
0087
你以为的推荐系统，其实只是推荐模型

作者｜Even Oldridge、Karl Byleen-Higley 翻译｜胡燕君构建推荐系统最大的入门难点之一是理解推荐系统如何在实际中应用。目前，关于推荐系统的网络资料大…

人工智能 2023年7月13日
0073
高维数据分析中特征选择方法及分类

在面向高位数据分析问题时，特征选择的重要性尤为重要。特征选择方法可以被分为四类：过滤法（filter）、包装法（wrapper）、嵌入式（embedded）、混合模式（hybrid…

人工智能 2023年7月1日
0086
梯度下降应用举例

梯度下降应用举例一、梯度下降法求解LASSO问题LASSO问题的原始形式为：min ⁡ f ( x ) = 1 2 ∥ A x − b ∥ 2 + μ ∥ x ∥ 1 (1) \…

人工智能 2023年6月22日
0079
SCS【7】单细胞转录组之轨迹分析 (Monocle 3) 聚类、分类和计数细胞

点击关注，桓峰基因桓峰基因公众号推出单细胞系列教程，有需要生信分析的老师可以联系我们！首选看下转录分析教程整理如下： Topic 6. 克隆进化之 Canopy Topic 7….

人工智能 2023年6月2日
0070
【Pytorch】基于卷积神经网络实现的面部表情识别

作者：何翔学院：计算机学院学号：04191315班级：软件1903转载请标注本文链接： https://blog.csdn.net/HXBest/article/details/1…

人工智能 2023年7月20日
0060
注意力机制：pytorch实现

注意力机制：pytorch实现查询（queries），键（keys）和值（Values）查询、键和值是注意力机制的基本三个关键词，注意力评分函数则是注意力机制建立的主要方式，注…

人工智能 2023年7月21日
0056
python打包技巧：彻底解决pyinstaller打包exe文件太大的问题

之前也写过很多的小工具，粉丝朋友们应该都知道在本公众号内回复任意关键字即可获取以往的工具源码或是exe可执行应用。【阅读全文】因为以往发过的小工具基本都是几十MB大小的exe应…

人工智能 2023年7月6日
00133
彻底搞懂float16与float32的计算方式

1 float 16与float 32 1.1 float16 1.1.1 计算方式 float 16又称半精度，用16个比特也就是2个字节表示一个数。如下图所示，其中1位符号…

人工智能 2023年6月25日
00104
【教程】标注工具Labelimg的安装与使用

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月10日
0052
Python实现九九乘法表

九九乘法表有四种展现形式 1.左下三角形：方法1：for…for循环实现 for i in range(1, 10): for j in range(1, i + 1…

人工智能 2023年7月5日
0092
回归模型第5篇：knn回归

基于最邻近算法的分类，本质上是对离散的数据标签进行预测，实际上，最邻近算法也可以用于对连续的数据标签进行预测，这种方法叫做基于最邻近数据的回归，预测的值(即数据的标签)是连续值，通…

人工智能 2023年6月18日
0078
【二 HLS】HLS接口的简单介绍

一、HLS简单介绍 vivado HLS是xilinx推行的高级综合工具，可以使用C/C++以及system C来实现xilinx的可编程器件的编程，不用手写verilog语言，官…

人工智能 2023年7月19日
0069
pandas科学计数法问题解决 + DataFrame转换成一维问题解决

原因 : 字段超出范围，一般都是超出 int 范围解决 : DataFrame类型后面加上 astype() 里面再加上要更改的类型例子 : 有一个二氧化碳温室气体排放的数据，…

人工智能 2023年7月8日
0046

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31