泰坦尼克号乘客生存情况预测分析之第三部分建模及模型评价

2023年7月17日下午3:36 • 人工智能 • 阅读 60

第三部分建模及模型评价

前面两部分我们已经对泰坦尼克号的数据进行了一些处理，感兴趣的小伙伴可以看看前面两篇文章，本篇主要介绍预测分析的第三部分，也就是建模和模型评价。数据处理完了，接下来就来看看在默认参数的情况下，哪个模型预测准确率最高呢？废话不多说，直接开撸代码。

【注意】关于数据集下载以及项目链接可以在公众号【 数分小白龙】私信获取，或者在和鲸社区找到【经典案例之泰坦尼克号乘客生存情况预测分析】即可！！或者直接 后台私信我，我看到后会发百度网盘链接哈！！

1. 数据分离

将经过特征工程处理后的数据分开，分成最初的训练数据和测试数据；

1.1 读取数据

import&#xA0;pandas&#xA0;as&#xA0;pd
train&#xA0;=&#xA0;pd.read_csv('/home/mw/input/wlong9812/train.csv')
test&#xA0;=&#xA0;pd.read_csv('/home/mw/input/wlong9812/test.csv')
truth&#xA0;=&#xA0;pd.read_csv('/home/mw/input/wlong9812/gender_submission.csv')
train_and_test&#xA0;=&#xA0;pd.read_csv('/home/mw/input/wlong9812/&#x7ECF;&#x8FC7;&#x7279;&#x5F81;&#x5DE5;&#x7A0B;&#x5904;&#x7406;&#x540E;&#x7684;&#x6570;&#x636E;.csv')
PassengerId&#xA0;=&#xA0;test['PassengerId']

1.2 划分训练集和测试集

index&#xA0;=&#xA0;PassengerId[0]&#xA0;-&#xA0;1
train_and_test_drop&#xA0;=&#xA0;train_and_test.drop(['PassengerId',&#xA0;'Name',&#xA0;'Ticket'],&#xA0;axis=1)
train_data&#xA0;=&#xA0;train_and_test_drop[:index]
test_data&#xA0;=&#xA0;train_and_test_drop[index:]

train_X&#xA0;=&#xA0;train_data.drop(['Survived'],&#xA0;axis=1)
train_y&#xA0;=&#xA0;train_data['Survived']
test_X&#xA0;=&#xA0;test_data.drop(['Survived'],&#xA0;axis=1)
test_y&#xA0;=&#xA0;truth['Survived']
train_X.shape,&#xA0;train_y.shape,&#xA0;test_X.shape

注：以下模型建模时，均使用默认参数，不涉及过多参数调优、交叉验证、复杂模型等，主要旨在比较再默认参数下不同模型的差异；

2. 建模及模型评价

本小章节主要实现建模及模型评价部分，为了简便起见，直接调用sklearn现成的函数，所有模型均采用默认参数，不涉及过多参数调优、算法优化等复杂过程，由于能力有限，这里只列举了一些常见的基础模型和集成模型，至于其他模型，读者可自行查阅资料补充；关于算法优化等稍微复杂的建模，期待后续的更新，正在快马加鞭准备中．．．ヾ(≧▽≦*)o

from&#xA0;sklearn.linear_model&#xA0;import&#xA0;LogisticRegression&#xA0;#&#xA0;&#x903B;&#x8F91;&#x56DE;&#x5F52;
from&#xA0;sklearn.ensemble&#xA0;import&#xA0;RandomForestClassifier&#xA0;#&#xA0;&#x968F;&#x673A;&#x68EE;&#x6797;
from&#xA0;sklearn.svm&#xA0;import&#xA0;SVC&#xA0;#&#xA0;&#x652F;&#x6301;&#x5411;&#x91CF;&#x673A;
from&#xA0;sklearn.neighbors&#xA0;import&#xA0;KNeighborsClassifier&#xA0;#&#xA0;K&#x6700;&#x8FD1;&#x90BB;
from&#xA0;sklearn.tree&#xA0;import&#xA0;DecisionTreeClassifier&#xA0;#&#xA0;&#x51B3;&#x7B56;&#x6811;
from&#xA0;sklearn.ensemble&#xA0;import&#xA0;GradientBoostingClassifier&#xA0;#&#xA0;&#x68AF;&#x5EA6;&#x63D0;&#x5347;&#x6811;GBDT
import&#xA0;lightgbm&#xA0;as&#xA0;lgb&#xA0;#&#xA0;LightGBM&#x7B97;&#x6CD5;
from&#xA0;xgboost.sklearn&#xA0;import&#xA0;XGBClassifier&#xA0;#&#xA0;XGBoost&#x7B97;&#x6CD5;
from&#xA0;sklearn.ensemble&#xA0;import&#xA0;ExtraTreesClassifier&#xA0;#&#xA0;&#x6781;&#x7AEF;&#x968F;&#x673A;&#x6811;
from&#xA0;sklearn.ensemble&#xA0;import&#xA0;AdaBoostClassifier&#xA0;#&#xA0;
from&#xA0;sklearn.ensemble&#xA0;import&#xA0;BaggingClassifier

from&#xA0;sklearn.metrics&#xA0;import&#xA0;roc_auc_score&#xA0;#&#xA0;&#x51C6;&#x786E;&#x7387;&#x8BC4;&#x4EF7;&#x6A21;&#x578B;&#x597D;&#x574F;
import&#xA0;warnings
warnings.filterwarnings("ignore")

2.1 逻辑回归

lr&#xA0;=&#xA0;LogisticRegression()&#xA0;#&#xA0;logit&#xA0;&#x903B;&#x8F91;&#x56DE;&#x5F52;
lr.fit(train_X,&#xA0;train_y)
pred_lr&#xA0;=&#xA0;lr.predict(test_X)&#xA0;
accuracy_lr&#xA0;=&#xA0;roc_auc_score(test_y,&#xA0;pred_lr)
print("&#x903B;&#x8F91;&#x56DE;&#x5F52;&#x7684;&#x9884;&#x6D4B;&#x7ED3;&#x679C;&#xFF1A;",&#xA0;accuracy_lr)

2.2 随机森林-RF

rfc&#xA0;=&#xA0;RandomForestClassifier()
rfc.fit(train_X,&#xA0;train_y)
pred_rfc&#xA0;=&#xA0;rfc.predict(test_X)
accuracy_rfc&#xA0;=&#xA0;roc_auc_score(test_y,&#xA0;pred_rfc)&#xA0;
print("&#x968F;&#x673A;&#x68EE;&#x6797;&#x7684;&#x9884;&#x6D4B;&#x7ED3;&#x679C;&#xFF1A;",&#xA0;accuracy_rfc)

2.3 支持向量机-SVM

svm&#xA0;=&#xA0;SVC()
svm.fit(train_X,train_y)
pred_svm&#xA0;=&#xA0;svm.predict(test_X)
accuracy_svm&#xA0;=&#xA0;roc_auc_score(test_y,&#xA0;pred_svm)&#xA0;
print("&#x652F;&#x6301;&#x5411;&#x91CF;&#x673A;&#x7684;&#x9884;&#x6D4B;&#x7ED3;&#x679C;&#xFF1A;",&#xA0;accuracy_svm)

2.4 K最近邻-KNN

knn&#xA0;=&#xA0;KNeighborsClassifier()
knn.fit(train_X,train_y)
pred_knn&#xA0;=&#xA0;knn.predict(test_X)
accuracy_knn&#xA0;=&#xA0;roc_auc_score(test_y,&#xA0;pred_knn)&#xA0;
print("K&#x6700;&#x8FD1;&#x90BB;&#x5206;&#x7C7B;&#x5668;&#x7684;&#x9884;&#x6D4B;&#x7ED3;&#x679C;&#xFF1A;",&#xA0;accuracy_knn)

2.5 决策树

dtree&#xA0;=&#xA0;DecisionTreeClassifier()
dtree.fit(train_X,train_y)
pred_dtree&#xA0;=&#xA0;dtree.predict(test_X)
accuracy_dtree&#xA0;=&#xA0;roc_auc_score(test_y,&#xA0;pred_dtree)&#xA0;
print("&#x51B3;&#x7B56;&#x6811;&#x6A21;&#x578B;&#x7684;&#x9884;&#x6D4B;&#x7ED3;&#x679C;&#xFF1A;",&#xA0;accuracy_dtree)

2.6 梯度提升决策树-GBDT

gbdt&#xA0;=&#xA0;GradientBoostingClassifier()
gbdt.fit(train_X,&#xA0;train_y)
pred_gbdt&#xA0;=&#xA0;gbdt.predict(test_X)
accuracy_gbdt&#xA0;=&#xA0;roc_auc_score(test_y,&#xA0;pred_gbdt)&#xA0;
print("GBDT&#x6A21;&#x578B;&#x7684;&#x9884;&#x6D4B;&#x7ED3;&#x679C;&#xFF1A;",&#xA0;accuracy_gbdt)

2.7 LightGBM算法

lgb_train&#xA0;=&#xA0;lgb.Dataset(train_X,&#xA0;train_y)
lgb_eval&#xA0;=&#xA0;lgb.Dataset(test_X,&#xA0;test_y,&#xA0;reference&#xA0;=&#xA0;lgb_train)

gbm&#xA0;=&#xA0;lgb.train(params&#xA0;=&#xA0;{},&#xA0;train_set&#xA0;=&#xA0;lgb_train,&#xA0;valid_sets&#xA0;=&#xA0;lgb_eval)
pred_lgb&#xA0;=&#xA0;gbm.predict(test_X,&#xA0;num_iteration&#xA0;=&#xA0;gbm.best_iteration)
accuracy_lgb&#xA0;=&#xA0;roc_auc_score(test_y,&#xA0;pred_lgb)&#xA0;
print("LightGBM&#x6A21;&#x578B;&#x7684;&#x9884;&#x6D4B;&#x7ED3;&#x679C;&#xFF1A;",&#xA0;accuracy_lgb)

2.8 XGBoost算法

xgbc&#xA0;=&#xA0;XGBClassifier()
xgbc.fit(train_X,&#xA0;train_y)
pred_xgbc&#xA0;=&#xA0;xgbc.predict(test_X)
accuracy_xgbc&#xA0;=&#xA0;roc_auc_score(test_y,&#xA0;pred_xgbc)&#xA0;
print("XGBoost&#x6A21;&#x578B;&#x7684;&#x9884;&#x6D4B;&#x7ED3;&#x679C;&#xFF1A;",&#xA0;accuracy_xgbc)

2.9 极端随机树

etree&#xA0;=&#xA0;ExtraTreesClassifier()
etree.fit(train_X,&#xA0;train_y)
pred_etree&#xA0;=&#xA0;etree.predict(test_X)
accuracy_etree&#xA0;=&#xA0;roc_auc_score(test_y,&#xA0;pred_etree)
print("&#x6781;&#x7AEF;&#x968F;&#x673A;&#x6811;&#x6A21;&#x578B;&#x7684;&#x9884;&#x6D4B;&#x7ED3;&#x679C;&#xFF1A;",&#xA0;accuracy_etree)

2.10 AdaBoost算法

abc&#xA0;=&#xA0;AdaBoostClassifier()
abc.fit(train_X,&#xA0;train_y)
pred_abc&#xA0;=&#xA0;abc.predict(test_X)
accuracy_abc&#xA0;=&#xA0;roc_auc_score(test_y,&#xA0;pred_abc)&#xA0;
print("AdaBoost&#x6A21;&#x578B;&#x7684;&#x9884;&#x6D4B;&#x7ED3;&#x679C;&#xFF1A;",&#xA0;accuracy_abc)

2.11 基于Bagging的K最近邻

bag_knn&#xA0;=&#xA0;BaggingClassifier(KNeighborsClassifier())
bag_knn.fit(train_X,&#xA0;train_y)
pred_bag_knn&#xA0;=&#xA0;bag_knn.predict(test_X)
accuracy_bag_knn&#xA0;=&#xA0;roc_auc_score(test_y,&#xA0;pred_bag_knn)
print("&#x57FA;&#x4E8E;Bagging&#x7684;K&#x7D27;&#x90BB;&#x6A21;&#x578B;&#x7684;&#x9884;&#x6D4B;&#x7ED3;&#x679C;&#xFF1A;",&#xA0;accuracy_bag_knn)

2.12 基于Bagging的决策树

bag_dt&#xA0;=&#xA0;BaggingClassifier(DecisionTreeClassifier())
bag_dt.fit(train_X,&#xA0;train_y)
pred_bag_dt&#xA0;=&#xA0;bag_dt.predict(test_X)
accuracy_bag_dt&#xA0;=&#xA0;roc_auc_score(test_y,&#xA0;pred_bag_dt)
print("&#x57FA;&#x4E8E;Bagging&#x7684;&#x51B3;&#x7B56;&#x6811;&#x6A21;&#x578B;&#x7684;&#x9884;&#x6D4B;&#x7ED3;&#x679C;&#xFF1A;",&#xA0;accuracy_bag_dt)

3. 小结

import&#xA0;seaborn&#xA0;as&#xA0;sns
import&#xA0;matplotlib.pyplot&#xA0;as&#xA0;plt

sns.set(rc={'figure.figsize':(15,6)})&#xA0;#&#xA0;&#x8BBE;&#x7F6E;&#x753B;&#x5E03;&#x5927;&#x5C0F;
accuracys&#xA0;=&#xA0;[accuracy_lr,&#xA0;accuracy_rfc,&#xA0;accuracy_svm,&#xA0;accuracy_knn,&#xA0;accuracy_dtree,&#xA0;accuracy_gbdt,&#xA0;accuracy_lgb,accuracy_xgbc,&#xA0;accuracy_etree,&#xA0;accuracy_abc,&#xA0;accuracy_bag_knn,&#xA0;accuracy_bag_dt,&#xA0;]
models&#xA0;=&#xA0;['Logistic',&#xA0;'RF',&#xA0;'SVM',&#xA0;'KNN',&#xA0;'Dtree',&#xA0;'GBDT',&#xA0;'LightGBM',&#xA0;'XGBoost',&#xA0;'Etree',&#xA0;'Adaboost',&#xA0;'Bagging-KNN',&#xA0;'Bagging-Dtree']
bar&#xA0;=&#xA0;sns.barplot(x=models,&#xA0;y=accuracys)

#&#xA0;&#x663E;&#x793A;&#x6570;&#x503C;&#x6807;&#x7B7E;
for&#xA0;x,&#xA0;y&#xA0;in&#xA0;enumerate(accuracys):
&#xA0;&#xA0;&#xA0;&#xA0;plt.text(x,&#xA0;y,&#xA0;'%s'%&#xA0;round(y,3),&#xA0;ha='center')

plt.xlabel("Model")
plt.ylabel("Accuracy")
plt.show()

根据上述条形图可以看出，在 全部模型默认参数的情况下， 逻辑回归的预测准确率最高，达到了0.911，其次是 LightGBM模型，也在0.9以上，达到80%准确率以上的模型有RF、GBDT、XGBoost、ETree、Adaboost以及基于Bagging的决策树，其他模型的预测准确率则较低；

由于本文所涉及到模型均没有进行算法优化，所以只能简单看下 在默认参数情况下模型之间预测准确率的比较，但上述结果并不能代表每个模型预测准确率的上限，比如有的模型在默认参数时准确率很低，但通过 调参、算法优化可能就会变得很高。本小章节主要面向 初学者，来对算法预测有个基本了解，能学会简单运用，至于后续的 算法优化部分，期待后续的更新哦！

Original: https://blog.csdn.net/qq_38230663/article/details/122141655
Author: 数分小白龙
Title: 泰坦尼克号乘客生存情况预测分析之第三部分建模及模型评价

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/698952/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Qt中QThread安全退出方式总结

QThread的使用方式在Qt中，使用QThread实现子线程的方式有两种：继承QThread，重写run函数继承QObject，使用moveToThread方式移动进QThre…

人工智能 2023年6月27日
0071
用python玩转办公软件（pandas数据分析）入门

使用pandas库进行数据分析教学文章目录使用pandas库进行数据分析教学 * 1、pandas介绍 2、csv文件介绍 3、pandas常用操作csv – （1…

人工智能 2023年7月18日
0059
OpenCV基础操作_视频读取

1.1 cv2. VideoCapture () 在OpenCV中，可以使用 VideoCapture来读取视频文件，或是摄像头数据。 Python: cv2. VideoCapt…

人工智能 2023年7月19日
0047
自编程实现朴素贝叶斯算法，Navie Bayes程序（python），并对鸢尾花数据进行分类。

自编程实现朴素贝叶斯算法，Navie Bayes程序（python），并对鸢尾花数据进行分类。目录自编程实现朴素贝叶斯算法，Navie Bayes程序（python），并对鸢尾…

人工智能 2023年7月2日
0051
python—数据分析(一)

pandas模块： Pandas 的数据结构：Pandas 主要有Series（一维数组），DataFrame（二维数组），Panel（三维数组），Panel4D（四维数组），Pa…

人工智能 2023年7月7日
0067
8种经典的统计学悖论&18种经典的哲学悖论

目录一.统计学悖论 1.辛普森悖论 Simpson’s Pradox 2.基本比率谬误 Base Rate Fallacy 3.伯克森悖论 Berkson&#8217…

人工智能 2023年6月16日
0068
基于微分方程的图像去噪处理(改进型P-M法)附MATLAB代码

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月25日
0061
缺失数据(missing data)的处理（理论）

expectation maximization 期望最大化maximum likelihood 最大似然case substitutionprior knowledge 先验知识…

人工智能 2023年6月16日
00103
【个人笔记】00 OpenCV框架介绍+环境搭建

个人资料，仅供学习使用学习课程：OpenCV4 图像处理与视频分析实战教程——贾志刚 00 OpenCV框架介绍+环境搭建 opencv知识点：开源社区 –openc…

人工智能 2023年6月22日
0097
从零开始的ASR（语音识别）之旅（附项目案例程序与环境配置过程）

从零开始的ASR（语音识别）之旅文章目录从零开始的ASR（语音识别）之旅 * 一、语音识别简介二、将文字内容转换为语音实际代码演示 – 1、使用pyttsx3实现…

人工智能 2023年5月23日
00132
基于 pytorch 实现语音识别有代码有数据

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月25日
0067
matplotlib.pyplot 柱形图添加条形颜色及宽度、设置标题文字颜色及大小

matplotlib.pyplot 柱形图添加条形颜色及宽度、设置标题文字颜色及大小 1. 第一个柱形图 2. 垂直柱形图添加中文标题 3. 水平柱形图添加中文标题 4. 设置条形…

人工智能 2023年6月15日
0079
数字化风控的八个应用场景（下）

《银行家杂志》在数字化观察系列报道中，详细解读有关Ultipa Graph实时图数据库如何实现在数字化风控中的八个应用场景：系列报道中涉及以下8个场景： 1.个人业务中的反欺诈2…

人工智能 2023年6月10日
0079
初识商业智能

一、什么是商业智能商业智能（Business Intelligence，简称：BI），又称商业智慧或商务智能，指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数…

人工智能 2023年7月17日
0065
浅谈深度学习

1 绪论机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等学科。专门研究计算机如何模拟或者实现人类的学习行为，来获取新的知识或技能，并重组已有的知…

人工智能 2023年7月14日
0070
TFLite JNI 接口实现

JNI is a C interface, which is not object-oriented. It does not really pass the objects. 要…

人工智能 2023年5月25日
0098

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31