泰坦尼克号沉船数据分析与可视化、数据建模与分类预测【Python | 机器学习-Sklearn】

2023年6月15日上午7:04 • 人工智能 • 阅读 66

泰坦尼克号沉船数据之美——起于悲剧，止于浪漫

前言：泰坦尼克号，不只是卡梅隆导演的经典电影，它是一个真实存在的悲剧，也是电影的故事背景与题材。作为一个IT人，分析事实还得看数据，了解到泰坦尼克号沉船幸存者多为老人、小孩和妇女，而牺牲者多为年轻的男士，这样的历史数据，让我感受到了人性之美与善，七夕，我们一起来分析一下这一悲壮与浪漫的数据吧～

本文内容包含了泰坦尼克号沉船 数据分析与可视化、数据建模与分类预测。

现有 titanic.csv 数据集。该数据集记录了泰坦尼克轮船上的乘客信息。使用 scikit-learn 对该数据集进行分析，探究生存率和哪些因素有关(性别,年龄,是否有伴侣,票价,舱位等级,包间,出发地点)。

关键步骤：

1、把数据随机分成训练集和测试集两类。

2、构造特征向量。（注意：如果所选特征是非数值特征，需要将其转成数值。）

3、分别训练判定树、KNN、SVC和朴素贝叶斯四种模型，对测试数据进行预测。

4、使用混淆矩阵对分类器的分类结果进行评估，比较。

5** 绘制ROC曲线。

获取资源：

百度网盘：https://pan.baidu.com/s/1qsY70lqwmgWnMn-A81NOaw
提取码： wsdc

演示环境：Python 3、Jupyter notebook

涉及技术：scikit-learn 分类 + seaborn + matplotlib + pandas +numpy

操作步骤：

导入数据集预处理、特征工程、模型训练和模型对比所需的库

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from pylab import *
import seaborn as sns

from sklearn import model_selection, preprocessing, naive_bayes, metrics, svm
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn import ensemble, tree

忽略警告提示
import warnings
warnings.filterwarnings('ignore')

1. 数据预处理

1.1 导入数据

data = pd.read_csv('titanic.csv')
print(data.shape)
data.sample(5)

输出：(891, 15)

泰坦尼克号沉船数据分析与可视化、数据建模与分类预测【Python | 机器学习-Sklearn】

1.2 处理缺失值

data.isnull().sum()

输出：

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

缺失值分析：

age、deck、embarked、embark_town 存在缺失值，需要处理。（1）age 对生存率有影响，不能忽略，用平均值填充；（2）总共有 891 条信息，deck 有 688 个缺失值，因此剔除 deck 这个分类标签；（3）embarked、embark_town 缺失值较少，都为 2 个，随机取其中一个数据填充。

data['age']=data['age'].fillna(data['age'].median())
del data['deck']
data['embarked']=data['embarked'].fillna('S')
data['embark_town']=data['embark_town'].fillna('Southampton')

data.isnull().sum()

输出：

survived       0
pclass         0
sex            0
age            0
sibsp          0
parch          0
fare           0
embarked       0
class          0
who            0
adult_male     0
embark_town    0
alive          0
alone          0
dtype: int64

1.3 观察数据

1.3.1 全体成员的生存情况

survived = data['survived'].value_counts().to_frame().reset_index().rename(columns={'index': 'label', 'survived': 'counts'})

#计算存活率
survived_rate = round(342/891, 2)
survived['rate'] = [1-survived_rate, survived_rate]
survived

输出：

数据描述：存活的有 342 人，遇难的有 549 人。

mpl.rcParams['axes.unicode_minus'] = False     #处理无法显示中文的问题
mpl.rcParams['font.sans-serif'] = ['SimHei']

fig=plt.figure(1,figsize=(6,6))
ax1=fig.add_subplot(1,1,1)
label=['遇难','存活']
color=['#C23531','#F5DEB3']
explode=0.05,0.05  #扇区间隔

patches,l_text,p_text = ax1.pie(survived.rate,labels=label,colors=color,startangle=90,autopct='%1.0f%%',explode=explode,shadow=True)
for t in l_text:
    t.set_size(20)
for t in p_text:
    t.set_size(20)
ax1.set_title('全体成员的生存情况', fontsize=20)

输出：

1.3.2 乘客的各属性分布情况

fig = plt.figure(figsize=(15,10))
fig.set(alpha=0.3)  # 设定图表颜色alpha参数(透明度)

plt.subplot2grid((2,3),(0,0))
data.survived.value_counts().plot(kind='bar')
plt.title("获救情况 (1为获救)")
plt.ylabel("人数")

plt.subplot2grid((2,3),(0,1))
data.pclass.value_counts().plot(kind="bar")
plt.ylabel("人数")
plt.title("乘客等级分布")

plt.subplot2grid((2,3),(0,2))
plt.scatter(data.survived, data.age)
plt.ylabel("年龄")
plt.grid(b=True, which='major', axis='y')
plt.title("按年龄看获救分布 (1为获救)")

plt.subplot2grid((2,3),(1,0), colspan=2)
data.age[data.pclass == 1].plot(kind='kde')
data.age[data.pclass == 2].plot(kind='kde')
data.age[data.pclass == 3].plot(kind='kde')
plt.xlabel("年龄")
plt.ylabel("密度")
plt.title("各等级的乘客年龄分布")
plt.legend(('头等舱', '2等舱','3等舱'),loc='best')

plt.subplot2grid((2,3),(1,2))
data.embarked.value_counts().plot(kind='bar')
plt.title("各登船口岸上船人数")
plt.ylabel("人数")
plt.show()

输出：

1.3.3 特征之间的相关性

sns.heatmap(data.corr(),annot=True,cmap='RdYlGn',linewidths=0.2)
fig=plt.gcf()
fig.set_size_inches(10,8)
plt.show()

输出：

1.3.4 连续值特征（年龄、船票费用）对生存结果的影响

fig = plt.figure(figsize=(15,4))

plt.subplot2grid((2,2),(0,0))
data.age[data.survived == 0].plot(kind='box', vert=False, patch_artist=True, notch = True, color='#C23531', fontsize=15)
plt.grid(linestyle="--", alpha=0.8)
plt.title("遇难", fontsize=15)

plt.subplot2grid((2,2),(0,1))
data.fare[data.survived == 0].plot(kind='box', vert=False, patch_artist=True, notch = True, color='#C23531', fontsize=15)
plt.grid(linestyle="--", alpha=0.8)
plt.title("遇难", fontsize=15)

plt.subplot2grid((2,2),(1,0))
data.age[data.survived == 1].plot(kind='box', vert=False, patch_artist=True, notch = True, color='#F5DEB3', fontsize=15)
plt.grid(linestyle="--", alpha=0.8)
plt.xlabel("存活", fontsize=15)

plt.subplot2grid((2,2),(1,1))
data.fare[data.survived == 1].plot(kind='box', vert=False, patch_artist=True, notch = True, color='#F5DEB3', fontsize=15)
plt.grid(linestyle="--", alpha=0.8)
plt.xlabel("存活", fontsize=15)

1.3.5 乘客等级、性别对生存结果的影响（从年龄的分布看）

mpl.rcParams.update({'font.size': 14})
fig,axes=plt.subplots(2,2,figsize=(18, 12))
sns.violinplot("pclass","age", hue="survived", data=data, palette='autumn',ax=axes[0][0]).set_title('Pclass and Age vs Survived')
sns.swarmplot(x="pclass", y="age",hue="survived", data=data,palette='autumn',ax=axes[1][0]).legend(loc='upper right').set_title('survived')
sns.violinplot("sex","age", hue="survived", data=data, palette='winter', ax=axes[0][1]).set_title('Sex and Age vs Survived')
sns.swarmplot(x="sex", y="age",hue="survived", data=data,palette='winter',ax=axes[1][1]).legend(loc='upper right').set_title('survived')

输出：

1.3.6 乘客等级、性别对生存结果的影响（从船票费用的分布看）

fig,axes=plt.subplots(2,2,figsize=(18, 12))
sns.violinplot("pclass","fare", hue="survived", data=data, palette='autumn',ax=axes[0][0]).set_title('Pclass and Age vs Survived')
sns.stripplot("pclass", "fare",hue="survived", data=data,palette='autumn',ax=axes[1][0]).legend(loc='upper right').set_title('survived')
sns.violinplot("sex","fare", hue="survived", data=data, palette='winter', ax=axes[0][1]).set_title('Sex and Age vs Survived')
sns.stripplot("sex", "fare",hue="survived", data=data,palette='winter',ax=axes[1][1]).legend(loc='upper right').set_title('survived')

输出：

2. 特征工程

2.1 Feature Preprocessing——标签编码预处理

在所有标签中，survived 是分类标签，其余的 14 个变量是分类特征。由于特征和标签的值存在非结构化类型，因此需要进行特征工程处理，即进行字符串编码处理。

data.info()

输出：

`
RangeIndex: 891 entries, 0 to 890
Data columns (total 14 columns):
# Column Non-Null Count Dtype

Original: https://blog.csdn.net/weixin_47068543/article/details/126151816
Author: 破风_1874
Title: 泰坦尼克号沉船数据分析与可视化、数据建模与分类预测【Python | 机器学习-Sklearn】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/614050/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

一天学会应用GAN扩充数据集（pytorch）

文章目录前言一、GAN基本原理 * 1.GAN结构图 2.GAN目标函数二、实例（完整代码：https://github.com/Programmerfei/Pytorch-…

人工智能 2023年7月20日
0045
unet模型及代码解析

什么是unet 一个U型网络结构，2015年在图像分割领域大放异彩，unet被大量应用在分割领域。它是在FCN的基础上构建，它的U型结构解决了FCN无法上下文的信息和位置信息的弊端…

人工智能 2023年7月26日
00192
pythontkinter导入文本文件_如何将文件导入Tkinter并运行脚本？

我有一个python脚本，我想把它添加到用户界面中，以便其他完全没有编程知识的人更好地使用它。python脚本从用户输入函数导入一个excel文件，进行一些格式化，然后返回一个带有…

人工智能 2023年7月8日
0058
Python数据分析数据的导入和导出（Excel、CSV、TXT）建议收藏

文章目录数据的导入 * 语法及参数 – 导入excel数据导入csv数据导入txt 格式数据导出为excel格式数据导出为txt、csv数据注意以鸢尾花i…

人工智能 2023年7月8日
0066
RepSum: Unsupervised Dialogue Summarization based on Replacement Strategy论文笔记

RepSum: Unsupervised Dialogue Summarization based on Replacement Strategy 基于替换策略的无监督对话摘要 S…

人工智能 2023年5月31日
0052
java之《浅入了解异常》适合预习，复习

🎇🎇🎇作者：@小鱼不会骑车🎆🎆🎆专栏：《java练级之旅》🎓🎓🎓个人简介：一名专科大一在读的小比特，努力学习编程是我唯一的出路😎😎😎 认识异常 🍂简单认识异常 🍂异常的体系结构 🍂…

人工智能 2023年7月29日
0053
TensorFlow学习笔记——TensorFlow入门

引言 TensorFlow 版本1.15 pip3 install tensorflow==1.15.0 这是《TensorFlow实战Google深度学习框架(第2版)》的学习笔…

人工智能 2023年5月25日
0064
Informer代码详解

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting 注：大家觉得博客好…

人工智能 2023年6月16日
0058
8方向连通域统计——two-pass算法（用于图像斑块数统计）

8方向连通域统计——two-pass算法（用于图像斑块数统计） * – 问题描述 – 连通域标记问题 – Two-Pass算法 – …

人工智能 2023年6月17日
00103
安装tensorflow/keras

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月25日
0083
决策树算法

决策树算法是一种通用的机器学习算法，既可以执行分类也可以执行回归任务，同时也是一种可以拟合复杂数据集的功能强大的算法；一、可视化决策树模型通过以下代码，我们使用iris数据集构…

人工智能 2023年6月16日
0066
【课程笔记】中科大信息论（三）

[\begin{aligned} H(X, Y) &=\mathrm{E}\left[\log \frac{1}{p(X, Y)}\right] \ &=\math…

人工智能 2023年6月4日
0075
相机内参标定，相机和激光雷达联合标定

相机内参标定，相机和激光雷达联合标定一、相机标定原理 * 1.1 成像过程 1.2 标定详解二、相机和激光雷达联合标定 * 2.1 标定方法汇总 2.2 Autoware的安装…

人工智能 2023年7月26日
0053
单目相机标定结果的评估——重投影误差与畸变校正

目录 1.重投影误差的概念 2.基于摄像机模型的重投影误差 3.畸变校正算法 3.1利用畸变模型正向求解 3.2利用畸变模型反向求解 1.重投影误差的概念在相机标定后，我们可以通…

人工智能 2023年5月26日
0074
Python实现GBDT(梯度提升树)分类模型(GradientBoostingClassifier算法)并应用网格搜索算法寻找最优参数项目实战

说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。 1.项目背景 GBDT是Gradient Boosti…

人工智能 2023年7月3日
0059
【知识图谱】关系抽取与总结展望

关系抽取实验介绍实验原理 * 关系抽取任务数据预处理实验步骤 * 数据处理构建网络模型模型预测总结展望实际应用 * 结构化数据知识推理应用领域参考文献 All…

人工智能 2023年6月1日
0086

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

泰坦尼克号沉船数据分析与可视化、数据建模与分类预测【Python | 机器学习-Sklearn】

获取资源：

操作步骤：

大家都在看