多算法不调包实现Titanic生还者分类预测

2023年7月2日下午2:31 • 人工智能 • 阅读 77

博主本科的机器学习课程作业，要求不使用机器学习包实现分类算法

数据集

数据集概况

本次选择的数据集是Titanic数据集，来自于Kaggle，可以在kaggle比赛的官网上下载到：Titanic – Machine Learning from Disaster | Kaggle

下载到的数据集解压后包括两个csv文件，train.csv和test.csv。train.csv是训练集，共12列，依次代表乘客的编号passengerID，船舱等级Pclass，姓名name，性别sex，年龄age，在船上有几个兄弟/配偶sibsp，在船上有几个双亲/孩子parch，船票号tickets，费用fare，船舱号cabin，登船地点embarked，是否存活survived。训练集test.csv相比较train,csv少了幸存这一项，查阅另一款数据集后找到了测试集的真实标签，将测试集的标签列补全，方便我们后面进行预测效果的比较。

关于数据集里的属性还需要作以下的说明：

pclass：社会经济地位代号（SES）1st = 上，2nd = 中，3rd = 下

age：如果年龄小于1，则年龄为分数。

sibsp：数据集以这种方式定义了家庭关系

embarked的字母表示的是登船的地点，以城市的首字母代替。

部分数据有缺失，全部以空的形式表示。

; 特征工程

整个数据预处理阶段需要将合适的属性保留，并将里面的非数值化的数据用数据去表示。将tarin.csv和test.csv用dataframe导入。
先看看数据集的描述：

首先先设置乘客的编号作为索引。
train_data = train_data.set_index(“PassengerId”)
test_data = test_data.set_index(“PassengerId”)
接下来要对缺失值做处理：
先输出一下看看那些属性是有缺失的
多算法不调包实现Titanic生还者分类预测

发现年龄Age船舱 Cabin Embarked是有缺失的，船舱属性缺失太严重，直接drop，age 可以用平均值代替一下，name ticket不好数值化，drop掉
考虑到年龄其实是和船舱等级有很大的关系的，一般来说年龄越大的话，资本累积应该越高，社会地位应该也越高，更有能力负担起高等级的船舱。如果将所有的人的平均年龄作为缺失值的补充显然是不科学的，因此看看年龄和船舱等级这两个属性的关联程度：
多算法不调包实现Titanic生还者分类预测

可以明显地看到船舱等级越高的话，年龄也越大，证明之前的猜测是正确的，因此我们应该将不同船舱的人分别计算平均年龄，然后分别设置给对应船舱年龄缺失的人。
还有要注意的是，性别属性，登船地点属性都是字符类型的，对于我们数据来说是不能够训练的，因此我们将其数值化，总的来说数据处理如下：

Embarked属性不好数值化，因此这里将不同的类别分别拿出来作为二值化的属性。

数据处理大概差不多了，效果大概是这样的：

数据处理的最后一步，划分训练集和测试集，因为数据集已经被划分好了，就将传入dataframe：

X_train=train_data.drop('Survived',axis=1)
Y_train=train_data['Survived']
X_test=test_data.drop('Survived',axis=1)
Y_test=test_data['Survived']

朴素贝叶斯算法实现

实现步骤

为了能让一个数据集为多个算法使用，还是决定将要实现的算法写在不同的cell里面，每个cell包含几个函数，对于朴素贝叶斯算法，一个函数足矣。函数包括两个参数，分别是测试集，训练集。最后的输出是六项，分别是处理过后的测试集，准确率，TP,TN,FP,FN。
整个高斯贝叶斯分类器函数分为三个部分：
第一步，计算每个标签类别的均值和方差，将计算出的均值和方差转化为df格式，方便后面使用。
第二步，计算未知样本取值不同标签类别的概率，然后预测其标签，原理已经介绍过，就是算出每个测试样本在各个属性的概率，然后相乘，最后选一个概率高的作为该样本的预测类别，将预测结果放进数组里，然后加到测试集中。
第三步，计算模型准确率,混淆矩阵，读取预测列的内容，计算出predict和survived是否相同作为准确率score的标准，每次比较时动态的=改变TP,TN,FP,FN的值。最后输出所有的结果。

; 实现效果

先将输出的测试集调出来看看：

可以看到最后一列成功添加了一列作为预测，从前五列来看正确预测了三个，错误了两个，貌似准确率不是很好。
输出准确率和TP,TN,FP,FN的值：

准确率是79.14%，比想象中要好一点。正确预测的样本还是挺多的。
因为这是二分类问题，混淆矩阵比较简单，就自己实现：
多算法不调包实现Titanic生还者分类预测

逻辑梯度下降算法实现

BGD，SGD实现过程

（1）首先因为是分类算法，我们要设置一个sigmoid函数，让最后输出的值代入函数中得到类别。也可以选择其他的判别函数，为了简单我这次选择的是sigmoid函数。
（2）要归一化，从数据集可以看到，数据并不归一，因此要定义归一化的函数，所以计算每一个属性的均值，方差，进行标准化操作：

def regularize(xMat):
    inMat = xMat.copy()
    inMeans = np.mean(inMat,axis = 0)
    inVar = np.std(inMat,axis = 0)
    inMat = (inMat - inMeans)/inVar
    return inMat

（3）定义计算权重的函数，这里我选择了两种梯度下降算法，BGD，SGD算法。两种计算梯度的算法大同小异，只是计算梯度的过程中是有一点差别：

学习率设置的是0.001.实践证明设置的小一点是有利的，最大迭代次数设置的是500，关于参数比较可以参考后面结果的展示。
（4）建立主函数，可以选择哪一种梯度下降方式，输出准确率和TP,TN,FP,FN的值。

实现效果

因为采用的是notebook编程环境，先要把之前加在test_data的预测列的数据全部drop掉，不然会影响之后准确率的计算。

先把之前导入的predict列drop掉

test_data.drop('predict',axis=1,inplace=True)

首先用BGD的方式试一试：

准确率达到了81.8%，相比较略有提升。混淆矩阵如下所示：

再用随机梯度下降的方法试一试：

准确度是79.1%，比BGD的要低一些。混淆矩阵如下：

逻辑梯度下降算法比较容易用ROC曲线展现效果，这里我用自己写的roc曲线的函数drawroc，我将阈值的间隔设置为0.01，从0-1，也就是说应该有100个点在roc曲线上
带入BGD得到的ROC曲线如下：

带入SGD得到的ROC曲线如下：
多算法不调包实现Titanic生还者分类预测

KNN算法

实现过程

（1）首先要对于数据进行标准化，所用的函数和上面逻辑梯度下降的函数是一样的。就不再赘述。
（2）定义距离函数，就是定义样本和训练集的差异的。为了便于处理，将数据集和测试集都定义成矩阵的形式，进行矩阵的运算加和：

（3）最后定义分类函数，将预测列加到测试集的最后一列

; 实现效果

令k = 5先测试一下：
准确率：0.7218225419664268
混淆矩阵：

经过比较，传统的逻辑梯度下降和朴素贝叶斯方法对于泰坦尼克数据集有比较好的效果，而对于KNN算法，效果就相较前面两种算法比较逊色。
当然这是基于经典的二分类算法，而且数据集呢也有一些不足的地方，首先来说虽然有8列数据属性用作了分类，但其实真正对于分类有效的还是比较少的，年龄、船舱等级等属性甚至相关性比较大，能达到80%的准确度水平也不容易了。
实验过程中涉及了一些参数调整的过程，比如调整学习率，最大迭代次数，KNN算法中的K值等

Original: https://blog.csdn.net/weixin_48708628/article/details/122622661
Author: Lyndon Niu
Title: 多算法不调包实现Titanic生还者分类预测

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/665627/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

关于yolov5的一些说明（txt文件、训练结果分析等）

一、yolo中txt文件的说明：二、yolo跑视频、图片文件的格式：三、yolov5训练结果不好的原因： 1. 欠拟合：在训练集上表现很差，测试集上表现也很差的现象可能是欠拟…

人工智能 2023年7月29日
0058
数据挖掘课笔记（七）

### 回答1： wrf-chem数据下载的相关网址链接： 1. NCEP/NCAR Reanalysis I: ftp://ftp.cdc.noaa.gov/Datasets/n…

人工智能 2023年6月2日
00119
Windbg分析高内存占用问题

结果，Dump文件是生成的，结果当分析的时候，发现Windbg提示Dump无效。说明Dump文件创建的有问题。观察任务管理器，发现内存占用一下就降下来了，原来是之前的进程直接奔溃了…

人工智能 2023年6月26日
0090
旋转框目标检测mmrotate v0.3.1 训练DOTA数据集（二）

1、数据集构建 MMRoteate 支持的数据集 ; 类别 The object categories in DOTA-v1.0: plane, ship, storage tan…

人工智能 2023年6月17日
0077
Deep Dream：理解深度神经网络结构及应用（实战篇）

慕课：《深度学习应用开发-TensorFlow实践》章节：第十一讲 Deep Dream：理解深度神经网络结构及应用TensorFlow版本为2.3 目录 Deep Dream…

人工智能 2023年5月26日
0077
Convolution）是什么？有什么作用

Convolution是什么？ Convolution（卷积）是一种数学运算方法，被广泛应用于信号处理和图像处理领域。它主要用于在两个函数之间建立一种关联，通过对一个函数与另一个函…

人工智能 2024年1月1日
0050
深度学习实战篇之 ( 十七) — TensorFlow之DenseNet

科普知识 ACM 国际多媒体会议（ACM International Conference on Multimedia）是计算机科学领域中多媒体领域的首要国际会议。多媒体研究的重点…

人工智能 2023年5月24日
0087
Python-opencv fft、dct变换 + 幅度、相位谱结合实现艺术效果

快速傅里叶变换（FFT）原始二维傅里叶变换公式： np工具箱中有fft2函数可以对图像做二维快速傅里叶变换（不断分解成更小的、更容易的小蝶形变换替换大变换），但是要让输出的频谱图…

人工智能 2023年6月19日
00128
python使用pandas读取excel绘制柱状图，折线图，饼状图

excel import pandas as pd import matplotlib.pyplot as plt def column_chart(excel_path, she…

人工智能 2023年7月8日
0090
网络安全为啥要学Linux系统

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月10日
0051
apollo决策规划学习–慢速障碍物超车

巨人的肩膀： Apollo planning 框架Apollo Planning 代码学习（一）apollo介绍之planning模块Apollo Planning决策规划代码详细…

人工智能 2023年7月28日
00110
30 个 Python 技巧，加速你的数据分析处理速度

又到了学习干货的季节~ 今天我们就来学习一下python干货~ ; pandas的下载使用命令下载： pip install pandas 或者自行下载whl文件安装 https…

人工智能 2023年7月5日
0085
FPN论文解读和代码详解

FPN论文解读和代码详解论文地址:Feature Pyramid Networks for Object Detection 代码地址：Detectron/FPN整篇论文看下…

人工智能 2023年7月9日
00118
一文解读Masked Autoencoder(MAE)

前言论文链接：https://arxiv.org/pdf/2111.06377.pdf跟李沐学AI：https://www.bilibili.com/video/BV1sq4y1…

人工智能 2023年6月16日
00140
springboot如何集成swagger，swagger如何为所有API添加token参数，swagger常用注解，简介明了，举例说明

回答1：可以通过在请求头中 Authorization 字段来统一。具体操作步骤如下： 1. 在 UI 中找到需要的接口，点击右侧的”Authorize&#822…

人工智能 2023年6月28日
00101
【Pytorch】torch.nn.init.xavier_uniform_()

目录简介 torch.nn.init.xavier_uniform_() * 语法作用举例参考结语 ; 简介 Hello！非常感谢您阅读海轰的文章，倘若文中有错误的地方，…

人工智能 2023年7月21日
0052

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

多算法不调包实现Titanic生还者分类预测

数据集

数据集概况

; 特征工程

朴素贝叶斯算法实现

实现步骤

; 实现效果

逻辑梯度下降算法实现

BGD，SGD实现过程

实现效果

先把之前导入的predict列drop掉

KNN算法

实现过程

; 实现效果

大家都在看