《scikit-learn机器学习》决策树③ -泰坦尼克号幸存者预测【思路+代码】

2023年6月17日下午3:18 • 人工智能 • 阅读 149

泰坦尼克号预测：

1、思路
*
1.1 数据处理
1.2 选择模型并训练
1.3 用前剪枝对模型进行优化
1.4 试试其他的决策树模型
2、具体代码实现（代码来源于本书，不做详细解释）
*
2.1 数据处理
2.2 训练模型
前剪枝
生成决策树

1、思路

1.1 数据处理

删除一些与预测无关的数据
修改一些数据，比如男为1，女为0
将一些缺失的数据进行补充或者删除
找到 target（预测的值）
将数据集进行分割：分为训练集和交叉训练集

1.2 选择模型并训练

由于本文的内容为决策树，所以使用决策树的算法进行 模型训练

当我们用决策树里面的ID3算法（信息熵）来进行训练的时候，可能会出现 过拟合现象（训练集的score很高，但是交叉训练集的score较低），此时就需要进行剪枝操作

注意： sklearn里面不支持后剪枝操作，所以说只能有前剪枝操作来对模型进行优化

1.3 用前剪枝对模型进行优化

在sklearn里面，可以使用 max_depth对模型进行剪枝。也就是说，确定决策树的深度，保证在已有的深度条件下进行剪枝，超出深度范围不会再进行分支。

但是我们如何确定depth呢？
我们可以一个个尝试，看哪个depth最优，但是嘞！！
由于程序员一般采用DRY原则，也就是 Donot Repeat Yourself，我们才不会傻乎乎的一个个试，当然是一个大函数给他全盘解决啦！！

就有了一个函数来测试哪个depth最优，然后用不同的depth进行拟合，最后 自动的索引出咱们最高的depth。然后就有了score，但是看数据太不直观了，所以一般来说，都会把数据进行一个 绘制图形， 直观的展示我们的最优选择。

前剪枝也可以使用 min_impurity_split进行剪枝，也就是控制它的叶子数量，与深度控制有异曲同工之妙
具体的话可以看下面这个博客，里面有讲到前剪枝的一些操作：
sklearn决策树

1.4 试试其他的决策树模型

我们可以尝试使用ID3的进阶C 4.5，或者是与ID3很像的CART算法，多种比较下得到最优的结果。

2、具体代码实现（代码来源于本书，不做详细解释）

2.1 数据处理

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

def read_dataset(fname):

    data = pd.read_csv(fname, index_col=0)

    data.drop(['Name', 'Ticket', 'Cabin'], axis=1, inplace=True)

    data['Sex'] = (data['Sex'] == 'male').astype('int')

    labels = data['Embarked'].unique().tolist()
    data['Embarked'] = data['Embarked'].apply(lambda n: labels.index(n))

    data = data.fillna(0)
    return data

train = read_dataset('datasets/titanic/train.csv')

《scikit-learn机器学习》决策树③ -泰坦尼克号幸存者预测【思路+代码】

分割数据集

from sklearn.model_selection import train_test_split

y = train['Survived'].values
X = train.drop(['Survived'], axis=1).values

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

print('train dataset: {0}; test dataset: {1}'.format(
    X_train.shape, X_test.shape))

2.2 训练模型

from sklearn.tree import DecisionTreeClassifier

clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)
train_score = clf.score(X_train, y_train)
test_score = clf.score(X_test, y_test)
print('train score: {0}; test score: {1}'.format(train_score, test_score))

前剪枝

from sklearn.tree import export_graphviz

with open("titanic.dot", 'w') as f:
    f = export_graphviz(clf, out_file=f)


def cv_score(d):
    clf = DecisionTreeClassifier(max_depth=d)
    clf.fit(X_train, y_train)
    tr_score = clf.score(X_train, y_train)
    cv_score = clf.score(X_test, y_test)
    return (tr_score, cv_score)

depths = range(2, 15)
scores = [cv_score(d) for d in depths]
tr_scores = [s[0] for s in scores]
cv_scores = [s[1] for s in scores]

best_score_index = np.argmax(cv_scores)
best_score = cv_scores[best_score_index]
best_param = depths[best_score_index]
print('best param: {0}; best score: {1}'.format(best_param, best_score))

plt.figure(figsize=(10, 6), dpi=144)
plt.grid()
plt.xlabel('max depth of decision tree')
plt.ylabel('score')
plt.plot(depths, cv_scores, '.g-', label='cross-validation score')
plt.plot(depths, tr_scores, '.r--', label='training score')
plt.legend()


def cv_score(val):
    clf = DecisionTreeClassifier(criterion='gini', min_impurity_decrease=val)
    clf.fit(X_train, y_train)
    tr_score = clf.score(X_train, y_train)
    cv_score = clf.score(X_test, y_test)
    return (tr_score, cv_score)

values = np.linspace(0, 0.005, 50)
scores = [cv_score(v) for v in values]
tr_scores = [s[0] for s in scores]
cv_scores = [s[1] for s in scores]

best_score_index = np.argmax(cv_scores)
best_score = cv_scores[best_score_index]
best_param = values[best_score_index]
print('best param: {0}; best score: {1}'.format(best_param, best_score))

plt.figure(figsize=(10, 6), dpi=144)
plt.grid()
plt.xlabel('threshold of entropy')
plt.ylabel('score')
plt.plot(values, cv_scores, '.g-', label='cross-validation score')
plt.plot(values, tr_scores, '.r--', label='training score')
plt.legend()

def plot_curve(train_sizes, cv_results, xlabel):
    train_scores_mean = cv_results['mean_train_score']
    train_scores_std = cv_results['std_train_score']
    test_scores_mean = cv_results['mean_test_score']
    test_scores_std = cv_results['std_test_score']
    plt.figure(figsize=(10, 6), dpi=144)
    plt.title('parameters turning')
    plt.grid()
    plt.xlabel(xlabel)
    plt.ylabel('score')
    plt.fill_between(train_sizes,
                     train_scores_mean - train_scores_std,
                     train_scores_mean + train_scores_std,
                     alpha=0.1, color="r")
    plt.fill_between(train_sizes,
                     test_scores_mean - test_scores_std,
                     test_scores_mean + test_scores_std,
                     alpha=0.1, color="g")
    plt.plot(train_sizes, train_scores_mean, '.--', color="r",
             label="Training score")
    plt.plot(train_sizes, test_scores_mean, '.-', color="g",
             label="Cross-validation score")

    plt.legend(loc="best")

from sklearn.model_selection import GridSearchCV

thresholds = np.linspace(0, 0.005, 50)

param_grid = {'min_impurity_decrease': thresholds}

clf = GridSearchCV(DecisionTreeClassifier(), param_grid, cv=5, return_train_score=True)
clf.fit(X, y)
print("best param: {0}\nbest score: {1}".format(clf.best_params_,
                                                clf.best_score_))

plot_curve(thresholds, clf.cv_results_, xlabel='gini thresholds')

from sklearn.model_selection import GridSearchCV

entropy_thresholds = np.linspace(0, 0.01, 50)
gini_thresholds = np.linspace(0, 0.005, 50)

param_grid = [{'criterion': ['entropy'],
               'min_impurity_decrease': entropy_thresholds},
              {'criterion': ['gini'],
               'min_impurity_decrease': gini_thresholds},
              {'max_depth': range(2, 10)},
              {'min_samples_split': range(2, 30, 2)}]

clf = GridSearchCV(DecisionTreeClassifier(), param_grid, cv=5, return_train_score=True)
clf.fit(X, y)
print("best param: {0}\nbest score: {1}".format(clf.best_params_,
                                                clf.best_score_))

生成决策树

clf = DecisionTreeClassifier(criterion='entropy', min_impurity_decrease=0.002857142857142857)
clf.fit(X_train, y_train)
train_score = clf.score(X_train, y_train)
test_score = clf.score(X_test, y_test)
print('train score: {0}; test score: {1}'.format(train_score, test_score))

with open("titanic.dot", 'w') as f:
    f = export_graphviz(clf, out_file=f)

Original: https://blog.csdn.net/weixin_42198265/article/details/121417100
Author: Bessie_Lee
Title: 《scikit-learn机器学习》决策树③ -泰坦尼克号幸存者预测【思路+代码】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/630634/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

第二章操作系统测试

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月27日
0061
pandas中dataframe行遍历

现有一个数据框pandas的dataframe: 期望输出现在我想遍历这个数据框的每一行，在每一行当中我想通过列名访问第一行的每一个元素，例如，实现以下效果：方法一：iter…

人工智能 2023年6月2日
0060
使用pmml跨平台部署机器学习模型Demo——房价预测

基于房价数据，在python中训练得到一个线性回归的模型，在JavaWeb中加载模型完成房价预测的功能。一、训练、保存模型工具：PyCharm-2017、Python-39、…

人工智能 2023年6月6日
0078
理解回归_多元线性回归_最大似然函数_最大密度函数_标准差_方差_数据离散程度—人工智能工作笔记0020

然后我们再来看一下,对于之前我们说的,一元一次方程来说,在我们的现实世界中,往往是不能适用的,因为只考虑一个因素的话,那么太简单了,所以我们需要,考虑多个因素,这里就需要多元一次…

人工智能 2023年6月18日
0071
池化层与全局池化层有何区别

问题：池化层与全局池化层有何区别？详细介绍在深度学习中，池化层（Pooling Layer）和全局池化层（Global Pooling Layer）是两种常用的特征抽取方法。它…

人工智能 2024年1月4日
0061
pandas库实现数据连接concat()函数

【小白从小学Python、C、Java】【Python全国计算机等级考试】【Python数据分析考试必会题】 ● 标题与摘要 pandas库实现数据连接 concat()函数 …

人工智能 2023年7月17日
0063
内嵌物理知识神经网络（PINN）是个坑吗？

©PaperWeekly 原创 · 作者 | zwqwo 单位 |某知名券商计算机行业研究员研究方向 | 关注国产CAD、CAE等工业软件发展从无网格方法到内嵌物理知识的神经网…

人工智能 2023年6月15日
0046
vue路由

vue路由目录 * 概述 – 需求：设计思路实现思路分析 – 1.路由 2.使用 3.注意点 4.路由的query参数 5.路由的params参数性…

人工智能 2023年6月29日
0060
深度学习（初识tensorflow2.版本）之三好学生成绩问题（1）

🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🥰 博客首页：knighthood2001😗 欢迎点赞👍评论🗨️❤️ 热爱python，期待与大家一同进步成长！！❤️👀 给大家推荐一款很火爆的刷题、面试求…

人工智能 2023年6月25日
0076
15日均线战法

所谓移动平均线，是指一定交易时间内(日、周、月、年)的算术平均线。如以5日均线为例，将5日内的收盘价逐日相加。然后除以5,得出5日的平均值，再将这些平均值在图纸上依先后次序连起来，…

人工智能 2023年6月29日
0076
立体匹配算法-SAD

目录前言 * SAD 是一种简单高效的立体匹配算法，虽然由于精度等原因很少被实际应用，但可以帮助我们理解立体匹配过程一、SAD算法原理 * SAD计算过程主要包括以下步骤：二…

人工智能 2023年7月20日
0056
Python（数据分析篇）— Pandas框架【一】DataFrame数据创建以及元素的增删改查

pandas主要分为如下几个阶段：首先，导入相应模块 import pandas as pd import numpy as np dataframe是一种表格型数据结构，拥有a…

人工智能 2023年7月8日
0081
geopandas 与pandas

geopandas是基于pandas的逻辑开发的能够处理矢量数据的python库（是否能够处理栅格不太确定）那他与pandas的关系如何呢用一个例子测试一下 1 载入测试数据 i…

人工智能 2023年7月8日
0053
毫秒级！千万人脸库快速比对，上亿商品图片检索，背后的极速检索用了什么神器？ ⛵

💡 作者：韩信子@ShowMeAI📘 机器学习实战系列：https://www.showmeai.tech/tutorials/41📘 深度学习实战系列：https://www.s…

人工智能 2023年6月4日
0094
【Pytorch基础教程26】wide&deep推荐算法（tf2.0和torch版）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月25日
0074
交通流预测爬坑记（一）：交通流数据集，原始数据

目录主要数据类型 * 个人出行数据，轨迹数据高速公路观察点数据集其他出行数据集高速公路数据集其他赠人玫瑰如今网上有非常多的数据集，在CSDN，知乎什么搜一下可以找到…

人工智能 2023年5月23日
0064

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30