泰坦尼克号数据分析预测建模准确率测算

2023年6月11日下午6:57 • 人工智能 • 阅读 83

本文思路：

https://blog.csdn.net/u013788252/article/details/105528116

（运行环境: jupyter notebook python3）
完善后的完整代码：
下面展示 完整代码。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
get_ipython().run_line_magic('matplotlib', 'inline')
from sklearn.linear_model import LogisticRegressionCV
from sklearn.ensemble import RandomForestClassifier
from sklearn import tree
from sklearn.model_selection import train_test_split

path=r'C:\Users\Administrator\Desktop\titanic.csv'

data = pd.read_csv(path)
data['Survived'].value_counts().plot.pie(autopct='%0.2f%%')

data[['Sex','Survived']].groupby(['Sex']).mean().plot.bar()

data[['Pclass','Survived']].groupby(['Pclass']).mean().plot.bar()

bins = [0, 12, 18, 65, 100]
data['Age_group'] = pd.cut(data['Age'], bins)
by_age = data.groupby('Age_group')['Survived'].mean()
by_age.plot.bar()

fig, ax = plt.subplots(1, 2, figsize = (18, 8))
sns.violinplot("Pclass", "Age", hue="Survived", data=data, split=True, ax=ax[0])
ax[0].set_title('Pclass and Age vs Survived')

sns.violinplot("Sex", "Age", hue="Survived", data=data, split=True, ax=ax[1])
ax[1].set_title('Sex and Age vs Survived')

plt.show()

data.Embarked[data.Embarked.isnull()] = data.Embarked.dropna().mode().values

from sklearn.ensemble import RandomForestRegressor
age_df = data[['Age','Survived','Fare', 'Parch', 'SibSp', 'Pclass']]
age_df_notnull = age_df.loc[(data['Age'].notnull())]
age_df_isnull = age_df.loc[(data['Age'].isnull())]
X = age_df_notnull.values[:,1:]
Y = age_df_notnull.values[:,0]
RFR = RandomForestRegressor(n_estimators=1000, n_jobs=-1)
RFR.fit(X,Y)
predictAges = RFR.predict(age_df_isnull.values[:,1:])
data.loc[data['Age'].isnull(), ['Age']]= predictAges

df =pd.get_dummies(data)

x=df.drop('Survived',1)
y=df.Survived
x_train,x_test,y_train,y_test = train_test_split(x, y, test_size=0.2, random_state=0)

lr = LogisticRegressionCV(multi_class='ovr',fit_intercept=True, Cs=np.logspace(-2, 2, 20), cv=2, penalty='l2', solver='lbfgs', tol=0.01)

re=lr.fit(x_train, y_train)

print("准确率:",lr.score(x_test, y_test))

（截止上一步已完成了建模与准确率测算）
本部分结合参考：https://blog.csdn.net/weixin_43532000/article/details/108086363

分析中用到的相关库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
seed =2020

PassengerId => 乘客ID
Survived=>是否生存下来
Pclass => 乘客等级(1/2/3等舱位)
Name => 乘客姓名
Sex => 性别
Age => 年龄
SibSp => 堂兄弟/妹个数
Parch => 父母与小孩个数
Ticket => 船票信息
Fare => 票价
Cabin => 客舱
Embarked => 登船港口

如下代码也可查看数据情况： 代码片。


def _data_info(data,categorical_features):
    print('number of train examples = {}'.format(data.shape[0]))
    print('number of train Shape = {}'.format(data.shape))
    print('Features={}'.format(data.columns))
    print('\n--------输出类别特征的种类--------')
    for i in categorical_features:
        if i in list(data.columns):
            print("train："+i+":",list(data[i].unique()))
    print('\n--------缺失值--------')
    missing = data.isnull().sum()
    missing = missing[missing > 0]
    print(missing)
    missing.sort_values(inplace=True)
    missing.plot.bar()
    plt.show()
def data_info(data_train,data_test,categorical_features):
    print('--------训练集基本概况--------')
    _data_info(data_train,categorical_features)
    print('\n\n--------测试集基本概况--------')
    _data_info(data_test,categorical_features)

调用函数：


data_info(train_df,test_df,['Survived','Pclass','Sex','Cabin','Embarked','SibSp','Parch'])

数据清洗及分析在jupyter notebook中进行，便于观察及分析。

代码如下：


train_df['train'] = 1
test_df['train'] = 0
data_df = pd.concat([train_df,test_df],sort=True).reset_index(drop=True)

data_df.drop('PassengerId',inplace=True,axis=1)


from sklearn import preprocessing
ler_sex = preprocessing.LabelEncoder()
ler_sex.fit(data_df['Sex'])
data_df['Sex'] = ler_sex.transform(data_df['Sex'])


data_df['Embarked'].fillna(data_df['Embarked'].mode()[0],inplace=True)


ler_Embarked = preprocessing.LabelEncoder()
ler_Embarked.fit(data_df['Embarked'])
data_df['Embarked'] = ler_Embarked.transform(data_df['Embarked'])


data_df.drop('Cabin',inplace=True,axis=1)

在该阶段可以自由分析，维度自行选择。最终得到清洗好的集合即可。


train_data = data_df[data_df.train==1]
train_data['Survived'] = train_df['Survived']
train_data.drop('train',axis=1,inplace=True)

test_data = data_df[data_df.train==0]
test_data.drop(['Survived','train'],axis=1,inplace=True)

import pandas as pd

from sklearn.model_selection import train_test_split
if __name__ == "__main__":
    data = pd.read_csv(r'C:\Users\Administrator\Desktop\titanic.csv')

    x = data.iloc[:,:-1]
    y = data.iloc[:,-1]

    x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3,random_state=0)

    print(len(x_train))
    print(len(x_test))
    res_train = pd.concat([x_train, y_train], axis=1, ignore_index=True)
    res_test = pd.concat([x_test, y_test], axis=1, ignore_index=True)
    print(len(res_train))
    print(len(res_test))
    res_train.columns = data.columns
    res_test.columns = data.columns    res_train.to_csv(r'C:\Users\Administrator\Desktop\titanic_train.csv', index=False, header=True)    res_test.to_csv(r'C:\Users\Administrator\Desktop\titanic_test.csv', index=False, header=True)

Original: https://blog.csdn.net/caoyatingde/article/details/122594773
Author: dai_ricky
Title: 泰坦尼克号数据分析预测建模准确率测算

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/601096/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【scrapy实战】获取我的博客信息

需求之前写过一个blog，是通过基本的bs4完成爬取的：传送门这样写动态爬虫的缺点包括：1.速度慢2.需要额外的解析3.要额外判断blink信息，没有容错机制因此，我们考虑使用…

人工智能 2023年7月17日
0060
OpenCV中的图像变换——傅里叶变换

OpenCV中的图像变换——傅里叶变换 * – 1. 效果图 – 2. 原理 – 3. 源码 – + 3.1 Numpy实现傅里叶变…

人工智能 2023年6月18日
0095
【ML】使用未标记数据 – 聚类分析

🔎大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流🔎📝个人主页－Sonhhxg_柒的博客_CSDN博客📃🎁欢迎各位→点赞👍 + 收藏⭐️ +…

人工智能 2023年6月2日
0094
机器学习入门实战——波士顿房价预测(简单预测)

目录前言一、实验步骤及运行结果 * 1.数据分析 – ①.分析各个影响房价的特征信息 ②.对房价的分析 2.数据处理 3.建模测试并运行二、实验结果分析前言波…

人工智能 2023年7月15日
00111
机器学习——线性回归与分类

从图灵开始，让计算机像人一样思考成了人们的共同理想。然而现实是，人脑可以处理无数复杂的问题，不是因为在出生时别人自动在我们脑子里安装了千万个程序告诉我们怎么处理，而是人脑具有学习的…

人工智能 2023年7月1日
00143
R语言leaps包中的regsubsets函数实现全集子集回归(all subsets regression)、使用调整R方和Mallows Cp统计量筛选最优模型、并可视化不同组合参数下的模型指标

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月17日
0090
公共数据库挖掘第一步-GEO数据库下载表达谱数据和生存数据

欢迎关注”生信修炼手册”! 在NAD+代谢相关基因的文章中，针对来自GEO数据库的ALS患者的表达谱数据进行了挖掘，本文就以这两批GEO数据为例，来详细展示…

人工智能 2023年6月24日
00114
机器学习实战（聚类）

聚类简介在”无监督学习”中，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础。此类学习任…

人工智能 2023年6月2日
0083
数据挖掘：关联分析—Apriori算法

@ ; 前言关联分析是用于发掘数据间关联度的分析技术，即通过发掘事务数据集内每项数据组合出现的概率。广泛应用日常各领域，例如，在生物信息学中的功能基因定位、医疗领域的病症关联分析…

人工智能 2023年6月16日
0080
Python数据可视化大杀器之地阶技法：matplotlib（含详细代码）

最近小伙伴问我有什么刷题网站推荐，在这里推荐一下牛客网，里面包含各种面经题库，全是免费的题库，可以全方面提升你的职业竞争力，提升编程实战技巧，赶快来和我一起刷题吧！牛客网链接|py…

人工智能 2023年7月5日
0093
python pandas dataframe 遍历行_在pandas中遍历DataFrame行的实现方法

pandas.DataFrame.loc好慢，怎么遍历访问DataFrame如果用for来遍历，pandas比普通的python程序还要慢. 试试Series.apply函数来调用…

人工智能 2023年7月7日
0089
【手拉手带你准备电赛】单色块识别（基于openmv）

文章背景 openmv介绍 openmv色块识别原理 openmv色块识别代码最终结果疑惑细解：关于阈值的设置：关于自动增益和白平衡文章背景我们都听说过什么图像识别、色…

人工智能 2023年5月28日
00114
〖Python自动化办公篇①〗- 文件自动化管理引言及shutil模块实现文件与文件内容的复制

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月5日
0084
PyQt5(一) PyQt5安装及配置，从文件夹读取图片并显示，模拟生成素描图像

目录一、环境配置 1.1 安装PyQt5 1.2 安装Qt工具包 1.3 配置环境变量 1.4 测试PyQt5 1.5 配置PyCharm 二、QtDesigner 窗口简单介绍…

人工智能 2023年7月5日
0077
误差反向传播算法在大规模数据集中的效率如何？有没有优化的方法

问题背景误差反向传播算法是一种用于训练神经网络的常见方法。当处理大规模数据集时，算法的效率成为一个重要的考量因素。本文将详细介绍误差反向传播算法在大规模数据集中的效率，并提供了一…

人工智能 2024年1月5日
0052
【成为红帽工程师】第三天 web服务器

浏览器常支持的协议有：http、https、ftp等主机地址或者主机名：主机地址就是服务器在因特网所在的IP地址。如果是主机名的话，那么就需要域名解析了。 http为80，htt…

人工智能 2023年6月26日
0065

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

泰坦尼克号数据分析 预测建模 准确率测算

本文思路：

大家都在看

泰坦尼克号数据分析预测建模准确率测算