python数据分析案例，心脏病预测

2023年7月16日上午9:02 • 人工智能 • 阅读 49

心脏病是一类比较常见的循环系统疾病。它作为全球第一大杀手，是我们不得不提前防御的疾病。我从kaggle上下载了一份心脏病数据集，利用python找出一些规律，看下哪些特征对于确诊心脏病影响比较大，从而提醒我们注意平时的生活规律。

导入数据集

import pandas as pd

data = pd.read_csv('heart.csv')

data.head()

我们可以看到以下数据：

下面对字段进行介绍：

age: 该朋友的年龄
sex: 该朋友的性别 (1 = 男性, 0 = 女性)
cp: 经历过的胸痛类型（值1：典型心绞痛，值2：非典型性心绞痛，值3：非心绞痛，值0：无症状）
trestbps: 该朋友的静息血压（入院时的毫米汞柱）
chol: 该朋友的胆固醇测量值，单位：mg/dl
fbs: 人的空腹血糖（> 120 mg/dl，1=真；0=假）
restecg: 静息心电图测量（0=正常，1=患有ST-T波异常，2=根据Estes的标准显示可能或确定的左心室肥大）
thalach: 这朋友达到的最大心率
exang: 运动引起的心绞痛（1=有过；0=没有）
oldpeak: ST抑制，由运动引起的相对于休息引起的
slope: 最高运动ST段的斜率（值0:上坡，值1:平坦，值2:下坡）
ca: 萤光显色的主要血管数目（0-4）
thal: 一种称为地中海贫血的血液疾病（1=正常；2=固定缺陷；3=可逆缺陷）
target: 心脏病（0=否，1=是）

这份数据集里面记录的都是生理的特征及指标，我们可以根据这些特征，来反向关注生活习惯。比如胆固醇，蛋黄、猪肝都是引起胆固醇过高的食物。

下面就是数据预处理步骤了

首先对数据进行一个描述

data.info()

通过描述我们发现数据并没有缺失，因此我们不需要做缺失值处理。每个字段有303个数据。

对数据进行一个统计描述：

data.describe()

数据分析

我们对患病、未患病，男性、女性占比进行了一个分析：

countNoDisease = len(data[data.target == 0])

countHaveDisease = len(data[data.target == 1])

countfemale = len(data[data.sex == 0])

countmale = len(data[data.sex == 1])

print(f'没患病人数:{countNoDisease }',end=' ,')

print("没有得心脏病比率: {:.2f}%".format((countNoDisease / (len(data.target))*100)))

print(f'有患病人数:{countHaveDisease }',end=' ,')

print("患有心脏病比率: {:.2f}%".format((countHaveDisease / (len(data.target))*100)))

print(f'女性人数:{countfemale }',end=' ,')

print("女性比例: {:.2f}%".format((countfemale / (len(data.sex))*100)))

print(f'男性人数:{countmale }',end=' ,')

print("男性比例: {:.2f}%".format((countmale / (len(data.sex))*100)))

得出患心脏病的人数为138，未患心脏病人数为165，女性人数为96，男性人数为207，为了看得更加直观，我画了两个饼图，使用的是matplotlib+seaborn。

import matplotlib.pyplot as plt

import seaborn as sns

%matplotlib inline

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签

plt.rcParams['axes.unicode_minus'] = False    # 用来正常显示负号

#创建一个画布
fig = plt.figure(figsize=(6,6))

a = [138, 165]
b = [207, 96]

label1 = ['没患病人数','患病人数']
label2 = ['男性','女性']

#间隔
explode=(0,0.1)

#颜色
colors = ['#6c5ce7','#81ecec']

plt.pie(a,labels=label1, explode=explode ,colors=colors, autopct='%1.1f%%',shadow=False,startangle=150)
plt.show()

fig = plt.figure(figsize=(6,6))

plt.pie(b,labels=label2,explode=explode ,colors=colors, autopct='%1.1f%%',shadow=False,startangle=150)

plt.show()

心脏病数据各字段的相关性

plt.figure(figsize = (12,10))

sns.heatmap(data.corr(), annot =True)

plt.show()

从上面的图形中我们可以发现，slope与oldpeak呈高度负相关(0.58)。这意味着如果坡度值增加，旧峰值将减少，反之亦然。Target与cp(胸痛)呈正相关最高，为0.43，其次是thalach（心率），为0.42，然后是slope（最高运动ST段的斜率），为0.35.

查看各个字段的数据分布情况

data.hist(figsize=(20,16))

plt.show()

观察上面图形，我们发现年龄分布主要在40~70岁之间。。。

患心脏病随年龄分布图

pd.crosstab(data.age,data.target).plot(kind="bar",figsize=(25,8))

plt.title('患病变化随年龄分布图')

plt.xlabel('岁数')

plt.ylabel('人数')

plt.show()

其他字段与患心脏病分布图

plt.figure(figsize=(20,15))

sns.set_theme(style='dark')

plt.subplot(3,3,1)
sns.countplot(data=data,x='sex',hue='target')

plt.subplot(3,3,2)
sns.countplot(data=data,x='cp',hue='target')

plt.subplot(3,3,3)
sns.countplot(data=data,x='fbs',hue='target')

plt.subplot(3,3,4)
sns.countplot(data=data,x='restecg',hue='target')

plt.subplot(3,3,5)
sns.countplot(data=data,x='exang',hue='target')

plt.subplot(3,3,6)
sns.countplot(data=data,x='slope',hue='target')

plt.subplot(3,3,7)
sns.countplot(data=data,x='ca',hue='target')

plt.subplot(3,3,8)
sns.countplot(data=data,x='thal',hue='target')

plt.show()

年龄-心率-患病三者关系

散点图

plt.scatter(x=data.age[data.target==1], y=data.thalach[(data.target==1)], c="red")

plt.scatter(x=data.age[data.target==0], y=data.thalach[(data.target==0)], c='blue')

plt.legend(["患病", "未患病"])

plt.xlabel("年龄")

plt.ylabel("最大心率")

plt.show()

血压-患病关系

画个提琴图

sns.violinplot(x=data.target,y=data.trestbps,data=data)

plt.show()

运动引起的心绞痛-心率-患病关系

sns.swarmplot(x='exang', y='thalach', hue='target', data=data, size=6)

plt.xlabel('有无运动引起的心绞痛')

plt.show()

大血管数量ca-血压trestbps-患病关系

plt.figure(figsize=(15,7))

sns.swarmplot(x='ca', y='trestbps', hue='target', data=data, size=5)

plt.xlabel('大血管数量')

plt.ylabel('血压')

plt.show()

大血管数量ca-年龄age-患病关系

plt.figure(figsize=(15,8))

sns.swarmplot(x='ca', y='age', hue='target', data=data, size=6)

plt.xlabel('大血管数量')

plt.ylabel('年龄')

plt.show()

年龄age-胆固醇chol-患病关系

plt.figure(figsize=(10,5))

plt.scatter(x=data.age[data.target==1], y=data.chol[data.target==1], c="blue")

plt.scatter(x=data.age[data.target==0], y=data.chol[data.target==0], c="orange")

plt.legend(["患病",'未患病'])

plt.xlabel('年龄')

plt.ylabel('胆固醇')

plt.show()

以上就是数据分析过程

接下来将用机器学习算法建立模型进行预测

模型预测

#目标值和特征值
x = data.drop(['target'], axis=1)
y = data['target']

#导入库
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

#划分数据集
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=20)

#特征预处理
sc = StandardScaler()

#标准化
x_train = sc.fit_transform(x_train)
x_test = sc.transform(x_test)

决策树

#导入相关库
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report

classifier = DecisionTreeClassifier(criterion="gini") #CART算法
classifier.fit(x_train,y_train.ravel())

y_pred1 = classifier.predict(x_test)

计算准确率
score1 = classifier.score(x_test, y_test)
print("准确率为：\n", score1)

#查看精确率、召回率、F1-score
report1 = classification_report(y_test, y_pred1, labels=[0,1], target_names=['Not sick','sick'])
print(report1)

KNN

from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=2)
knn.fit(x_train, y_train)
y_pred2 = knn.predict(x_test)

#计算准确率
score2 = knn.score(x_test, y_test)
print("准确率为：", score2)

#查看精确率、召回率、F1-score
report2 = classification_report(y_test, y_pred2, labels=[0,1], target_names=['Not sick','sick'])
print(report2)

朴素贝叶斯

from sklearn.naive_bayes import GaussianNB

bayesmodel = GaussianNB()
bayesmodel.fit(x_train, y_train)
y_pred3 = bayesmodel.predict(x_test)

计算准确率
score3 = bayesmodel.score(x_test, y_test)
print("准确率为：\n", score3)

#查看精确率、召回率、F1-score
report3 = classification_report(y_test, y_pred3, labels=[0,1], target_names=['Not sick','sick'])
print(report3)

随机森林

from sklearn.ensemble import RandomForestClassifier

rfc = RandomForestClassifier(n_estimators=200)
rfc.fit(x_train, y_train)
y_pred4 = rfc.predict(x_test)

计算准确率
score4 = rfc.score(x_test, y_test)
print("准确率为：\n", score4)

#查看精确率、召回率、F1-score
report4 = classification_report(y_test, y_pred4, labels=[0,1], target_names=['Not sick','sick'])
print(report4)

比较模型好坏

model = ['决策树','knn','朴素贝叶斯','随机森林']
score = [score1, score2, score3, score4]

plt.figure(figsize = (15, 10))
sns.barplot(x = score, y = model)
plt.show()

以上就是我做的一些数据分析，由于数据只有303条，数据量比较少，所以不能根据以上分析就一概而论，必须要经过大量的数据才能具有代表性。大家可以在后面的模型建立、划分数据集以及数据标准化处理时，调一下参数，可能模型的准确率会更高一点。

谢谢大家观看！希望能跟大家一起学习数据分析！

Original: https://blog.csdn.net/m0_46457745/article/details/118499409
Author: 星之鱼
Title: python数据分析案例，心脏病预测

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/696093/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

淘宝商品数据爬取并分析数据

一、抓取数据 1、抓取数据的意义对电商来说，抓取某些数据，再进行分析，可以有效地反映出数据在某个区间内变化情况。数据受某些因素而发生巨大的影响，也可以借助分析的数据来规划相关项目…

人工智能 2023年7月5日
0058
PyTorch的GPU支持是如何实现的？有什么优势

PyTorch的GPU支持是如何实现的？ PyTorch是一种基于Python的深度学习框架，它提供了许多用于定义、优化和训练神经网络的工具和方法。其中一个重要的功能是其对图形处理…

人工智能 2024年1月4日
0026
ONNXRuntime学习笔记(四)

接上一篇在Python端的onnx模型验证结果，上一篇在Pytorch和onnxruntime-gpu推理库上分别进行效果效率统计分析，结论要比最初设置的50ms高很多，这一篇我将…

人工智能 2023年6月4日
0086
unctf2020 部分简单题题解

⭐unctf2020 水一波简单题。。菜狗前来报道。。大佬轻喷。。如果有时间做题就好了呜呜呜 ⭐misc 1、baba_is_you 题目告诉我们，了解png文件格式。下载得到一…

人工智能 2023年6月6日
0080
pandas之groupby函数

sql中的分组语句group by很重要，pandas中也有类似的分组函数，即groupby，本文就主要介绍下它的用法。和sql中的分组类似，pandas中的groupby函数也…

人工智能 2023年7月8日
0068
如何在Kaggle上利用免费Gpu训练Yolox的模型

本文不包含Kaggle的入门步骤，如何上传数据集，如何选择GPU自行学习文章目录开头的话一、Kaggle的使用 * 1、为什么选择Kaggle 2、Kaggle的操作难度二…

人工智能 2023年6月17日
0078
模型压缩（二）yolov5剪枝

一、yolov5s 在yolov5s.ymal文件中， depth_multiple: 0.33 # model depth multiplewidth_multiple: 0.5…

人工智能 2023年7月26日
0075
OpenKE实现转移距离模型trans系列代码

OpenKE实现转移距离模型trans系列代码前言前段时间学习了知识图谱表示的转移距离模型trans系列大礼包，编辑这篇博客的起因是一个学妹找我要trans系列的代码，所以就在…

人工智能 2023年6月1日
0058
在windows下pytorch(GPU版)的安装

一.CUDA的安装 pytorch官网建议最好使用的是英伟达(NVIDIA)的显卡，说一下我自己的配置：显卡NVIDIA GTX1050ti 1.查看当前显卡所需的CUDA版本首…

人工智能 2023年6月17日
0060
数据库实战经验分享（全量表，增量表，拉链表，流水表，快照表）

前言当人们一提到全量表，增量表，拉链表，流水表，快照表等这些概念时，大家第一反应想到的就是传统数据仓库的使用。那么本文将从数据仓库介入，简单介绍一下openGauss设计中的全…

人工智能 2023年6月19日
0075
决策树最骚操作

大家好，最近我原创了一系列文章不知道大家是否喜欢这种类型的文章，其实我最近又打算开始更新100天搞定机器学习了，就想用类似lightgbm可视化调参这篇文章的风格，让大家在学习一…

人工智能 2023年6月4日
0059
2022年最该收藏的8个数据分析模型

大家在工作中是不是经常要做各种分析，但又常常遇到无从下手，抓不住重点，搞不清关键数据的情况。俗话说”工欲善其事，必先利其器。”一个好用的数据分析模型，能给我…

人工智能 2023年7月18日
0045
NLP学习—21.自注意力机制（Self-Attention）与Transformer详解

文章目录 * – + 引言 + 一、Structure of Transformers + 二、Encoder Structure + 三、Self-attention…

人工智能 2023年5月28日
0090
用Bibtex导出GB/T 7714等格式引用的方法

1、背景：为什么这tmd会成为一个问题？有的会议期刊，比如ICLR，它在谷歌学术等一众学术搜索引擎上，都只有arxiv的引用出处。比如，针对论文：《Learning invar…

人工智能 2023年6月25日
0069
语音识别与转换小试牛刀(1)

前言这几天突然觉得语音有点儿意思。想探索一些用一些库来实现下。看见这篇推文：这段AI的深情告白在外网爆火：我并非真实，从未出生，永不死亡，你能爱我吗？, 觉得语音合成的声音也…

人工智能 2023年5月25日
0082
电气领域相关数据集（目标检测，分类图像数据及负荷预测），输电线路图像数据

电气相关图像数据集集及负荷数据集如下（包含缺陷检测与分类）： 1.输电线路巡检鸟巢检测图像数据集（含标签）下载地址：输电线路鸟巢图像数据集（200张图像 VOC标签） 2.输电线…

人工智能 2023年7月3日
0084

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30