基于逻辑回归算法的心脏病不平衡数据分类代码实现

2023年6月17日下午1:15 • 人工智能 • 阅读 79

1 .数据说明

数据来源Kaggle网站中引用的CDC数据，原数据大概有300个变量，这里大约使用20个，严重不平衡数据，约为1:9。该代码通过对进行清洗，标准化，欠采样（Undersampling）进行数据对平衡工作，进行特征分析，最后用逻辑回归、随机森林、决策树、高斯贝叶斯算法进行模型的构建和对心脏病进行预测，进行了四种算法的比较，最后通过逻辑回归算法得到最好的效果。也印证了原数据集通过权重或欠采样以及逻辑回归的理论。代码已上传到Github。

2 .数据预处理

（1）因为只有一组数据，所以我将其1:1划分为数据集和验证集（目的只是想如果后面用对其做标签，最后实际用train_test_split（）函数的test_size实现）

（2）确定数据大小

共319794条数据 19列变量

（3）确定各变量的种类数

（4）确定各变量的type以便接下来的数据处理

对于浮点型（float）的数据，我们可以看一下数据分布

（5）数据清洗

因为是kaggle的clean数据，因此不需要删除空值，具体实现如上。

（6）HeartDisease 是我们的分类最终结果也就是y值需要转换成float类型

（7）把特征编码将特征转换为数字形式，类似于one-hot 在这里不使用array数组，因为没必要。

3.特征分析

heatmap图：

不平衡数据的欠采样 将两个类别变为 1 : 1

5.数据标准化

6.模型构建

固定random_state后，每次构建的模型是相同的、生成的数据集是相同的、每次的拆分结果也是相同的

7.分类预测

可以得到逻辑回归的roc_auc值最高，因此选择逻辑回归模型完成分类预测。

Original: https://blog.csdn.net/YinuoWen/article/details/123695370
Author: 快乐星球2022
Title: 基于逻辑回归算法的心脏病不平衡数据分类代码实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/630187/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

30系显卡配置tensorflow1.x环境

说明：nvidia 30系显卡仅支持cuda11.0及以上版本，对应cudnn最低版本为8.0，tf版本为2.4.0在win系统中无法实现30系显卡运行tf1的代码该教程使用的环…

人工智能 2023年5月24日
00103
opencv 仿射变换

文章目录一、仿射变换二、求解仿射变换三、opencv 函数支持 * 1.getAffineTransform()函数 2.getRotationMatrix2D()函数 3….

人工智能 2023年5月26日
0076
什么是Framework在AI算法中的作用

什么是Framework在AI算法中的作用在AI算法中，Framework（框架）是一种基于软件的整体结构，它提供了一套标准方法和工具，以便开发人员能够更轻松地构建、训练和部署机…

人工智能 2024年1月1日
0046
r语言实现岭回归_R语言中回归模型的一些总结2

主要内容来源为《R语言核心技术手册》。对线性模型假设的检验 car包中的 ncvTest()函数可以用来检验异方差性， lmtest包中的 bptest()函数可以实现同样的功能…

人工智能 2023年6月18日
0074
ubuntu18.04使用Anaconda安装pytorch和tensorflow

ubuntu18.04使用Anaconda安装pytorch和tensorflow 1、安装CUDA11.1版本 wget https://developer.download.n…

人工智能 2023年5月25日
00108
【图像修复】论文阅读笔记 —– 《Image inpainting based on deep learning: A review》

文章目录 * – 原文下载地址 – 概述 – 单阶段修复 – + 单结果修复 + 多元修复方法 – 渐进图像修复 &#8…

人工智能 2023年6月17日
0056
40、NeRF in the Dark

简介主页：https://bmild.github.io/rawnerf/index.html 知识点补充：rawRGB与RGB rawRGB 图像采集的过程为：光照在成像物体被…

人工智能 2023年6月21日
0081
【pytorch实战学习】第七篇：tensorboard可视化介绍

【pytorch学习实战】第一篇：线性回归【pytorch学习实战】第二篇：多项式回归【pytorch学习实战】第三篇：逻辑回归【pytorch学习实战】第四篇：MNIST数…

人工智能 2023年5月23日
00115
深度学习系列教程——Tensorflow下载与安装（懂的分享，才是真正的互联网人）

我们以 Windows 10 系统为例讲解如何安装 TensorFlow。这里我们介绍两种安装方式，一种是通过 pip 包管理器进行安装，另一种是通过 Anaconda 安装。使…

人工智能 2023年5月25日
0085
【PyTorch】torch.manual_seed() 详解

使用原因：在需要生成随机数据的实验中，每次实验都需要生成数据。设置随机种子是为了确保每次生成固定的随机数，这就使得每次实验结果显示一致了，有利于实验的比较和改进。使得每次运行该…

人工智能 2023年6月12日
0078
随机森林（Random Forest）算法

目录简介决策树概念定义如何构建？优点缺点集成学习特点错误率种类自主采样法（Boostrap Sampling）概念拓展随机森林概念优点缺点简介…

人工智能 2023年6月12日
00106
【EMNLP 2021】Learning from Noisy Labels for Entity-Centric Information Extraction

原文链接：https://arxiv.org/abs/2104.08656代码：https://github.com/wzhouad/NLL-IE Abstract & I…

人工智能 2023年5月28日
0074
RK3568平台开发系列讲解（安卓适配篇）Android 源码的 device 目录

🚀返回专栏总目录; 文章目录一、device 目录简介二、Android 产品配置各种变量沉淀、分享、成长，让自己和他人都能有所收获！😄 📢本篇将介绍 Android 源码的…

人工智能 2023年6月26日
0098
知识图谱de构建与应用（七）：大规模知识图谱预训练

7.1 知识预训练概述 7.1.1 预训练语言模型 7.1.2 知识图谱中的结构化上下文信息 7.1.3 基于知识增强的预训练模型 7.1.4 预训练知识图谱模型与预训练语言模型的…

人工智能 2023年6月10日
0056
stata 空间杜宾模型_Stata空间计量：STAR时空自回归模型

? 连享会主页： lianxh.cn New！ lianxh 命令发布了： GIF 动图介绍随时搜索 Stata 推文、教程、手册、论坛，安装命令如下： . ssc install…

人工智能 2023年6月18日
0075
transformer学习

关注到旷视最近发表（2021.09.15）的一篇目标检测论文，把NLP领域常用的transformer应用到目标检测方向，与以前基于CNN的anchor-based和anchor-…

人工智能 2023年7月12日
0062

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

基于逻辑回归算法的心脏病不平衡数据分类代码实现

大家都在看