机器学习项目实战——04逻辑回归算法之糖尿病预测项目

2023年6月16日上午3:35 • 人工智能 • 阅读 229

数据集的详细说明如下：

从最后一列的输出值可以看出为0或1，属于二分类，因此可以使用逻辑回归实现。

用pandas读取csv文件，前面几个都用的是np.genfromtxt文件读取。个人觉得没什么大的区别，pandas用的更多吧，常用于数据分析。

数据分析基本过程：①提出问题，②理解数据需求，③数据清洗， ④构建模型。⑤数据可视化；

数据清洗的基本过程：①选择子集，②列名重命名，③缺失数据处理，④数据类型转换，⑤数据排序，⑥异常值处理。

1. 读取数据

读取前5行
diabetes_data = pd.read_csv('diabetes.csv')
print(diabetes_data.head())

2.查看数据形状

print(diabetes_data.shape)

共有768行9列

3.查看数据信息

print(diabetes_data.info(verbose=True))

可以看出每一个数据都是768行，没有缺失值。后面是数据类型。

4.查看数据描述

print(diabetes_data.describe())

5.重命名（rename）以及缺失值处理

本实验中用不到，所以不做此变换。感兴趣的可查看

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法

6.查看标签分布

print(diabetes_data.Outcome.value_counts())
使用柱状图的方式画出标签个数统计
p=diabetes_data.Outcome.value_counts().plot(kind="bar")
plt.show()

属于0这一类的有数据500个，属于1这一类的有268个数据

7.可视化数据分布

p=sns.pairplot(diabetes_data, hue = 'Outcome')
plt.show()

结论：这里画的图主要是两种类型，直方图和散点图。

单一特征对比的时候用的是直方图，不同特征对比的时候用的是散点图，显示两个特征的之间的关系。

观察数据分布我们可以发现一些异常值，比如Glucose葡萄糖，BloodPressure血压，SkinThickness皮肤厚度，Insulin胰岛素，BMI身体质量指数这些特征应该是不可能出现0值的。

8.异常值处理

colume = ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']
diabetes_data[colume] = diabetes_data[colume].replace(0,np.nan)

用空值替换。

missingno可视化空值

pip install missingno
import missingno as msno
p=msno.bar(diabetes_data)
plt.show()

可以看出有两列很多空值，一般对于这种空值很多的数据直接删除。

对于有一些缺失值的数据，可以进行填充，中位数或平均值

设定阀值
thresh_count = diabetes_data.shape[0]*0.8
若某一列数据缺失的数量超过20%就会被删除
diabetes_data = diabetes_data.dropna(thresh=thresh_count, axis=1)

导入插补库
from sklearn.preprocessing import Imputer
对数值型变量的缺失值，我们采用均值插补的方法来填充缺失值
imr = Imputer(missing_values='NaN', strategy='mean', axis=0)
colume =  ['Glucose', 'BloodPressure', 'BMI']
进行插补
diabetes_data[colume] = imr.fit_transform(diabetes_data[colume])

9.查看数据的相关性

plt.figure(figsize=(12,10))
画热力图，数值为两个变量之间的相关系数
p=sns.heatmap(diabetes_data.corr(), annot=True)
plt.show()

对称。只看一半，一般只看较大的值，相关性较大

整体代码

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

载入数据
diabetes_data = pd.read_csv('diabetes.csv')
print(diabetes_data.head())

数据信息
print(diabetes_data.info(verbose=True))

数据描述
print(diabetes_data.describe())

数据形状
print(diabetes_data.shape)

查看标签分布
print(diabetes_data.Outcome.value_counts())
使用柱状图的方式画出标签个数统计
p=diabetes_data.Outcome.value_counts().plot(kind="bar")
plt.show()

可视化数据分布
p=sns.pairplot(diabetes_data, hue = 'Outcome')
plt.show()

'''
这里画的图主要是两种类型，直方图和散点图。
单一特征对比的时候用的是直方图，不同特征对比的时候用的是散点图，显示两个特征的之间的关系。
观察数据分布我们可以发现一些异常值，比如Glucose葡萄糖，BloodPressure血压，SkinThickness皮肤厚度，Insulin胰岛素，BMI身体质量指数这些特征应该是不可能出现0值的。
'''

把葡萄糖，血压，皮肤厚度，胰岛素，身体质量指数中的0替换为nan
colume = ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']
diabetes_data[colume] = diabetes_data[colume].replace(0,np.nan)

p=msno.bar(diabetes_data)
plt.show()

设定阀值
thresh_count = diabetes_data.shape[0]*0.8
若某一列数据缺失的数量超过20%就会被删除
diabetes_data = diabetes_data.dropna(thresh=thresh_count, axis=1)

p=msno.bar(diabetes_data)
plt.show()

导入插补库
from sklearn.preprocessing import Imputer
对数值型变量的缺失值，我们采用均值插补的方法来填充缺失值
imr = Imputer(missing_values='NaN', strategy='mean', axis=0)
colume =  ['Glucose', 'BloodPressure', 'BMI']
进行插补
diabetes_data[colume] = imr.fit_transform(diabetes_data[colume])

p=msno.bar(diabetes_data)
plt.show()

plt.figure(figsize=(12,10))
画热力图，数值为两个变量之间的相关系数
p=sns.heatmap(diabetes_data.corr(), annot=True)
plt.show()

把数据切分为特征x和标签y
x = diabetes_data.drop("Outcome",axis = 1)
y = diabetes_data.Outcome

切分数据集，stratify=y表示切分后训练集和测试集中的数据类型的比例跟切分前y中的比例一致
比如切分前y中0和1的比例为1:2，切分后y_train和y_test中0和1的比例也都是1:2
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3, stratify=y)

LR = LogisticRegression()
LR.fit(x_train,y_train)

predictions = LR.predict(x_test)
print(classification_report(y_test, predictions))

整体结构大概在80%的正确率

Original: https://blog.csdn.net/weixin_45823221/article/details/124324099
Author: 平行世界里的我
Title: 机器学习项目实战——04逻辑回归算法之糖尿病预测项目

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/619329/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

MediaPlayer

frameworks\base\media\java\android\media\MediaPlayer.java 首先明确一点：MediaPlayer只是向java层暴露了具体播…

人工智能 2023年6月27日
0064
ROS学习：cv_bridge与opencv版本冲突三种解决方案

cv_bridge与opencv版本冲突三种解决方案 1 问题描述： 2 解决方案： * 2.1 不使用cv_bridge包 2.2 令cv_bridge使用opencv版本切换为…

人工智能 2023年6月2日
00106
心情不好的时候，用 Python 画棵樱花树送给自己吧

最近发生了很多事情，工作不开心，爱情无果而终，身边的小伙伴陆陆续续离职。虽然都不是会一下子击垮自己的事情，但是积攒起来，还是会有突然感到疲惫和倦怠的时候，有一种不知道下一步要走向哪…

人工智能 2023年7月3日
0070
IDEA断点调试快捷键

1.在开发中，新手程序员在查找错误时，这时老程序员就会温馨提示，可以用断点调试，步一步的看源码执行的过程，从而发现错误所在。2.重要提示: 在断点调试过程中，是运行状态，是以对象的…

人工智能 2023年6月29日
0041
【深蓝学院：语音信号处理笔记】前端语音处理技术综述

【深蓝学院：语音信号处理笔记】前端语音处理技术综述常见设备的语音处理技术 1.手机语音通话降噪至少俩个麦克风，一个在手机底部，一个在手机顶部。语音通话时，到达底部与顶部麦克风的语…

人工智能 2023年5月23日
0091
[附源码]计算机毕业设计的手机电商网站Springboot程序

项目运行环境配置： Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX （Webstorm也行）+ Eclispe（IntelliJ IDEA,Ecli…

人工智能 2023年7月30日
0045
【ROS】消息类型 —— sensor_msgs/PointCloud分析

ROS消息类型系列之sensor_msgs/PointCloud分析左侧专栏还在更新ROS功能包其他源码分析，可以关注一波啦查看的方法有两种命令（rosmsg show与ros…

人工智能 2023年6月11日
0092
Transformer主干网络——PVT_V1保姆级解析

前言论文地址：PVT1代码地址：github作者很厉害…各种cv的顶会收割机… 系列文章 Transformer主干网络——ViT保姆级解析Transfo…

人工智能 2023年5月26日
0084
如何使用预处理技术来减少过拟合

解决过拟合问题的预处理技术本文将详细介绍如何使用预处理技术来减少过拟合问题。过拟合是机器学习中常见的问题，当模型在训练数据上表现良好，但在测试数据上表现不如预期时，就会发生过拟合…

人工智能 2023年12月30日
0041
语音识别(ASR)论文优选：端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition

声明：平时看些文章做些笔记分享出来，文章中难免存在错误的地方，还望大家海涵。搜集一些资料，方便查阅学习：http://yqli.tech/page/speech.html。语音合成…

人工智能 2023年5月25日
0064
python人名统计_「姓名分析」Python|美国婴儿姓名分析 – seo实验室

姓名分析 01 起我们拿到一份1880-2016这136年间美国婴儿取名的数据(数据源在这里下载)，数据总共有189万条，57.7M的大小，字段如下：下面我们使用Python3…

人工智能 2023年7月7日
0059
常用的激活函数

激活函数的作用引入非线性因为神经网络中每一层的输入输出都是一个线性求和的过程，下一层的输出只是承接了上一层输入函数的线性变换，所以如果没有激活函数，那么无论你构造的神经网络…

人工智能 2023年6月28日
00117
顺丰同城前端一面

顺丰同城前端一面文章目录顺丰同城前端一面 * – 1.自我介绍 2.选择前端的理由 3.用css实现三角形 4.垂直水平居中实现 5.基本数据类型，引用数据类型 6…

人工智能 2023年6月29日
0061
（免费分享）基于springboot财务管理系统

开发工具IDEA,数据库mysql5.7 源码获取：关注文末gongzhonghao，输入006领取下载链接 package com.bjpowernode.finance.con…

人工智能 2023年6月26日
0079
DTMF信号检测分析（Matlab)

基于Matlab平台的DTMF信号检测 1.将录制好的一段按键音读入到Matlab平台； 2.设计带通滤波器，去噪处理（可选）； 3.将给个按键音对应的信号一次分割； 4.计算分割…

人工智能 2023年6月17日
0081
tensorflow笔记（10）自制数据集Generate（上）

啊哦~你想找的内容离你而去了哦内容不存在，可能是由于以下原因造成的： [En] The content does not exist and may be caused by t…

人工智能 2023年5月24日
0058

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31