【超详细】逻辑回归之kaggle糖尿病预测实战

2023年7月13日下午9:03 • 人工智能 • 阅读 47

逻辑回归——kaggle糖尿病预测实战
【实验所需数据私聊可发】

1、糖尿病是一组以高血糖为特征的代谢性疾病，由于胰岛素分泌缺陷或其生物作用受损则引起高血糖。长期存在的高血糖，会导致身体各种组织，特别是眼、肾、心脏、血管、神经的慢性损害和功能障碍。
2、通过2小时血浆葡萄糖浓度、2小时血清胰岛素、身体质量指数等特征来预测某个人是否罹患糖尿病，在众名的因素中，找到最能导致该病的关键特征。

1.1#数据导入

import warnings
warnings.filterwarnings('ignore')
data=np.loadtxt(r"D:\pima-indians-diabetes.data.csv",delimiter=",",skiprows=1,dtype=np.float)
data

运行结果：

array([[  6.   , 148.   ,  72.   , ...,   0.627,  50.   ,   1.   ],
       [  1.   ,  85.   ,  66.   , ...,   0.351,  31.   ,   0.   ],
       [  8.   , 183.   ,  64.   , ...,   0.672,  32.   ,   1.   ],
       ...,
       [  5.   , 121.   ,  72.   , ...,   0.245,  30.   ,   0.   ],
       [  1.   , 126.   ,  60.   , ...,   0.349,  47.   ,   1.   ],
       [  1.   ,  93.   ,  70.   , ...,   0.315,  23.   ,   0.   ]])

1.2#分离特征变量和分类变量

X=data[:,:-1]
y=data[:,-1]

1.3#特征标准化

mu=X.mean(axis=0)
std=X.std(axis=0)
X=(X-mu)/std

1.4#添加全1列


x_ones=np.ones((X.shape[0],1))
X=np.hstack((X,x_ones))

1.5#拆分数据

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=8)

1.6#将因变量转为列向量

y_train=y_train.reshape(-1,1)
y_test=y_test.reshape(-1,1)
print(y_train.shape,y_test.shape)

结果：

(537, 1) (231, 1)

1.7#初始化theta值

theta=np.ones([X_train.shape[1],1])
theta

结果：

array([[1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.]])

1.8#设置步长值

alpha=0.001

1.9#定义sigmoid函数

def sigmoid(z):
    s=1.0/(1+np.exp(-z))
    return s
num_iters=10000
m=200

for i in range(num_iters):
    h=sigmoid(np.dot(X_train,theta))
    theta=theta-alpha*np.dot(X_train.T,(h-y_train))/m
print(theta)

结果为：

[[ 0.39210287]
 [ 1.10657783]
 [-0.24092243]
 [ 0.0223229 ]
 [-0.17137676]
 [ 0.61819121]
 [ 0.45880179]
 [ 0.12971106]
 [-0.84498429]]

1.10#预测

pred_y=sigmoid(np.dot(X_test,theta))

1.11#预测结果二值化

pred_y[pred_y>0.5]=1
pred_y[pred_y0.5]=0

print(pred_y.reshape(1,-1))

结果为：

[[0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 1. 1.

  0. 0. 0. 0. 0. 1. 1. 1. 1. 0. 1. 1. 0. 0. 0. 1. 0. 1. 1. 0. 0. 0. 1. 0.

  0. 1. 0. 0. 0. 1. 0. 1. 0. 1. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.

  0. 0. 1. 0. 1. 0. 0. 1. 0. 0. 1. 0. 1. 0. 0. 0. 1. 0. 1. 0. 0. 1. 0. 0.

  0. 0. 1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.

  0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1. 1. 0. 1. 1. 0. 1.

  0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0.

  1. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 0. 1. 0. 0. 0. 1. 0. 1. 0.

  0. 0. 0. 1. 1. 1. 0. 0. 0. 0. 1. 0. 0. 0. 1. 0. 0. 0. 1. 0. 0. 1. 0. 0.

  0. 0. 0. 0. 1. 0. 1. 1. 1. 0. 1. 0. 1. 0. 0.]]

print(y_test.reshape(1,-1))

结果为：

[[0. 1. 1. 0. 1. 0. 1. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1.

  0. 0. 0. 0. 0. 1. 1. 1. 1. 0. 0. 1. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 1. 0.

  0. 1. 0. 0. 1. 1. 1. 1. 0. 0. 1. 0. 1. 1. 1. 0. 1. 1. 0. 0. 0. 0. 0. 1.

  0. 0. 1. 0. 0. 0. 0. 1. 0. 1. 0. 0. 1. 0. 0. 0. 1. 0. 1. 0. 0. 0. 0. 0.

  0. 0. 1. 1. 0. 0. 0. 1. 1. 0. 1. 0. 0. 1. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0.

  1. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 0. 1. 1. 1. 1.

  0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 1. 0. 0. 0. 1. 0.

  1. 1. 1. 0. 1. 1. 0. 1. 0. 0. 0. 0. 1. 0. 1. 0. 1. 0. 0. 1. 1. 0. 1. 1.

  1. 0. 0. 0. 1. 1. 0. 0. 1. 0. 1. 0. 1. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0.

  0. 0. 0. 1. 1. 0. 0. 0. 1. 0. 1. 0. 1. 0. 1.]]

1.12#预测准确率：

print("预测准确率为：",np.sum(pred_y==y_test)/len(y_test))

结果为：

预测准确率为： 0.7878787878787878

【sklearn 实现逻辑回归】：
2.1#导入数据

data = np.loadtxt(r"D:\pima-indians-diabetes.data.csv",deliniter = ",",skiprows = 1,dtype = np.float)

2.2#分离特征变量和分类变量

X = data[:,:-1]
y = data[:,-1]

2.3#特征标准化

mu = X.mean(axis = 0)
std = X.std(axis = 0)
X = (X - mu) / std

2.4#拆分训练集和测试集

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size = 0.3,random_state = 8

from sklearn.linear_model import LogisticRegression

logist=LogisticRegression()

logist.fit(X_train,y_train)

y_predict=logist.predict(X_test)
print(y_predict)

结果为：

[0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 1. 1.

 0. 0. 0. 0. 0. 1. 1. 1. 1. 0. 1. 1. 0. 0. 0. 1. 0. 1. 1. 0. 0. 0. 1. 0.

 0. 1. 0. 0. 0. 1. 0. 1. 0. 1. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.

 0. 0. 1. 1. 1. 0. 0. 1. 0. 0. 1. 0. 1. 0. 0. 0. 1. 0. 1. 0. 0. 1. 0. 0.

 0. 0. 1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.

 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1. 1. 0. 1. 1. 0. 1.

 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.

 1. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 0. 1. 0. 0. 0. 1. 0. 1. 0.

 0. 0. 0. 1. 1. 1. 0. 0. 0. 0. 1. 0. 0. 0. 1. 0. 0. 0. 1. 0. 0. 1. 0. 0.

 0. 0. 0. 0. 1. 0. 1. 1. 1. 0. 1. 0. 1. 0. 0.]

计算模型准确率

print("准确率:",np.sum((y_predict==y_test))/len(y_test))

结果为：

准确率: 0.7792207792207793

Original: https://blog.csdn.net/weixin_50989751/article/details/123798177
Author: 笑裹群鏖
Title: 【超详细】逻辑回归之kaggle糖尿病预测实战

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/690614/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习之DCN-v2

这篇文章发表在2019的CVPR上，是Deformable Convolution Network的进阶版本——DCN-v2，通过对DCN的两处改进来增加卷积神经网络的适应性与灵活…

人工智能 2023年7月14日
0064
什么是K最近邻回归

什么是K最近邻回归？ K最近邻回归是一种基于样本的监督学习方法，用于解决回归问题。它通过使用最近邻算法找到与测试样本最接近的训练样本，然后根据这些最近邻样本的输出值来预测测试样本的…

人工智能 2023年12月31日
0046
深度学习中一些注意力机制的介绍以及pytorch代码实现

文章目录前言注意力机制 * 软注意力机制 – 代码实现硬注意力机制多头注意力机制 – 代码实现参考前言因为最近看论文发现同一个模型用了不同的注…

人工智能 2023年7月21日
0064
麻了，别再为难软件测试员了

前言有不少技术友在测试群里讨论，近期的面试越来越难了，要背的八股文越来越多了,考察得越来越细，越来越底层，明摆着就是想让我们徒手造航母嘛！实在是太为难我们这些测试工程师了。这不…

人工智能 2023年7月4日
0060
【项目实战】Python实现用PSO粒子群优化算法对KMeans聚类模型进行优化项目实战

说明：这是一个机器学习实战项目（附带数据+代码+文档+代码讲解），如需数据+代码+文档+代码讲解可以直接到文章最后获取。 1.项目背景粒子群优化算法(Particle Swa…

人工智能 2023年5月31日
0070
模型预测控制（MPC）解析（十）：弹簧质量阻尼的MPC仿真

之前的博客都是讲的理论，现在以一个实际控制例子进行仿真分析。弹簧质量阻尼系统是最典型的二阶系统，本文就用MPC算法来控制弹簧质量阻尼系统。首先建立弹簧质量阻尼系统的模型，然后将连续…

人工智能 2023年6月2日
0090
图像增强（空间域）——灰度变换

灰度变换 * – 直接灰度变换 – + * 说明 * 原理 * 常见变换 – 直方图 – + * 说明 * 性质 * 直方图均衡化 …

人工智能 2023年6月22日
0095
明火烟雾目标检测项目部署（YoloV5+Flask）

明火烟雾目标检测项目部署文章目录明火烟雾目标检测项目部署 1. 拉取Docker PyToch镜像 2. 配置系统环境 * 2.1 更换软件源 2.2 下载vim 2.3 解决…

人工智能 2023年7月9日
0092
十九.在ROS系统基于点云和视觉图像数据融合构建3D点云场景

一. 背景介绍现在很多智能导航场景都涉及到激光(毫米波,固态等)雷达和相机视觉信息融合,这里激光雷达一般都是指多线激光雷达,16线,64线,甚至更多线数. 但多线激光雷达动不动数…

人工智能 2023年7月9日
0081
密度图+回归线，相关图这样画？seaborn中 joinplot 结合核密度图和回归图（KDE+regplot）

因为jointplot就是联合绘图，通常边缘上绘制分布图，中间绘制其它的（比如核密度图），所以如何去除边缘的分布图，再叠加一条回归线呢,可以用于替换常规散点图表示相关图的方式，如下…

人工智能 2023年7月7日
0062
Pytorch中对tensor进行reshape的两种常用方法 .view() & .reshape()

在使用Pytorch时，我们经常需要对一些tensor进行形状的改变以满足神经网络对输入数据的维度要求，我们最常用的两种方式就是 .view() 以及 .reshape(), 除此…

人工智能 2023年7月21日
0051
ModuleNotFoundError: No module named ‘transformers‘，已经安装了transformers库

明明已经安装了transformers库了，运行代码时却说找不到。先说明我的环境。系统：windowsIDE：pycharm框架：PyTorch包管理：Anaconda 我用的w…

人工智能 2023年7月5日
0075
高压开关柜/环网箱局放在线监测设备(局部放电在线监测装置设备)的分类与选型

近年来随着配网自动化与配电物联网的发展，电网公司对在线运行的电网设备进行状态监测，而局放主设备运行状态的最主要信息。及时有效的对开关柜的局放监测，可以避免事故的发生，减小损失。但检…

人工智能 2023年7月17日
0050
Python OpenCv 实现实时人脸识别及面部距离测量

Python OpenCv 实现实时人脸识别及面部测距准备在进行人脸面部测距开发前，先在你的Python中分别安装4个库，分别为cvzone库，mediapipe库，tens…

人工智能 2023年5月23日
0061
数学领域分类

我们都知道，数学在许多领域都是必不可少的，包括自然科学、工程学、医学、金融、社会科学等等，数学涵盖了越来越多的学科和越来越多的领域，因此有必要对不同的数学领域进行分类。而且，随着数…

人工智能 2023年7月2日
0073
Flink cdc 介绍及使用 FlinkCDC读取mysql 及 jdbc 连接参数配置

Flink cdc 介绍及使用 FlinkCDC读取mysql 及 jdbc 连接参数配置、官方案例 * – 1. Flink cdc 介绍 – 2. 常见…

人工智能 2023年7月30日
00129

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【超详细】逻辑回归之kaggle糖尿病预测实战

计算模型准确率

大家都在看