逻辑(logistic)回归算法原理及两种代码实现

2023年6月16日下午9:53 • 人工智能 • 阅读 88

一. 原理简单介绍

logistic回归是一种基于线性回归模型的分类算法，常用于数据挖掘，疾病自动诊断，经济预测等领域。例如，探讨引发疾病的危险因素，并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例，选择两组人群，一组是胃癌组，一组是非胃癌组，两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌，值为”是”或”否”，自变量就可以包括很多了，如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的，也可以是分类的。然后通过logistic回归分析，可以得到自变量的权重，从而可以大致了解到底哪些因素是胃癌的危险因素。同时根据该权值可以根据危险因素预测一个人患癌症的可能性。
那么为什么线性回归可以实现分类呢？
这里引进一个sigmoid函数

该函数图像如下：

我们令z = w 1 x 1 + w 2 x 2 + . . . w n x n + b z = w_{1}x_{1}+ w_{2}x_{2}+ … w_{n}x_{n}+b z =w 1 x 1 +w 2 x 2 +…w n x n +b,我们规定最后若输出g(z)>0.5，则记为1。输出g(z)

; 二.基于numpy的算法实现

①定义sigmoid函数和参数初始化函数

def sigmoid(x):

    z = 1/(1+np.exp(-x))
    return z

def initialize_params(dims):

    w = np.zeros((dims,1))
    b = 0
    return w,b

②定义逻辑回归模型主体

def logistic(X,y,w,b):

    num_train = X.shape[0]
    num_features = X.shape[1]
    y_hat = sigmoid(np.dot(X,w)+b)
    loss = -1/num_train*np.sum(y*np.log(y_hat)+(1-y)*np.log(1-y_hat))
    dw = np.dot(X.T,(y_hat-y))/num_train
    db = np.sum(y_hat-y)/num_train
    loss = np.squeeze(loss)
    return y_hat,loss,dw,db

③定义模型训练过程（梯度下降）

def logistic_train(X,y,learning_rate,epochs):

    w,b = initialize_params((X.shape[1]))
    loss_list = []
    for i in range(epochs):
        y_hat,loss,dw,db = logistic(X,y,w,b)
        w = w-learning_rate*dw
        b = b-learning_rate*db
        if i%100 == 0:
            loss_list.append(loss)
            print('epoch %d loss %f '%(i,loss))
    params = {'w':w,'b':b}
    grads = {'dw':dw,'db':db}
    return loss_list,params,grads

④定义预测函数

def predict(X,params):

    predict = sigmoid(np.dot(X.params['w'])+params['b'])
    for i in range(len(predict)):
        if predict[i] > 0.5:
            predict[i] = 1
        else:
            predict[i] = 0
    return predict

⑤ 生成模拟二分类数据集

import numpy as np
from sklearn.datasets import make_classification
X,labels = make_classification(n_samples=100,
                              n_features=2,
                              n_redundant=0,
                              n_informative=2,
                               random_state=1,
                              n_clusters_per_class=2)
rng = np.random.RandomState(2)
X += 2*rng.uniform(size=X.shape)

此处可用其他分类数据集代替。

⑥划分训练集和测试集

offset = int(X.shape[0]*0.8)
X_train,y_train = X[:offset],labels[:offset]
X_test,y_test = X[offset:],labels[offset:]
y_train = y_train.reshape((-1,1))
y_test = y_test.reshape((-1,1))

⑦模型训练和预测

loss_list,params,grads = logistic_train(X_train,y_train,0.01,1000)
print(params)
y_pred = predict(X_test,params)
print(y_pred)

⑧模型效果评估

from sklearn.metrics import classification_report
print(classification_report(y_test,y_pred))

三.基于sklearn的算法实现

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
clf = LogisticRegression(random_state=0).fit(X_train,y_train)
y_pred = clf.predict(X_test)
print(y_pred)
print(classification_report(y_test,y_pred))

Original: https://blog.csdn.net/weixin_46943790/article/details/122806885
Author: 阳阳养羊羊
Title: 逻辑(logistic)回归算法原理及两种代码实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/626873/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

SwinIR实战：详细记录SwinIR的训练过程

文章目录 SwinIR实战：详细记录SwinIR的训练过程。下载训练代码数据集训练完整的代码： SwinIR实战：详细记录SwinIR的训练过程。论文地址：https:/…

人工智能 2023年7月26日
0052
TPH-YOLOv5: （中文翻译）

目录 Abstract Introduction 2. Related Work 2.1. Data Augmentation 2.2. Multi-Model Ensemble …

人工智能 2023年6月26日
0083
零基础入门金融风控-贷款违约预测-机器学习-数据分析

零基础入门金融风控-贷款违约预测一、赛题数据赛题以预测用户贷款是否违约为任务，数据集报名后可见并可下载，该数据来自某信贷平台的贷款记录，总数据量超过120w，包含47列变量信息…

人工智能 2023年7月16日
0087
AI 作画《Concept Art概念艺术》| 用stable diffusion生成

前言 “Concept Art”是一个艺术门类，即所谓”概念艺术”、”概念设计”，也称为”初步设…

人工智能 2023年7月30日
0067
是否可以在逻辑回归模型中引入非线性关系

问题介绍在逻辑回归模型中，我们通常假设自变量与因变量之间的关系是线性的。然而，有时候实际问题中的变量之间的关系可能并不是线性的，这时候是否可以在逻辑回归模型中引入非线性关系呢？本…

人工智能 2023年12月31日
0023
Pandas知识点-详解分组函数groupby

Pandas知识点-详解分组函数groupby 在数据分析时，经常需要将数据分成不同的群组，pandas中的groupby()函数可以完美地完成各种分组操作。分组是根据DataFr…

人工智能 2023年7月6日
0087
JDBC

JDBC连接数据库的方式方式一： public void test1() { try { Driver driver = new Driver(); //获得一个驱动 //连接数…

人工智能 2023年6月4日
00123
大数据工程师、数据挖掘师和数据分析师有啥区别

随着互联网技术的不断提升，数据已经成为各大企业新的战场，而对于从业者来说，如果你对数据科学领域的工作感兴趣的话，肯定首先要了解一下数据科学领域都有哪些岗位。从岗位性质和主要工作内容…

人工智能 2023年7月18日
0041
基于tensorflow2.0+使用bert获取中文词、句向量并进行相似度分析

本文基于 transformers库，调用bert模型，对中文、英文的稠密向量进行探究开始之前还是要说下废话，主要是想吐槽下，为啥写这个东西呢？因为我找了很多文章要么不是不清晰，…

人工智能 2023年5月23日
00104
“WebDriver“ object has no attribute “find_element_by_css_selector“

今天用selenium写爬虫, 想用selector查找元素定位的时候报了这样的错误，如图：解决办法方法一：查看我的selenium的版本是最新的。把降版本降到 3.141.0…

人工智能 2023年7月4日
0077
OpenCV_python编程

文章目录前言 1、OpenCV读图及显示 2、自定义函数读图及显示 3、读取摄像头图片 4、裁剪 5、通道分离及通道融合 6、边界填充 7、数值计算 8、第二种显示图片方式 9、…

人工智能 2023年7月19日
0046
年终总结系列3|信贷风控的贷后分析报告总结

序言：信贷用户的贷后表现是信贷产品体系一项非常重要的模块，贷后数据与贷前数据的指标分析，不仅可以直接反映出产品的整体收益情况，而且是很多数据挖掘与模型开发等工作任务的前提条件。现以…

人工智能 2023年7月18日
0083
DDPG代码实现

DDPG代码实现文章目录 * – DDPG代码实现 – + 代码及解释 + * 1.超参数设定 * 2.ReplayBuffer的实现 * 3.Agent…

人工智能 2023年5月25日
0089
超详细的Python matplotlib 绘制柱状图

复习回顾 Python 为数据展示提供了大量优秀的功能包，其中 matplotlib 模块可以方便绘制制作折线图、柱状图、散点图等高质量的数据包。关于 matplotlib 模块…

人工智能 2023年7月14日
0066
利用Pandas读取多个文件中相同列的数据并合并到新的表格中

import numpy as npimport pandas as pdimport xlrdimport globimport osfrom tqdm import tqdmi…

人工智能 2023年7月7日
0046
对比度增强方法

对比度增强技术该示例展示几种不同的对比度增强方法。有以下三种方法用于对比度增强：imadjust, histeq, 和 adapthisteq。该示例比较这三种方法在增强灰度图片和…

人工智能 2023年6月21日
00136

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30