机器学习—–Logistic回归

2023年6月17日上午4:53 • 人工智能 • 阅读 63

一简介
二理论基础
2.1 拟合和回归
2.2 逻辑回归假设函数
2.3 成本函数
2.4 参数学习(梯度下降)
三 Logistic回归的一般过程
四基于Logistic回归和Sigmoid函数的分类
4.1 logistic回归的优缺点
4.2 Sigmoid函数
五基于最优化方法的最佳回归系数确定
5.1 理论公式
5.2 训练算法：使用梯度上升找到最佳参数
5.3 分析数据：画出决策边界
5.4 训练算法随机梯度上升
5.5 改进的随机梯度上升算法
六示例：从疝气病症预测病马的死亡率
6.1 代码实现
6.2 实现效果
七小结

一、简介

逻辑斯谛回归（logistic regression）是统计学习中的经典分类方法，属于对数线性模型，所以也被称为对数几率回归。这里要注意，虽然带有回归的字眼，但是该模型是一种分类算法，逻辑斯谛回归是一种线性分类器，针对的是线性可分问题。利用logistic回归进行分类的主要思想是：根据现有的数据对分类边界线建立回归公式，以此进行分类。这里的”回归”一词源于最佳拟合，表示要找到最佳拟合参数集，因此，logistic训练分类器时的做法就是寻找最佳拟合参数，使用的是最优化方法

二、理论基础

原理：如果直接将线性回归的模型扣到Logistic回归中，会造成方程二边取值区间不同和普遍的非直线关系。因为Logistic中因变量为二分类变量，某个概率作为方程的因变量估计值取值范围为0-1，但是，方程右边取值范围是无穷大或者无穷小。所以，才引入Logistic回归。

Logistic回归实质：发生概率除以没有发生概率再取对数。就是这个不太繁琐的变换改变了取值区间的矛盾和因变量自变量间的曲线关系。究其原因，是发生和未发生的概率成为了比值，这个比值就是一个缓冲，将取值范围扩大，再进行对数变换，整个因变量改变。不仅如此，这种变换往往使得因变量和自变量之间呈线性关系，这是根据大量实践而总结。所以，Logistic回归从根本上解决因变量要不是连续变量怎么办的问题。还有，Logistic应用广泛的原因是许多现实问题跟它的模型吻合。例如一件事情是否发生跟其他数值型自变量的关系。

2.1拟合和回归

拟合：拟合是已知点列，从整体上靠近它们；插值是已知点列并且完全经过点列；逼近是已知曲线，或者点列，通过逼近使得构造的函数无限靠近它们。

回归：越来越接近期望值的过程，回归于事物的本质

2.2 逻辑回归假设函数

首先我们要先介绍一下Sigmoid函数，也就是经常说的logistic函数，它的几何形状也就是一条sigmoid曲线（S型曲线）

该函数具有如下的特性：

当x趋近于负无穷时，y趋近于0；
当x趋近于正无穷时，y趋近于1；
当x= 0时，y=0.5。

在线性回归问题中，假设函数具有如下形式：

在逻辑回归问题中，将该函数的形式转换为如下形式：

其中，函数g称为S型函数，它具有如下形式：

那么，逻辑回归的假设函数的形式即为：

2.3 成本函数

之所以有成本函数，就是为了评估参数值W是否合理。成本函数就是被用来评价学习到的参数是否合理，也可以说是我们这个模型的错误有多大。

Mean Square Error(MSE)

MSE是最流行的成本函数之一MSE(w):=N1∑n=1N[yn−fw(Xn)]2

均方误差受离群值（即某一训练数据异常于其他训练数据的值）影响较大，没有很好的鲁棒性。

Mean Absolute Error(MAE)

MAE(w):=N1∑n=1N∣yn−fw(Xn)∣

相比于MSE，MAE在面对离群值时有更好的表现

2.4 参数学习(梯度下降)

三、Logistic回归的一般过程

1.收集数据：采用任意方法收集
2.准备数据：由于需要进行距离计算，因此要求数据类型为数值型。另外，结构化数据格式则最佳
3.分析数据：采用任意方法对数据进行分析
4.训练算法：大部分时间将用于训练，训练的目的是为了找到最佳的分类回归系数
5.测试算法：一旦训练步骤完成，分类将会很快。
6.使用算法：首先，我们需要输入一些数据，并将其转换成对应的结构化数值；接着，基于训练好的回归系数就可以对这些数值进行简单回归计算，判定它们属于哪个类别；在这之后，我们就可以在输出的类别上做一些其他分析工作。

四、基于Logistic回归和Sigmoid函数的分类

4.1 logistic回归的优缺点

优点：

(1)对率函数任意阶可导，具有很好的数学性质，许多现有的数值优化算法都可以用来求最优解，训练速度快;

(2)简单易理解，模型的可解释性非常好，从特征的权重可以看到不同的特征对最后结果的影响;

(3)适合二分类问题，不需要缩放输入特征;

(4)内存资源占用小，因为只需要存储各个维度的特征值;

(5)直接对分类可能性进行建模，无需事先假设数据分布，避免了假设分布不准确所带来的问题

(6)以概率的形式输出，而非知识0.1判定，对许多利用概率辅助决策的任务很有用

缺点：

(1)不能用逻辑回归去解决非线性问题，因为Logistic的决策面试线性的;

(2)对多重共线性数据较为敏感;

(3)很难处理数据不平衡的问题;

(4)准确率并不是很高，因为形式非常的简单(非常类似线性模型)，很难去拟合数据的真实分布;

(5) 逻辑回归本身无法筛选特征，有时会用gbdt来筛选特征，然后再上逻辑回归。

4.2 Sigmoid函数

在 2.2 逻辑回归假设函数的内中已经介绍，这里不在重复

五、基于最优化方法的最佳回归系数确定

Sigmoid函数的输入记为z，由下面公式得出:

5.2 训练算法：使用梯度上升找到最佳参数

有100个样本点，每个点包含两个数值型特征：X1和X2。在此数据庥上，将通过使用梯度上升法找到最佳回归系数，也就是拟合出Logistic回归模型的最佳参数。

源代码：

def loadDataSet():
    dataMat = [];labelMat = []
    fr = open('testSet.txt')
    for line in fr.readlines():
        lineArr = line.strip().split()
        dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])  x1&#xFF0C;x2&#xFF0C;&#x52A0;&#x4E0A;x0 = 1&#xFF0C;
        labelMat.append(int(lineArr[2]))
    return dataMat, labelMat

def sigmoid(inX):
    return 1.0/(1 + exp(-inX))

def gradAscent(dataMatIn, classLabels):
    dataMatrix = mat(dataMatIn)
    labelMat = mat(classLabels).transpose()
    m,n = shape(dataMatIn)
    alpha = 0.001
    maxCycles = 500
    weights = ones((n,1))
    # print(weights)
    for k in range(maxCycles):
        h = sigmoid(dataMatrix * weights)

        error = (labelMat - h)

        weights = weights + alpha * dataMatrix.transpose() * error
    return weights

5.3 分析数据：画出决策边界

打开logRegree.py添加如代码：

def plotBestFit(weights):
    dataMat, labelMat = loadDataSet()
    dataArr = array(dataMat)
    n = shape(dataArr)[0] # &#x6570;&#x636E;&#x7684;&#x884C;&#x6570;&#xFF0C;&#x5373;&#x5BF9;&#x8C61;&#x7684;&#x4E2A;&#x6570;
    xcord1 = []; ycord1 = [] # &#x5BF9;&#x7C7B;&#x522B;&#x53F7;&#x4E3A; 1 &#x7684;&#x5BF9;&#x8C61;&#xFF0C;&#x5206; X &#x8F74;&#x548C; Y &#x8F74;&#x7684;&#x6570;&#x636E;
    xcord2 = []; ycord2 = [] # &#x5BF9;&#x7C7B;&#x522B;&#x53F7;&#x4E3A; 0 &#x7684;&#x5BF9;&#x8C61;&#xFF0C;&#x5206; X &#x8F74;&#x548C; Y &#x8F74;&#x7684;&#x6570;&#x636E;
    for i in range(n): # &#x5BF9;&#x6240;&#x6709;&#x7684;&#x5BF9;&#x8C61;&#x8FDB;&#x884C;&#x904D;&#x5386;
        if int(labelMat[i]) == 1:  # &#x5BF9;&#x8C61;&#x7684;&#x7C7B;&#x522B;&#x4E3A;&#xFF1A;1
            xcord1.append(dataArr[i, 1]); ycord1.append(dataArr[i, 2])
        else:
            xcord2.append(dataArr[i, 1]); ycord2.append(dataArr[i, 2])
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(xcord1, ycord1, s = 30, c = 'red', marker = '*') # &#x5BF9;&#x6563;&#x70B9;&#x7684;&#x683C;&#x5F0F;&#x7684;&#x8BBE;&#x7F6E;&#xFF0C;&#x5750;&#x6807;&#x53F7;&#x3001;&#x70B9;&#x7684;&#x5927;&#x5C0F;&#x3001;&#x989C;&#x8272;&#x3001;&#x70B9;&#x7684;&#x56FE;&#x5F62;&#xFF08;&#x65B9;&#x5757;&#xFF09;
    ax.scatter(xcord2, ycord2, s = 30, c = 'green', marker = '*') # &#x70B9;&#x7684;&#x56FE;&#x5F62;&#x9ED8;&#x8BA4;&#x4E3A;&#x5706;
    x = arange(-3.0, 3.0, 0.1)
    y = (-weights[0]-weights[1]*x) / weights[2] # &#x7EBF;&#x6027;&#x65B9;&#x7A0B; y = aX + b,y &#x662F;&#x6570;&#x636E;&#x7B2C;&#x4E09;&#x5217;&#x7684;&#x7279;&#x5F81;&#xFF0C;X &#x662F;&#x6570;&#x636E;&#x7B2C;&#x4E8C;&#x5217;&#x7684;&#x7279;&#x5F81;
    ax.plot(x, y)
    plt.xlabel('X1')
    plt.ylabel('X2')
    plt.show()

运行结果：

5.4 训练算法随机梯度上升

原代码：

def stocGradAscent0(dataMatrix, classLabels):
    m, n = shape(dataMatrix)  # &#x83B7;&#x53D6;&#x6570;&#x636E;&#x96C6;&#x7684;&#x884C;&#x6570;&#x548C;&#x5217;&#x6570;
    alpha = 0.01  # &#x8BBE;&#x7F6E;&#x6B65;&#x957F;&#x4E3A;0.01
    weights = ones(n)# &#x521D;&#x59CB;&#x5316;&#x6743;&#x503C;&#x5411;&#x91CF;&#x5404;&#x4E2A;&#x53C2;&#x6570;&#x4E3A;1.0
    # print(weights)
    for i in range(m):  # &#x5FAA;&#x73AF;m&#x6B21;&#xFF0C;&#x6BCF;&#x6B21;&#x9009;&#x53D6;&#x6570;&#x636E;&#x96C6;&#x4E00;&#x4E2A;&#x6837;&#x672C;&#x66F4;&#x65B0;&#x53C2;&#x6570;
        h = sigmoid(sum(dataMatrix[i] * weights))  # &#x8BA1;&#x7B97;&#x5F53;&#x524D;&#x6837;&#x672C;&#x7684;sigmoid&#x51FD;&#x6570;&#x503C;
        error = classLabels[i] - h  # &#x8BA1;&#x7B97;&#x5F53;&#x524D;&#x6837;&#x672C;&#x7684;&#x6B8B;&#x5DEE;&#xFF08;&#x4EE3;&#x66FF;&#x68AF;&#x5EA6;&#xFF09;
        weights = weights + alpha * error * dataMatrix[i]  # &#x66F4;&#x65B0;&#x6743;&#x503C;&#x53C2;&#x6570;
    return weights

运行截图：

5.5 改进的随机梯度上升算法

代码实现：

def stocGradAscent1(dataMatrix, classLabels, numInter = 150):
    # &#x5C06;&#x6570;&#x636E;&#x96C6;&#x5217;&#x8868;&#x8F6C;&#x5316;&#x4E3A;numpy&#x6570;&#x7EC4;
    # dataMat = array(dataMatrix)
    m, n = shape(dataMatrix)  # &#x83B7;&#x53D6;&#x6570;&#x636E;&#x96C6;&#x7684;&#x884C;&#x6570;&#x548C;&#x5217;&#x6570;
    weights = ones(n)  # &#x521D;&#x59CB;&#x5316;&#x6743;&#x503C;&#x53C2;&#x6570;&#x5411;&#x91CF;&#x6BCF;&#x4E2A;&#x7EF4;&#x5EA6;&#x5747;&#x4E3A;1
    for j in range(numInter):  # &#x8FED;&#x4EE3;&#x6B21;&#x6570;
        dataIndex =list( range(m))  # &#x83B7;&#x53D6;&#x6570;&#x636E;&#x96C6;&#x884C;&#x4E0B;&#x8868;&#x5217;&#x8868;
        for i in range(m):  # &#x5BF9;&#x6240;&#x6709;&#x5BF9;&#x8C61;&#x7684;&#x904D;&#x5386;
            alpha = 4 / (1.0 + j + i) + 0.01  # &#x5BF9;&#x6B65;&#x957F;&#x7684;&#x8C03;&#x6574;&#xFF0C;&#x6DFB;&#x52A0;&#x4E86;&#x56FA;&#x5B9A;&#x6B65;&#x957F;0.01
            randIndex = int(random.uniform(0, len(dataIndex)))  # &#x968F;&#x673A;&#x751F;&#x6210;&#x4E00;&#x4E2A;&#x6574;&#x6570;&#xFF0C;&#x4ECB;&#x4E8E;0&#x5230;m
            h = sigmoid(sum(dataMatrix[randIndex] * weights))  # &#x5BF9;&#x968F;&#x673A;&#x9009;&#x62E9;&#x7684;&#x5BF9;&#x8C61;&#x8BA1;&#x7B97;&#x7C7B;&#x522B;&#x7684;&#x6570;&#x503C;&#xFF08;&#x56DE;&#x5F52;&#x7CFB;&#x6570;&#x503C;&#xFF09;
            error = classLabels[randIndex] - h  # &#x6839;&#x636E;&#x5B9E;&#x9645;&#x7C7B;&#x578B;&#x4E0E;&#x8BA1;&#x7B97;&#x7C7B;&#x578B;&#x503C;&#x7684;&#x8BEF;&#x5DEE;&#xFF0C;&#x635F;&#x5931;&#x51FD;&#x6570;
            weights = weights + alpha * error * dataMatrix[randIndex]  # &#x6BCF;&#x6B65;weights&#x7684;&#x6539;&#x53D8;&#x503C;&#xFF0C;&#x6743;&#x503C;&#x66F4;&#x65B0;
            del(dataIndex[randIndex])  # &#x53BB;&#x9664;&#x5DF2;&#x7ECF;&#x9009;&#x62E9;&#x8FC7;&#x7684;&#x5BF9;&#x8C61;&#xFF0C;&#x907F;&#x514D;&#x4E0B;&#x6B21;&#x9009;&#x4E2D;
    return weights

运行截图：

梯度上升法是在整个数据集上迭代了500次才得到的，迭代次数要远大于随机梯度方法，而判断一个算法优劣的可靠方法是看它是否收敛，也就是参数是否达到了稳定值，是否还会不断变化。

六示例：从疝气病症预测病马的死亡率

6.1源代码

"""
&#x51FD;&#x6570;&#x8BF4;&#x660E;&#xFF1A;&#x5206;&#x7C7B;&#x51FD;&#x6570;
Parameters&#xFF1A;
    inx&#xFF1A;&#x8F93;&#x5165;&#x7684;&#x7279;&#x5F81;&#x5411;&#x91CF;
    weights&#xFF1A;&#x56DE;&#x5F52;&#x7CFB;&#x6570;
Returns:
    &#x7C7B;&#x522B;&#x6807;&#x7B7E;
"""
def classifyVector(inx,weights):
    prob = sigmoid(sum(inx*weights))
    if prob > 0.5:
        return 1.0
    else:
        return 0.0
"""
&#x51FD;&#x6570;&#x8BF4;&#x660E;&#xFF1A;&#x4F7F;&#x7528;Logistic&#x5206;&#x7C7B;&#x5668;&#x8FDB;&#x884C;&#x9884;&#x6D4B;
Parameters:
    &#x65E0;
Returns:
    &#x65E0;
"""
def colicTest():
    frTrain = open("python/ch05/horseColicTraining.txt")
    frTest = open("python/ch05/horseColicTest.txt")
    trainList = [];trainLabels = []
    for line in frTrain.readlines():
        lineArr = []
        currLine = line.strip().split('\t')
        for i in range(21):
            lineArr.append(float(currLine[i]))
        trainList.append(lineArr)
        trainLabels.append(float(currLine[21]))
     weight = stocGradAscent1(np.array(trainList),trainLabels,500)
    errorCount = 0;numTest = 0.0
    for line in frTest.readlines():
        lineArr = []
        numTest += 1.0
        currLine = line.strip().split('\t')
        for i in range(21):
            lineArr.append(float(currLine[i]))    #&#x5904;&#x7406;&#x6D4B;&#x8BD5;&#x96C6;&#x6570;&#x636E;
        if int(classifyVector (np.array(lineArr), weight)) != int( currLine[21] ):
            errorCount += 1
    errorRate = (float(errorCount) / numTest) *100
    print("&#x5355;&#x6B21;&#x5206;&#x7C7B;&#x6D4B;&#x8BD5;&#x7684;&#x9519;&#x8BEF;&#x7387;&#x4E3A;&#xFF1A;%.2f%%" % errorRate)
    return errorRate
"""
&#x51FD;&#x6570;&#x8BF4;&#x660E;&#xFF1A;&#x8BA1;&#x7B97;&#x8FED;&#x4EE3;numtests&#x6B21;&#x540E;&#x7684;&#x9519;&#x8BEF;&#x7387;
"""
def multiTest():
    numtests = 10;errorsum = 0.0
    for k in range(numtests):
        errorsum += colicTest()
    print("%d&#x6B21;&#x5206;&#x7C7B;&#x6D4B;&#x8BD5;&#x7684;&#x5E73;&#x5747;&#x9519;&#x8BEF;&#x7387;&#x4E3A;&#xFF1A;%.2f%%" % (numtests, errorsum/float(numtests)))

运行截图：

七、总结

1.无需事先假设数据分布
2.可得到”类别”的近似概率预测（概率值还可用于后续应用)
3.可直接应用现有数值优化算法（如牛顿法）求取最优解，具有快速、高效的特点

Original: https://blog.csdn.net/qq_54708796/article/details/121745254
Author: cos six
Title: 机器学习—–Logistic回归

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/628648/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

MySQL远程无法连接的常见原因

前言 MySQL是目前非常流行的数据库之一，也是中小企业持久化存储的首选数据库。不同于我们日常学习，在实际应用中，MySQL服务都会挂载在某台服务器上。如果MySQL部署在某台云…

人工智能 2023年7月30日
0058
数据结构——优先队列c++详解

优先队列的定义优先队列是0个或多个元素的集合,每个元素都有一个优先权或值,对优先队列执行的操作有1) 查找;2) 插入一个新元素;3) 删除.在最小优先队列(min priori…

人工智能 2023年6月29日
0079
ORB-SLAM2 —- ORBmatcher::SearchByBoW函数

1.本函数的作用匹配两帧中的特征点，与ORBmatcher::SearchForInitialization相比，ORBmatcher::SearchForTriangulati…

人工智能 2023年6月22日
0074
Python处理数据常见问题解决方案（2）Dataframe使用 append()添加大量数据时效率变低，处理时间过长，无法接受。

问题描述：在用python给dataframe添加数据的过程中，我们经常使用append()方法往dataframe中一行一行的添加数据。但是当数据过多时，append()方法效…

人工智能 2023年7月7日
0067
浅谈目标检测RCNN,SPPNET,Fast-RCNN,Faster-RCNN

RCNN目标检测-R-CNN模型●CVPR 2014●候选区域方法(region proposal method) :提供了额物体检测的一个重要思路●RCNN步骤:。1、对于一张图…

人工智能 2023年7月12日
0063
一元回归线性下降算法

import pandas as pdimport numpy as np df = pd.read_csv(‘data.txt’, header=None…

人工智能 2023年6月17日
0061
nn.Sequential()引起的 forward() takes 1 positional argument but 2 were given

最近在训练模型时，想要将模型的分类层去除，输出模型的特征图，于是进行如下操作去除模型的最后两层结构，然后奇怪的事情就发生了，运行时程序老是报错， forward() takes 1…

人工智能 2023年7月21日
0048
【python数据分析】分组聚合操作

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档使用python进行数据分析的基础知识：分组聚合操作：（1）分组聚合操作；（2）数据可视化分组聚合操作指的是按照…

人工智能 2023年7月6日
0047
股票level2行情接口怎么查询逐笔委托数据？

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月27日
0073
KNN-k近邻算法

KNN-k近邻算法 k近邻算法基础 * 解决分类问题在Notebook中实现 – 数据的准备 KNN过程通过函数封装来实现 scikit-learn 中的机器学习封…

人工智能 2023年7月2日
0045
基于微分方程的图像去噪处理(改进型P-M法)附MATLAB代码

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月17日
0075
#边学边记必修5 高项:对人管理第2章项目沟通管理和干系人管理 2-1 沟通的基本概念

导学偏重于概念知识，涉及到下午案例，重要知识点有：沟通模型沟通渠道数量计算沟通的方式沟通渠道沟通方法沟通管理计划的内容管理沟通控制沟通沟通的输入、工具与技术、输…

人工智能 2023年6月26日
0050
小度智能音响拆解芯片_拆解报告：DOSS小度版智能音箱

DOSS 是中国第一家获得苹果公司认证的音响生产研发企业，在国外主要与亚马逊 Alexa 共同研发音箱产品，而回到国内，DOSS 就与百度 DuerOS 开展战略合作伙伴关系，推出…

人工智能 2023年5月27日
00157
线性回归是一种回归算法，它假设输入特征和输出变量之间存在线性关系。它使用最小二乘法来拟合一个直线或超平面，以便最好地描述输入和输出之间的关系

介绍线性回归是一种用于建立输入特征和输出变量之间线性关系的回归算法。通过使用最小二乘法，它寻找一个最佳拟合的直线或超平面，以描述输入特征和输出变量之间的关系。算法原理线性回归…

人工智能 2023年12月31日
0021
负采样（Negative Sampling）

来源：Coursera吴恩达深度学习课程在Word2Vec文章中，我们见到了 Skip-Gram模型如何构造一个监督学习任务，把上下文映射到了目标词上，它如何学到一个实用的词嵌…

人工智能 2023年6月16日
0071
KDD2020|基于知识图谱的语义融合改进的对话推荐系统

Improving Conversational Recommender Systems via Knowledge Graph based Semantic Fusion htt…

人工智能 2023年6月1日
0086

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

机器学习—–Logistic回归

2.1拟合和回归

2.2 逻辑回归假设函数

Mean Square Error(MSE)

Mean Absolute Error(MAE)

4.2 Sigmoid函数

5.3 分析数据：画出决策边界

6.1源代码

大家都在看