逻辑斯谛回归（logistics regression，LR）

2023年6月17日下午2:28 • 人工智能 • 阅读 92

逻辑斯谛分布

之前学到的感知机线性回归说过，一个分离超平面S将特征空间分成两个部分，实例在不同的子空间中被分为相对应的类。但是当一个样本点与超平面的距离非常近时，被分成类A的可能性为51%，分成类B的可能性为49%，此时线性回归会直接给出该样本点属于A类的结论，并没有告诉我们它属于A类的概率是多少，这样就忽略了49%分成B类的可能性。

为了得到这个概率，引出了Sigmoid函数（也叫Logistic，逻辑斯谛函数）。
关于函数的简介，可以在百度中自行了解：
https://baike.baidu.com/item/Sigmoid%E5%87%BD%E6%95%B0/7981407
Sigmoid函数经常在深度学习中作为激励函数使用，它的基本形式如下：
S i g m o i d ( x ) = 1 1 + e x Sigmoid(x)=\frac{1}{1+e^{x}}S i g m o i d (x )=1 +e x 1
Sigmoid函数能够将线性回归产生的值 x ∈ ( − ∞ , + ∞ ) x\in{(-\infty,+\infty)}x ∈(−∞,+∞) 转换到 y ∈ ( 0 , 1 ) y\in(0,1)y ∈(0 ,1 ) 区间内，而概率的取值也在(0,1)内，这样，就可以得到一个样本被分为一个类的概率是多少了。

引入Sigmoid函数之后，加入形状参数γ \gamma γ和位置参数μ \mu μ，便得到了逻辑斯谛分布：

当连续随机变量X服从逻辑斯谛分布时，X具有下列分布函数：
F ( x ) = 1 1 + e − ( x − μ ) / γ F(x)=\frac{1}{1+e^{-(x-\mu)/\gamma}}F (x )=1 +e −(x −μ)/γ1
分布函数求导后得到密度函数：
f ( x ) = e − ( x − μ ) / γ γ ( 1 + e − ( x − μ ) / γ ) 2 f(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2}f (x )=γ(1 +e −(x −μ)/γ)2 e −(x −μ)/γ
其中，形状参数γ \gamma γ越小，曲线在中心附近越陡，增长的越快。

; 二项逻辑斯谛回归模型

当μ = 0 , γ = 1 \mu=0,\gamma=1 μ=0 ,γ=1，随机变量Y只有两个取值0或1时，二项逻辑斯谛回归模型的形式为：
P ( Y = 0 ∣ x ) = 1 1 + e ( ω ⋅ x + b ) P(Y=0|x)=\frac{1}{1+e^{(\omega \cdot x+b)}}P (Y =0 ∣x )=1 +e (ω⋅x +b )1
P ( Y = 1 ∣ x ) = 1 − 1 1 + e ( ω ⋅ x + b ) = e ( ω ⋅ x + b ) 1 + e ( ω ⋅ x + b ) P(Y=1|x)=1- \frac{1}{1+e^{(\omega \cdot x+b)}} = \frac{e^{(\omega \cdot x+b)}}{1+e^{(\omega \cdot x+b)}}P (Y =1 ∣x )=1 −1 +e (ω⋅x +b )1 =1 +e (ω⋅x +b )e (ω⋅x +b )
有时为了方便，将权值向量ω \omega ω扩充为( ω ( 1 ) , ω ( 2 ) , . . . , ω ( n ) , b ) T (\omega^{(1)},\omega^{(2)},…,\omega^{(n)},b)^T (ω(1 ),ω(2 ),…,ω(n ),b )T，将输入向量x扩充为( x ( 1 ) , x ( 2 ) , . . . , x ( n ) , 1 ) (x^{(1)},x^{(2)},…,x^{(n)},1)(x (1 ),x (2 ),…,x (n ),1 )，扩充后的ω ⋅ x = ω ( 1 ) x ( 1 ) + ω ( 2 ) x ( 2 ) + . . . + ω ( n ) x ( n ) + b \omega \cdot x=\omega^{(1)}x^{(1)}+\omega^{(2)}x^{(2)}+…+\omega^{(n)}x^{(n)}+b ω⋅x =ω(1 )x (1 )+ω(2 )x (2 )+…+ω(n )x (n )+b，等价于扩充前的ω ⋅ x + b \omega \cdot x+b ω⋅x +b。
这时的逻辑斯谛回归模型如下：
P ( Y = 0 ∣ x ) = 1 1 + e ( ω ⋅ x ) P(Y=0|x)=\frac{1}{1+e^{(\omega \cdot x)}}P (Y =0 ∣x )=1 +e (ω⋅x )1
P ( Y = 1 ∣ x ) = 1 − 1 1 + e ( ω ⋅ x ) = e ( ω ⋅ x ) 1 + e ( ω ⋅ x ) P(Y=1|x)=1- \frac{1}{1+e^{(\omega \cdot x)}} = \frac{e^{(\omega \cdot x)}}{1+e^{(\omega \cdot x)}}P (Y =1 ∣x )=1 −1 +e (ω⋅x )1 =1 +e (ω⋅x )e (ω⋅x )

这样，当一个样本点x输入到感知机模型sign(w•x+b)中时，只能得到样本点的类别；
当x输入到二项逻辑回归模型中时，不仅可以得到样本点的类别，还可以得到属于该类别的概率。

二项逻辑斯谛回归模型参数估计

下一个要解决的问题是，怎么得到模型中的未知参数ω \omega ω？

假如给你一个训练集，包括10个样本，其中7个样本为类0，3个样本为类1，类0出现的概率为p，类1出现的概率为1-p，那么出现训练样本这种现象的概率就是p7(1-p)3。

既然这个样本结果已经出现了，为什么不利用已知的样本结果信息，反推最有可能（最大概率）导致这些样本结果出现的模型参数值ω \omega ω呢？而这就是极大似然估计法的思想。

也就是说，我们可以用极大似然估计法估计ω \omega ω。通过最大化对数似然函数，得到未知参数ω \omega ω的估计值。

如果x是已知确定的，参数ω \omega ω是未知的，P ( x ∣ ω ) P(x|\omega)P (x ∣ω)叫做似然函数, 它描述对于不同的参数ω \omega ω，出现x这个样本点的概率是多少。
关于极大似然估计更详细的解说，可以看这篇文章https://zhuanlan.zhihu.com/p/26614750

下面我们具体应用到二项逻辑回归模型中。
设训练数据集T={(x1,y1),(x2,y2),…,(xN,yN)}有N个样本，yi为0或1。
为了方便表述，设：
P ( Y = 1 ∣ x ) = e ( ω ⋅ x ) 1 + e ( ω ⋅ x ) = π ( x ) , P ( Y = 0 ∣ x ) = 1 1 + e ( ω ⋅ x ) = 1 − π ( x ) ( 1 ) P(Y=1|x)=\frac{e^{(\omega \cdot x)}}{1+e^{(\omega \cdot x)}}=\pi(x), P(Y=0|x)=\frac{1}{1+e^{(\omega \cdot x)}}=1-\pi(x) \tag{\color{red}{1}}P (Y =1 ∣x )=1 +e (ω⋅x )e (ω⋅x )=π(x ),P (Y =0 ∣x )=1 +e (ω⋅x )1 =1 −π(x )(1 )

出现训练集T这个结果的似然函数就是把每个样本点出现的概率相乘起来：
∏ i = 1 N [ π ( x i ) ] y i [ 1 − π ( x i ) ] 1 − y i \prod_{i=1}^{N}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}i =1 ∏N [π(x i )]y i [1 −π(x i )]1 −y i
假如训练集T只有两个样本点，第一个样本点是类0，第二个是类1，代入上式就是：
∏ i = 1 2 [ π ( x i ) ] y i [ 1 − π ( x i ) ] 1 − y i = [ π ( x 1 ) ] y 1 [ 1 − π ( x 1 ) ] 1 − y 1 [ π ( x 2 ) ] y 2 [ 1 − π ( x 2 ) ] 1 − y 2 = [ π ( x 1 ) ] 0 [ 1 − π ( x 1 ) ] 1 [ π ( x 2 ) ] 1 [ 1 − π ( x 2 ) ] 0 = [ 1 − π ( x 1 ) ] [ π ( x 2 ) ] \begin{aligned} &\prod_{i=1}^{2}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}\ &=[\pi(x_1)]^{y_1}[1-\pi(x_1)]^{1-y_1}[\pi(x_2)]^{y_2}[1-\pi(x_2)]^{1-y_2}\ &=[\pi(x_1)]^{0}[1-\pi(x_1)]^{1}[\pi(x_2)]^{1}[1-\pi(x_2)]^{0}\ &=[1-\pi(x_1)][\pi(x_2)] \end{aligned}i =1 ∏2 [π(x i )]y i [1 −π(x i )]1 −y i =[π(x 1 )]y 1 [1 −π(x 1 )]1 −y 1 [π(x 2 )]y 2 [1 −π(x 2 )]1 −y 2 =[π(x 1 )]0 [1 −π(x 1 )]1 [π(x 2 )]1 [1 −π(x 2 )]0 =[1 −π(x 1 )][π(x 2 )]
是不是相当于那个p7(1-p)3呢。

为了让连乘变成连加，对上面的似然函数取对数，得到对数似然函数：
L ( ω ) = ∑ i = 1 N [ l o g [ π ( x i ) ] y i + l o g [ 1 − π ( x i ) ] 1 − y i ] = ∑ i = 1 N [ y i l o g π ( x i ) + ( 1 − y i ) l o g ( 1 − π ( x i ) ) ] = ∑ i = 1 N [ y i l o g π ( x i ) − y i l o g ( 1 − π ( x i ) ) + l o g ( 1 − π ( x i ) ) ] = ∑ i = 1 N [ y i [ l o g π ( x i ) − l o g ( 1 − π ( x i ) ) ] + l o g ( 1 − π ( x i ) ) ] = ∑ i = 1 N [ y i l o g π ( x i ) 1 − π ( x i ) + l o g ( 1 − π ( x i ) ) ] 将前面设的式 1 代入 = ∑ i = 1 N [ y i l o g e ( ω ⋅ x i ) 1 + e ( ω ⋅ x i ) 1 1 + e ( ω ⋅ x i ) + l o g 1 1 + e ( ω ⋅ x i ) ] = ∑ i = 1 N [ y i ( ω ⋅ x i ) − l o g ( 1 + e ( ω ⋅ x i ) ) ] \begin{aligned} L(\omega)&=\sum_{i=1}^{N}[log[\pi(x_i)]^{y_i}+log[1-\pi(x_i)]^{1-y_i}]\ &=\sum_{i=1}^{N}[y_ilog\pi(x_i)+(1-y_i)log(1-\pi(x_i))]\ &=\sum_{i=1}^{N}[y_ilog\pi(x_i)-y_ilog(1-\pi(x_i))+log(1-\pi(x_i))]\ &=\sum_{i=1}^{N}[y_i[log\pi(x_i)-log(1-\pi(x_i))]+log(1-\pi(x_i))]\ &=\sum_{i=1}^{N}[y_ilog\frac{\pi(x_i)}{1-\pi(x_i)}+log(1-\pi(x_i))]\ 将前面设的式1代入&=\sum_{i=1}^{N}[y_ilog\frac{\frac{e^{(\omega \cdot x_i)}}{1+e^{(\omega \cdot x_i)}}}{\frac{1}{1+e^{(\omega \cdot x_i)}}}+log\frac{1}{1+e^{(\omega \cdot x_i)}}]\ &=\sum_{i=1}^{N}[y_i(\omega \cdot x_i)-log(1+e^{(\omega \cdot x_i)})] \end{aligned}L (ω)将前面设的式1 代入=i =1 ∑N [l o g [π(x i )]y i +l o g [1 −π(x i )]1 −y i ]=i =1 ∑N [y i l o g π(x i )+(1 −y i )l o g (1 −π(x i ))]=i =1 ∑N [y i l o g π(x i )−y i l o g (1 −π(x i ))+l o g (1 −π(x i ))]=i =1 ∑N [y i [l o g π(x i )−l o g (1 −π(x i ))]+l o g (1 −π(x i ))]=i =1 ∑N [y i l o g 1 −π(x i )π(x i )+l o g (1 −π(x i ))]=i =1 ∑N [y i l o g 1 +e (ω⋅x i )1 1 +e (ω⋅x i )e (ω⋅x i )+l o g 1 +e (ω⋅x i )1 ]=i =1 ∑N [y i (ω⋅x i )−l o g (1 +e (ω⋅x i ))]
对L ( ω ) L(\omega)L (ω)求极大值，就可以得到参数ω \omega ω的估计值，进一步得到二项逻辑回归模型。
到此，求二项逻辑回归模型就变成了求目标函数为L ( ω ) L(\omega)L (ω)的最优化问题。求解该最优化问题一般使用梯度下降法和拟牛顿法。

梯度下降法的学习文章

Original: https://blog.csdn.net/weixin_46838605/article/details/123190502
Author: 卡卡西~
Title: 逻辑斯谛回归（logistics regression，LR）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/630447/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

水质检测系统（Python图像识别）

目标：有五种水质的图片，水质等级分1~5级，根据这些图片，构建一个分类系统，对新数据进行分类。注：数据集中每个图片的命名方式都为’水质级别_序号’ 思路…

人工智能 2023年6月21日
0074
SEM（结构方程模型）

重点难题：如何构建结构方程模型对数据进行分析 SEM（结构方程模型）结构方程模型是一门基于统计分析技术的研究方法学，它主要用于解决社会科学中的多变量问题，用来处理复杂的多变量数据…

人工智能 2023年6月19日
0090
弱小目标检测跟踪算法研究（2）红外弱小目标数据集准备（红外弱小目标的数据集又来了）

红外弱小目标的数据集又来了！说在前面的话数据集后续 ; 说在前面的话弱小目标，顾名思义：目标信号弱，像素少，由于目标信噪比较低，目标最少可能只有一个像素单元。因此，弱小目标…

人工智能 2023年7月9日
0081
图像处理的常用空间滤波算法

本书也是一本介绍图像技术的教材，但它有不同的视点和方式。至少有两点值得指出：首先，作者完全采用了一种问答的形式来组织和介绍相关内容。全书从头到尾共设计了472个问题（很多是由学生…

人工智能 2023年6月18日
0075
[附源码]Python计算机毕业设计Django会议室预定管理APP

项目运行环境配置：Pychram社区版+ python3.7.7 + Mysql5.7 + HBuilderX+list pip+Navicat11+Django+nodejs。 …

人工智能 2023年7月29日
0054
回归模型的score得分为负_深度研究：回归模型评价指标R2_score

回归模型的性能的评价指标主要有：RMSE(平方根误差)、MAE(平均绝对误差)、MSE(平均平方误差)、R2_score。但是当量纲不同时，RMSE、MAE、MSE难以衡量模型效果…

人工智能 2023年6月18日
00124
数据挖掘中的常见数据预处理方法总结

一 . 基本概念为什么需要数据预处理：现实世界中数据大体上都是不完整，不一致的脏数据，无法直接进行数据挖掘，或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术数据…

人工智能 2023年6月4日
00101
linux离线安装apex(C++扩展版本和仅Python版本)

文章目录安装过程本人没成功的过程安装过程在github上https://github.com/nvidia/apex下载压缩包。1.仅Python的版本还是很容易成功的：解…

人工智能 2023年7月23日
0090
【音视频基础】视频基础理论

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月17日
00119
Python第三方cv2库介绍

Python第三方cv2库介绍 CV2指的是OpenCV2（Open Source Computer Vision Library），是一个开源的库平台计算机视觉库。有很强大的图片…

人工智能 2023年7月4日
0060
深度学习基础学习-注意力机制（计算机视觉中）

在网上看到很多关于注意力机制的说明，下面自己总结一下。大佬绕道下面放几个文章的链接添深度学习中的注意力模型计算机视觉中的注意力机制图像处理注意力机制Attention汇总注意力机制…

人工智能 2023年6月16日
0074
如何计算汇总统计？

### 回答1：要 _统计_数组元素数量，需要使用SQL中的聚合函数COUNT。在使用COUNT函数时，需要将数组列的值作为参数传递给函数，然后将查询结果 _汇总_为一个单独的值…

人工智能 2023年6月11日
0071
写代码，必须要优雅…

大家好，我是 Jack。最近看了一个新动画，间谍过家家，12 集都追完了，意犹未尽。里面有一个细节：优雅的劳埃德先生，通过暗号来解读报纸上的情报，普通的报纸上隐藏着想要传递的…

人工智能 2023年6月12日
0068
AMiner发布2022 AI 2000人工智能最具影响力学者名单

文章目录 AMiner发布2022年人工智能全球最具影响力学者榜单 * 关于AI 2000 2022年AI 2000榜单分析 – 1.榜首分析 2.最具影响力Top10…

人工智能 2023年7月17日
0071
全连接、卷积、循环神经网络介绍

神经网络简介训练神经网络主要围绕下面四部分：层，多个层组合成网络（或模型）输入数据和相应目标损失函数，即用于学习的反馈信号优化器，决定学习过程如何进行层、损失函数、优化…

人工智能 2023年7月13日
0048
yolov5使用tensorboard可视化训练结果

tensorboard可视化可以实时跟进训练情况话不多说，直接记录！！！yolov5的可视化第一步找到yolo.py文件，将里面关于tensorboard的部分注释掉，如下图第二…

人工智能 2023年7月6日
0095

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

逻辑斯谛回归（logistics regression，LR）

大家都在看