机器学习——逻辑回归算法

2023年6月18日上午10:00 • 人工智能 • 阅读 103

一、分类问题（Classification ）

在分类问题中，当要预测的变量 𝑦 是离散的值，我们将学习一种叫做逻辑回归 (Logistic Regression) 的算法，这是目前最流行使用最广泛的一种学习算法。

在分类问题中，我们尝试预测的是结果是否属于某一个类（例如正确或错误）。分类问题的例子有：判断一封电子邮件是否是垃圾邮件；判断一次金融交易是否是欺诈；区别一个肿瘤是恶性的还是良性的等等。
以 二元分类为例，我们将因变量可能属于的两个类分别称为负向类和正向类，则因变量y 取值 0 或 1，其中 0 表示负向类，1 表示正向类。

对于分类， 𝑦 取值为 0 或者 1，如果你使用的是线性回归，那么假设函数的输出值可能远大于 1，或者远小于 0，根据线性回归模型我们只能预测连续的值，然而对于分类问题，我们需要输出0或1。线性回归只是机器学习类算法中最简单的用特征预测标签数值的回归算法，满足线性规律的真实场景并不是很多，所以我们在接下来的要研究的算法就叫做 逻辑回归算法，这个算法的性质是：它的输出值永远在 0 到 1 之间。

二、假设函数（Hypothesis Representation）

逻辑回归模型的假设是： h θ ( x ) = g ( θ T X ) h_\theta \left( x \right)=g\left(\theta^{T}X \right)h θ(x )=g (θT X )
其中：
X X X 代表特征向量
g g g 代表逻辑函数（ logistic function)是一个常用的逻辑函数为 S形函数（ 又叫 Sigmoid 函数），公式为： g ( z ) = 1 1 + e − z g\left( z \right)=\frac{1}{1+{{e}^{-z}}}g (z )=1 +e −z 1 。
该函数的图像为：

合起来，我们得到逻辑回归模型的假设： h θ ( x ) = 1 1 + e − θ T X h_\theta \left( x \right)=\frac{1}{1+{{e}^{-\theta^{T}X }}}h θ(x )=1 +e −θT X 1
对模型的理解： g ( z ) = 1 1 + e − z g\left( z \right)=\frac{1}{1+{{e}^{-z}}}g (z )=1 +e −z 1 。
h θ ( x ) h_\theta \left( x \right)h θ(x )的作用是，对于给定的输入变量，根据选择的参数计算输出变量=1的可能性（ estimated probablity）即h θ ( x ) = P ( y = 1 ∣ x ; θ ) h_\theta \left( x \right)=P\left( y=1|x;\theta \right)h θ(x )=P (y =1∣x ;θ)
例如，如果对于给定的x x x，通过已经确定的参数计算得出h θ ( x ) = 0.7 h_\theta \left( x \right)=0.7 h θ(x )=0.7，则表示有70%的几率y y y为正向类，相应地y y y为负向类的几率为1-0.7=0.3。

; 三、决策边界（Decision boundary）

根据上面绘制出的 S 形函数图像，我们知道当
z = 0 z=0 z =0 时 g ( z ) = 0.5 g(z)=0.5 g (z )=0.5
z > 0 z>0 z >0 时 g ( z ) > 0.5 g(z)>0.5 g (z )>0.5
z < 0 z 时 g ( z ) < 0.5 g(z)

又 z = θ T x z={\theta^{T}}x z =θT x ，即：
θ T x > = 0 {\theta^{T}}x>=0 θT x >=0 时，预测 y = 1 y=1 y =1
θ T x < 0 {\theta^{T}}x 时，预测 y = 0 y=0 y =0

现在假设我们有下面的模型：

1.

并且参数θ \theta θ 是向量[-3 1 1]。则当− 3 + x 1 + x 2 ≥ 0 -3+{x_1}+{x_2} \geq 0 −3 +x 1 +x 2 ≥0，即x 1 + x 2 ≥ 3 {x_1}+{x_2} \geq 3 x 1 +x 2 ≥3时，模型将预测 y = 1 y=1 y =1。
我们可以绘制直线x 1 + x 2 = 3 {x_1}+{x_2} = 3 x 1 +x 2 =3，这条线便是我们模型的分界线，将预测为1的区域和预测为 0的区域分隔开。

; 2.

因为需要用曲线才能分隔 y = 0 y=0 y =0 的区域和 y = 1 y=1 y =1 的区域，我们需要二次方特征：h θ ( x ) = g ( θ 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 1 2 + θ 4 x 2 2 ) {h_\theta}\left( x \right)=g\left( {\theta_0}+{\theta_1}{x_1}+{\theta_{2}}{x_{2}}+{\theta_{3}}x_{1}^{2}+{\theta_{4}}x_{2}^{2} \right)h θ(x )=g (θ0 +θ1 x 1 +θ2 x 2 +θ3 x 1 2 +θ4 x 2 2 )是[-1 0 0 1 1]，则我们得到的判定边界恰好是圆点在原点且半径为1的圆形。

我们可以用非常复杂的模型来适应非常复杂形状的判定边界。

四、代价函数（Cost Function）

下面介绍如何拟合逻辑回归模型的参数θ

对于线性回归模型，我们定义的代价函数是所有模型误差的平方和。关于线性回归的代价函数参考文章机器学习——代价函数
理论上来说，我们也可以对逻辑回归模型沿用这个定义，但是问题在于，当我们将 h θ ( x ) = 1 1 + e − θ T x {h_\theta}\left( x \right)=\frac{1}{1+{e^{-\theta^{T}x}}}h θ(x )=1 +e −θT x 1 带入到这样定义了的代价函数中时，我们得到的代价函数将是一个非凸函数（non-convexfunction）。

这意味着我们的代价函数有许多局部最小值，这将影响梯度下降算法寻找全局最小值。

线性回归的代价函数为：J ( θ ) = 1 m ∑ i = 1 m 1 2 ( h θ ( x ( i ) ) − y ( i ) ) 2 J\left( \theta \right)=\frac{1}{m}\sum\limits_{i=1}^{m}{\frac{1}{2}{{\left( {h_\theta}\left({x}^{\left( i \right)} \right)-{y}^{\left( i \right)} \right)}^{2}}}J (θ)=m 1 i =1 ∑m 2 1 (h θ(x (i ))−y (i ))2 。
我们重新定义逻辑回归的代价函数为：J ( θ ) = 1 m ∑ i = 1 m C o s t ( h θ ( x ( i ) ) , y ( i ) ) J\left( \theta \right)=\frac{1}{m}\sum\limits_{i=1}^{m}{{Cost}\left( {h_\theta}\left( {x}^{\left( i \right)} \right),{y}^{\left( i \right)} \right)}J (θ)=m 1 i =1 ∑m C os t (h θ(x (i )),y (i ))，其中

h θ ( x ) {h_\theta}\left( x \right)h θ(x )与 C o s t ( h θ ( x ) , y ) Cost\left( {h_\theta}\left( x \right),y \right)C os t (h θ(x ),y )之间的关系如下图所示：
机器学习——逻辑回归算法

这样构建的C o s t ( h θ ( x ) , y ) Cost\left( {h_\theta}\left( x \right),y \right)C os t (h θ(x ),y )函数的特点是：当实际的 y = 1 y=1 y =1 且h θ ( x ) {h_\theta}\left( x \right)h θ(x )也为 1 时误差为 0，当 y = 1 y=1 y =1 但h θ ( x ) {h_\theta}\left( x \right)h θ(x )不为1时误差随着h θ ( x ) {h_\theta}\left( x \right)h θ(x )变小而变大；当实际的 y = 0 y=0 y =0 且h θ ( x ) {h_\theta}\left( x \right)h θ(x )也为 0 时代价为 0，当y = 0 y=0 y =0 但h θ ( x ) {h_\theta}\left( x \right)h θ(x )不为 0时误差随着 h θ ( x ) {h_\theta}\left( x \right)h θ(x )的变大而变大。

因为 y 的取值为0 or 1，所以可以把式子可以合并成：

C o s t ( h θ ( x ) , y ) = − y × l o g ( h θ ( x ) ) − ( 1 − y ) × l o g ( 1 − h θ ( x ) ) Cost\left( {h_\theta}\left( x \right),y \right)=-y\times log\left( {h_\theta}\left( x \right) \right)-(1-y)\times log\left( 1-{h_\theta}\left( x \right) \right)C os t (h θ(x ),y )=−y ×l o g (h θ(x ))−(1 −y )×l o g (1 −h θ(x ))

J ( θ ) J\left( \theta \right)J (θ) = 1 m ∑ i = 1 m C o s t ( h θ ( x ( i ) ) , y ( i ) ) =\frac{1}{m}\sum\limits_{i=1}^{m}{{Cost}\left( {h_\theta}\left( {x}^{\left( i \right)} \right),{y}^{\left( i \right)} \right)}=m 1 i =1 ∑m C os t (h θ(x (i )),y (i ))
= − 1 m ∑ i = 1 m [ y ( i ) log ⁡ ( h θ ( x ( i ) ) ) + ( 1 − y ( i ) ) log ⁡ ( 1 − h θ ( x ( i ) ) ) ] =-\frac{1}{m}\sum\limits_{i=1}^{m}{[{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)+\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)]}=−m 1 i =1 ∑m [y (i )lo g (h θ(x (i )))+(1 −y (i ))lo g (1 −h θ(x (i )))]

在得到这样一个代价函数以后，我们便可以用梯度下降算法来求得能使代价函数最小的参数了。梯度算法查看这篇文章：机器学习——多元梯度算法。算法为：

Repeat {
θ j : = θ j − α ∂ ∂ θ j J ( θ ) \theta_j := \theta_j – \alpha \frac{\partial}{\partial\theta_j} J(\theta)θj :=θj −α∂θj ∂J (θ)
(simultaneously update all )
}

求导后得到：

Repeat {
θ j : = θ j − α 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x j ( i ) \theta_j := \theta_j – \alpha \frac{1}{m}\sum\limits_{i=1}^{m}{{\left( {h_\theta}\left( \mathop{x}^{\left( i \right)} \right)-\mathop{y}^{\left( i \right)} \right)}}\mathop{x}_{j}^{(i)}θj :=θj −αm 1 i =1 ∑m (h θ(x (i ))−y (i ))x j (i )
(simultaneously update all )
}

我们注意到，得到的梯度下降算法表面上看上去与线性回归的梯度下降算法一样，但是这里的h θ ( x ) = g ( θ T X ) {h_\theta}\left( x \right)=g\left( {\theta^T}X \right)h θ(x )=g (θT X )与线性回归中不同，所以实际上是不一样的。

除了梯度下降算法以外，还有一些常被用来求代价函数最小的算法，这些算法更加复杂和优越，而且通常不需要人工选择学习率，通常比梯度下降算法要更加快速。这些算法有： 共轭梯度（ Conjugate Gradient）， 局部优化法(Broyden fletcher goldfarb shann,BFGS)和 有限内存局部优化法(LBFGS)

; 五、多元分类

举一个多元分类的例子：如果一个病人因为鼻塞来到你的诊所，他可能并没有生病，用 y = 1 y=1 y =1 这个类别来代表；或者患了感冒，用 y = 2 y=2 y =2 来代表；或者得了流感用y = 3 y=3 y =3来代表。

对于之前的一个，二元分类问题，我们的数据看起来可能是像这样：

对于一个多类分类问题，我们的数据集或许看起来像这样：
机器学习——逻辑回归算法

用3种不同的符号来代表3个类别，那么对于这3个类型的数据集，我们如何得到一个学习算法来进行分类呢？
好比上图表示的有3个类别，我们用三角形表示 y=1，方框表示y=2，叉叉表示 y=3。我们下面要做的就是使用一个训练集，将其分成3个二元分类问题。
我们先从用三角形代表的类别1开始，实际上我们可以创建一个新的”伪”训练集，类型2和类型3定为负类，类型1设定为正类，我们创建一个新的训练集，如下图所示的那样，我们要拟合出一个合适的分类器。
机器学习——逻辑回归算法

这里的三角形是正样本，而圆形代表负样本。我们将多个类中的一个类标记为正向类（y=1），然后将其他所有类都标记为负向类，这个模型记作h θ ( 1 ) ( x ) h_\theta^{\left( 1 \right)}\left( x \right)h θ(1 )(x )
类似地第我们选择另一个类标记为正向类（y = 2 y=2 y =2），再将其它类都标记为负向类，将这个模型记作 h θ ( 2 ) ( x ) h_\theta^{\left( 2 \right)}\left( x \right)h θ(2 )(x )，依此类推。
机器学习——逻辑回归算法

我们得到一系列的模型简记为： h θ ( i ) ( x ) = p ( y = i ∣ x ; θ ) h_\theta^{\left( i \right)}\left( x \right)=p\left( y=i|x;\theta \right)h θ(i )(x )=p (y =i ∣x ;θ)其中：i = ( 1 , 2 , 3…. k ) i=\left( 1,2,3….k \right)i =(1 ,2 ,3….k )
最后，在我们需要做预测时，我们将所有的分类机都运行一遍，在三个分类器里面输入 x x x，然后我们选择一个让 h θ ( i ) ( x ) h_\theta^{\left( i \right)}\left( x \right)h θ(i )(x ) 最大的 i，即max ⁡ i h θ ( i ) ( x ) \mathop{\max}\limits_i\,h_\theta^{\left( i \right)}\left( x \right)i max h θ(i )(x )，这个分类器就是可信度最高，效果最好的，使用这个分类机我们便可以到的输入的x的具体输出y属于哪一类。

以上就是所有关于逻辑回归算法的内容。这篇文章是我学习吴恩达机器学习记录的一些笔记，有问题欢迎大家提出！

Original: https://blog.csdn.net/Luo_LA/article/details/127578737
Author: Luo_LA
Title: 机器学习——逻辑回归算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/634511/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

OpenCV python（二）图像预处理：改变图像大小 && 提取感兴趣区域

OpenCV python（二）图像预处理：改变图像大小 && 提取感兴趣区域一、改变图像大小 * 1、获取图像宽、高、通道数 2、resize函数 3、案例二…

人工智能 2023年7月18日
0039
pytorch深度学习：神经网络拟合方程(回归问题)

神经网络入门的应用就是拟合方程，这篇文章就针对这个问题来熟悉pytorch怎么搭建神经网络模型。问题提出我们要拟合的是y = x^2这个最简单的一元二次方程，首先要创建我们的x…

人工智能 2023年6月18日
0087
找tensorflow文件位置

因为我是直接在cmd模式下下载的tensorflow，所以找不到他的文件位置。 import moduleprint(module. file) 所以这里就是import tens…

人工智能 2023年5月25日
0059
近端策略优化（PPO）

Proximal Policy Optimization（PPO）一.同策略和异策略如果要学习的智能体和与环境交互的智能体是相同的，我们称之为同策略。如果要学习的智能体和与环境…

人工智能 2023年6月19日
0074
VAE变分自动编码

很感谢李宏毅老师的教程视频，讲得实在是简单通透，视频地址如下：【深度学习】李宏毅Machine Learning (2017,秋，台湾大学) 国语_哔哩哔哩_bilibili 依…

人工智能 2023年5月31日
0091
自动语音识别（ASR）：研究综述【传统语音识别：基于贝叶斯公式，对联合概率P(X|W)·P(W)进行建模（语音识别结果=声学模型×语言模型）】【端到端语音识别：直接对条件概率 P(W|X)进行建模】

人工智能 2023年5月23日
0070
conda环境名称消失问题

无名conda环境解决 conda env不显示名称 conda环境名称消失问题 * 问题复现及解决写在最后 conda环境名称消失问题最近在重装 ESPNET时候，遇到一件烦…

人工智能 2023年6月16日
00111
Python常用的数据清洗方法

Python常用的数据清洗方法在数据处理的过程中，一般都需要进行数据的清洗工作，如数据集是否存在重复、是否存在缺失、数据是否具有完整性和一致性、数据中是否存在异常值等。当发现数据…

人工智能 2023年7月16日
0063
【深度学习】模型评价指标

一、分类任务分类任务一般有二分类、多分类和多标签分类。多分类：表示分类任务中有多个类别，但是对于每个样本有且仅有一个标签，例如一张动物图片，它只可能是猫，狗，虎等中的一种标签…

人工智能 2023年6月15日
0079
365天深度学习训练营-第5周：运动鞋品牌识别

目录一、前言二、我的环境三、代码实现四、重点知识点 1、设置动态学习率 2、早停与保存最佳模型参数五、总结并改进代码一、前言 >- **🍨 本文为[🔗365天深度…

人工智能 2023年6月28日
0084
I. 知识图谱应用案例 — 阿里巴巴电商知识图谱

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月1日
0090
No module named ‘torchvision.models.utils‘

笔者在使用 pytorch=1.10.0, torchvision=0.11.1 的环境运行代码时，运行到语句 from torchvision.models.utils impo…

人工智能 2023年6月16日
0075
OpenCV-Python实战（2）——图像与视频文件的处理

OpenCV-Python实战（2）——图像与视频文件的处理 * – 0. 前言 – 1. 图像与视频文件处理基础 – 2. 图像的读取与写入 …

人工智能 2023年7月19日
0082
Answering Visual-Relational Queries in Web-Extracted Knowledge Graphs

Answering Visual-Relational Queries in Web-Extracted Knowledge Graphs(在web提取的知识图中回答可视化关系查询…

人工智能 2023年6月5日
0093
Collaborativ

介绍 Collaborative Filtering（协同过滤）是一种常见的推荐系统算法，它利用用户行为信息（如评分、点击、购买等）来预测用户的兴趣，并向用户推荐感兴趣的物品。协同…

人工智能 2024年1月5日
0039
噪音对语音识别的准确性有很大的影响，因此常见的算法中通常会对噪音进行处理或者加入噪音模型来提高鲁棒性

问题介绍语音识别是机器学习领域的一个重要任务，其目标是将音频信号转换为对应的文本。然而，噪音是语音识别中一个常见且困扰的问题，会对识别的准确性产生很大的影响。为了提高鲁棒性并降低…

人工智能 2024年1月3日
0021

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31