逻辑回归中的损失函数是什么，为什么使用这个函数

2023年12月31日上午1:34 • 人工智能 • 阅读 39

逻辑回归中的损失函数是什么？为什么使用这个函数？

逻辑回归是一种二分类算法，用于预测某个样本属于某一类的概率。为了进行模型训练，我们需要定义一个合适的损失函数来衡量预测值和真实值之间的差异。在逻辑回归中，常用的损失函数是二元交叉熵损失函数（Binary Cross Entropy Loss）。

这个损失函数被广泛应用于逻辑回归领域，原因有两点：
1. 逻辑回归旨在将线性函数输出映射到概率值，且概率值应该在0到1之间。而交叉熵损失函数是一个非负函数，当预测值和真实值越接近时，损失越小，模型拟合得越好。同时，交叉熵损失只需要考虑预测值所属类别的概率，而不需要知道其他类别的概率。
2. 在数学推导中，交叉熵损失函数的梯度相对容易计算，利于使用梯度下降等优化算法进行模型参数的更新。

下面将详细介绍逻辑回归中的损失函数、推导过程以及使用Python来计算和展示的步骤。

算法原理

逻辑回归是一种广义线性模型，它通过对输入变量进行线性组合，并通过一个激活函数（即逻辑函数）将线性输出转化为概率。

逻辑函数常用的一种形式是sigmoid函数，其表达式为：
$$\sigma(z) = \frac{1}{1+e^{-z}}$$
其中，$z=w^Tx$是由输入变量$x$和权重向量$w$形成的线性组合的结果。

sigmoid函数的取值范围在0到1之间，因此可以将其解释为样本属于某个类别的概率。

损失函数推导

在逻辑回归中，我们将使用最大似然估计来推导损失函数。假设我们有$m$个训练样本$(x^{(i)}, y^{(i)})$，其中，$y^{(i)}$表示样本的真实标签，如果$y^{(i)}=1$，则表示样本属于正例，如果$y^{(i)}=0$，则表示样本属于反例。样本属于正例的概率可以表示为：
$$p(y^{(i)}=1 | x^{(i)}) = h_{w}(x^{(i)})$$
其中，$h_{w}(x^{(i)})$表示逻辑回归模型的预测值。由于样本的真实标签只能取1和0两个值，那么样本属于反例的概率可以表示为：
$$p(y^{(i)}=0 | x^{(i)}) = 1 – h_{w}(x^{(i)})$$

我们可以将这两种情况合并为一个公式：
$$p(y^{(i)} | x^{(i)}) = (h_{w}(x^{(i)}))^{y^{(i)}} (1 – h_{w}(x^{(i)}))^{1 – y^{(i)}}$$

为了找到最合适的模型参数$w$，我们需要最大化样本数据集的联合概率，即所有样本属于正例和反例的概率的乘积。这等价于最小化对数似然损失函数：
$$\begin{align}
J(w) &= – \frac{1}{m} \sum_{i=1}^{m} [y^{(i)} \log(h_{w}(x^{(i)})) + (1 – y^{(i)}) \log(1 – h_{w}(x^{(i)}))]
\end{align}$$

通过这个损失函数，我们可以评估模型的预测结果与真实标签之间的差异。当预测结果与真实标签完全一致时，损失函数取得最小值为0。

计算步骤

要使用逻辑回归算法进行模型训练，需要进行以下步骤：

准备训练数据：包括输入特征$x$和对应的真实标签$y$。
初始化模型参数：包括权重向量$w$和偏置项$b$。
定义逻辑函数和损失函数。
使用优化算法（如梯度下降）进行模型训练，通过迭代更新模型参数，使损失函数最小化。
根据模型参数和输入特征进行预测。

Python代码示例

import numpy as np
import matplotlib.pyplot as plt

# 定义sigmoid函数
def sigmoid(z):
 return 1 / (1 + np.exp(-z))

# 定义逻辑回归模型
def logistic_regression(X, y, num_iterations, learning_rate):
 m, n = X.shape
 W = np.zeros((n, 1))
 b = 0
 costs = []

 for i in range(num_iterations):
 # 计算模型预测值
 Z = np.dot(X, W) + b
 A = sigmoid(Z)

 # 计算损失函数
 cost = -np.sum(y artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls np.log(A) + (1 - y) artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls np.log(1 - A)) / m
 costs.append(cost)

 # 计算梯度
 dZ = A - y
 dW = np.dot(X.T, dZ) / m
 db = np.sum(dZ) / m

 # 更新参数
 W -= learning_rate artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls dW
 b -= learning_rate artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls db

 return W, b, costs

# 生成虚拟数据集
np.random.seed(0)
num_samples = 100
X = np.random.randn(num_samples, 2)
y = np.random.randint(0, 2, (num_samples, 1))

# 添加偏置列
X_with_bias = np.hstack((np.ones((num_samples, 1)), X))

# 调用逻辑回归算法
W, b, costs = logistic_regression(X_with_bias, y, num_iterations=1000, learning_rate=0.01)

# 绘制损失函数变化曲线
plt.plot(costs)
plt.xlabel('Iterations')
plt.ylabel('Cost')
plt.title('Cost function')
plt.show()

代码解释：
– 首先，我们导入必要的库，包括NumPy（用于数值计算）和Matplotlib（用于可视化）。
– 然后，我们定义了sigmoid函数，用于逻辑函数的计算。
– 接下来，我们定义了一个logistic_regression函数，用于实现逻辑回归模型的训练。该函数接受输入特征X、真实标签y、迭代次数num_iterations和学习率learning_rate作为参数。
– 在logistic_regression函数内部，我们首先初始化模型参数W和b，并创建一个空列表costs用于存储每次迭代后的损失值。
– 然后，我们通过迭代计算模型的预测值A、损失函数cost、梯度dW和db，并更新参数W和b。
– 最后，我们返回更新后的参数W和b以及损失函数值的列表costs。
– 在主程序中，我们生成了一个虚拟数据集，然后调用logistic_regression函数进行模型训练，并绘制了损失函数的变化曲线。

通过运行以上代码，我们可以得到逻辑回归模型的参数和损失函数的变化曲线，从而评估模型的训练效果。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/821756/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

tensorflow-gpu安装及注意事项

tensorflow-gpu安装 1.CUDA安装打开显卡驱动，找到显卡对应的CUDA版本（如图所示此电脑显卡对应的cuda为11.3.1）帮助-》系统信息-》组件进入CUD…

人工智能 2023年5月25日
0083
yolox的相关改动

yolox增加一个浅层检测分支前言该篇文章主要介绍yolox中如何增加一个检测层，之前的yolov3-yolov5增加检测分支都有人再写，我网上搜索没看到有yolox增加检测分…

人工智能 2023年6月25日
00147
python爬虫系列（一）——城市公交线路及站点数据获取

回答1：使用pyquery可以通过CSS选择器或XPath表达式来查找HTML文档中的元素，从而提取所需的。具体步骤如下： 1. 导入pyquery库：from pyquery…

人工智能 2023年6月19日
0084
神经网络与深度学习（五）前馈神经网络（3）鸢尾花分类

文章目录 * – 深入研究鸢尾花数据集 – 4.5 实践：基于前馈神经网络完成鸢尾花分类 – + * 4.5.1 小批量梯度下降法 * 4.5….

人工智能 2023年7月3日
0067
目标检测 – 主流算法介绍 – 从RCNN到DETR

目标检测是计算机视觉的一个非常重要的核心方向，它的主要任务目标定位和目标分类。在深度学习介入该领域之前，传统的目标检测思路包括区域选择、手动特征提取、分类器分类。由于手动提取特征…

人工智能 2023年5月28日
0087
【目标检测】39、一文看懂计算机视觉中的数据增强

文章目录 * – 一、Cutout – 二、Random Erasing – 三、Mixup – 四、CutMix – …

人工智能 2023年7月28日
0054
MXNet支持哪些常见的深度学习框架和算法模型

MXNet对常见的深度学习框架和算法模型的支持在MXNet中，支持许多常见的深度学习框架和算法模型，包括卷积神经网络（CNN）、循环神经网络（RNN）以及常见的预训练模型，如Re…

人工智能 2024年1月1日
0026
【注意力机制】CBAM详解

论文题目：《CBAM: Convolutional Block Attention Module》论文地址：https://arxiv.org/pdf/1807.06521.pdf…

人工智能 2023年5月26日
0095
数据分析八大模型：详解RFM模型

大家好，我是爱学习的小xiong熊妹。今天跟大家分享的是一个经常被提及，但是价值被严重低估的模型：RFM模型。一、RFM的基本思路 RFM模型由三个基础指标组成： R：最近一次…

人工智能 2023年7月15日
0076
【医疗人工智能】通过强化学习和分类的自适应对齐进行有效的症状查询和诊断

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月1日
00105
Neo4j入门（二）批量插入节点、关系

本文将介绍如何在Neo4j中批量插入节点、关系，提升图谱构建的效率。在讲解批量插入节点、关系前，我们需要了解下节点重复创建问题。节点重复创建在Neo4j中，我们如果对同一个节点…

人工智能 2023年6月1日
00109
【cartographer_ros】三：发布和订阅雷达LaserScan信息

上一节介绍和测试了cartographer的官方demo。本节会编写ros系统中，最常用的激光雷达LaserScan传感数据的订阅和发布，方便在cartographer中加入自己…

人工智能 2023年6月10日
0091
Cityscapes数据集的深度完整解析

cityscapes数据集是分割模型训练时比较常用的一个数据集，他还可以用来训练GAN网络生成街景图片。数据集下载和文件夹组成：整个数据集包含50个欧洲城市，5000张精细标注…

人工智能 2023年7月13日
00129
anaconda查看、创建、切换虚拟环境常用命令

一、创建新的虚拟环境： conda create -n xxx（创建名为xxx的虚拟环境）。例：conda create -n test 如果后面加上python=xxx，说明指…

人工智能 2023年6月24日
0055
超分算法ESRT：Transformer for Single Image Super-Resolution

这篇文章网络结构ESRT（ Efficient Super-Resolution Transformer）还是蛮复杂的，是一个CNN和Transformer结合的结构。文章提出了一…

人工智能 2023年5月26日
0080
时间序列分析（11）| 向量自回归模型（VAR模型）

上篇介绍的传递函数模型的假设是，会影响到，而不会影响到，因此称为外生变量（exogenous variable）。如果和以及更多的变量之间能够相互影响，此时它们就是内生变量（end…

人工智能 2023年6月16日
0096

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31