训练神经网络解决二分类问题的原理

2023年7月2日下午3:25 • 人工智能 • 阅读 78

昨日训练一个二分类的神经网络，最后一层忘记加sigmoid，发现自己一直做回归的任务，对分类这块还真不太熟练，因此写下这篇博文作为回顾。

KL散度是机器学习中常用的一个指标，用于衡量两个概率分布之间的距离，其必须拥有相同的支集，定义为K L ( P ∣ ∣ Q ) = E x ∼ P [ l o g P ( x ) Q ( x ) ] KL(P||Q)=\mathbb{E}_{x\sim P}[log \frac{P(x)}{Q(x)}]K L (P ∣∣Q )=E x ∼P [l o g Q (x )P (x )]。

交叉熵定义为：H [ P , Q ] = H [ P ] + K L ( P ∣ ∣ Q ) = − E x ∼ P l o g Q ( x ) H[P,Q]=H[P]+KL(P||Q)=-\mathbb{E}_{x \sim P}logQ(x)H [P ,Q ]=H [P ]+K L (P ∣∣Q )=−E x ∼P l o g Q (x )

最大似然估计

学习的基本原则就是最大似然估计，学习的其实是概率分布p m o d e l ( x ; θ ) p_{model}(x;\theta)p m o d e l (x ;θ)，记数据为X = { x 1 , x 2 , ⋯ , x n } X={x_1, x_2, \cdots, x_n}X ={x 1 ,x 2 ,⋯,x n },则最大似然估计表示为：
θ = arg max ⁡ p m o d e l ( X ; θ ) \theta = \argmax p_{model}(X;\theta)θ=arg max p m o d e l (X ;θ)
从贝叶斯的角度考虑，这等价于均匀先验下的最大后验估计。将上式改写为对数似然的形式，是：
θ = arg max ⁡ ∑ i = 1 n l o g p m o d e l ( x i ; θ ) \theta = \argmax \sum_{i=1}^{n}logp_{model}(x_i;\theta)θ=arg max i =1 ∑n l o g p m o d e l (x i ;θ)
在等式前乘以常数的行为并不影响最大化过程，因此：

θ = arg max ⁡ 1 n ∑ i = 1 n l o g p m o d e l ( x i ; θ ) \theta = \argmax \frac{1}{n}\sum_{i=1}^{n}logp_{model}(x_i;\theta)θ=arg max n 1 i =1 ∑n l o g p m o d e l (x i ;θ)
这等价于：
θ = arg max ⁡ E x ∼ p ^ d a t a l o g p m o d e l ( x i ; θ ) \theta = \argmax \mathbb{E}{x\sim \hat{p}{data}}logp_{model}(x_i;\theta)θ=arg max E x ∼p ^d a t a l o g p m o d e l (x i ;θ)
与交叉熵的公式对比，会发现最大似然估计实际上在最小化交叉熵。进一步的，最小化了KL散度，也就是：

θ = arg min ⁡ E x ∼ p ^ d a t a [ − l o g p m o d e l ( x i ; θ ) d a t a + p ^ d a t a ( x ; θ ) ] \theta = \argmin \mathbb{E}{x\sim \hat{p}{data}}[-logp_{model}(x_i;\theta)data+\hat{p}_{data}(x;\theta)]θ=arg min E x ∼p ^d a t a [−l o g p m o d e l (x i ;θ)d a t a +p ^d a t a (x ;θ)]
这是由于第二项与θ \theta θ无关，在最小化的过程中可以忽略。

二分类问题

对于二分类问题，我们实际上在最小化数据经验分布和伯努利分布之间的交叉熵，也就是
p m o d e l ( x ; θ ) = θ x ( 1 − θ ) 1 − x , x ∈ { 0 , 1 } , θ ∈ [ 0 , 1 ] p_{model}(x;\theta)=\theta^x(1-\theta)^{1-x}, x\in{0,1}, \theta \in [0,1]p m o d e l (x ;θ)=θx (1 −θ)1 −x ,x ∈{0 ,1 },θ∈[0 ,1 ]
则最小化交叉熵表示为：
θ = arg max ⁡ E x ∼ p ^ d a t a [ x l o g θ + ( 1 − x ) l o g ( 1 − θ ) ] = a r g m a x 1 n ∑ i = 1 n [ x i l o g θ + ( 1 − x i ) l o g ( 1 − θ ) ] \theta = \argmax \mathbb{E}{x\sim \hat{p}{data}}[xlog\theta+(1-x)log(1-\theta)]\ =argmax \frac{1}{n}\sum_{i=1}^{n}[x_ilog\theta+(1-x_i)log(1-\theta)]θ=arg max E x ∼p ^d a t a [x l o g θ+(1 −x )l o g (1 −θ)]=a r g ma x n 1 i =1 ∑n [x i l o g θ+(1 −x i )l o g (1 −θ)]

神经网络在这里起到的作用实际上是提供参数θ \theta θ,也就是θ = f ( x ; w ) \theta = f(x;w)θ=f (x ;w )
因此，我们对于二分类问题，实际的优化是：
θ = arg max ⁡ 1 n ∑ i = 1 n [ x i l o g f ( x ; w ) + ( 1 − x i ) l o g ( 1 − f ( x ; w ) ) ] \theta = \argmax \frac{1}{n}\sum_{i=1}^{n}[x_ilogf(x;w)+(1-x_i)log(1-f(x;w))]θ=arg max n 1 i =1 ∑n [x i l o g f (x ;w )+(1 −x i )l o g (1 −f (x ;w ))]

伯努利分布中的参数θ \theta θ代表的含义是x = 1 x=1 x =1的概率，因此是一个介于( 0 , 1 ) (0,1)(0 ,1 )之间的数字。因此，在设计神经网络结构的时候，需要在最后加上一个sigmoid激活函数，使神经网络的输出值归一化。而在损失函数的选择上，我们选择所谓的交叉熵。实际上，回归问题的损失函数也是交叉熵，只不过可以推导出均方损失。

Original: https://blog.csdn.net/RSstudent/article/details/126015264
Author: Remote Sensing
Title: 训练神经网络解决二分类问题的原理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/665707/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

知识图谱-实体识别

一、信息抽取概述输入：领域知识本体（是个抽象的概念，外在的描述是本体的外在符号，语义层面的本体就是建立一种映射关系，将所有描述某类本体的符号都映射到这个本体上，建立本体集合，并…

人工智能 2023年6月1日
00117
python kmean 多维_如何使用KMeans对多维和未知数据进行聚类？

@Nael Alsaleh，你可以用下面的方法运行K-Means：from sklearn.cluster import KMeans import numpy as np imp…

人工智能 2023年6月2日
0057
向毕业妥协系列之机器学习笔记:构建ML系统(三)

目录一.机器学习开发的迭代二.误差分析三.添加更多数据四.迁移学习五.机器学习项目的完整周期一.机器学习开发的迭代然后我们以识别垃圾电子邮件为例来讲解一下这个过程如…

人工智能 2023年6月30日
0067
halcon知识：差分模板variation_model

一、差分模板这个示例程序展示了如何使用 HALCON 的变分模型算子执行典型的打印质量检查。程序检测在笔夹上的不正确打印。该程序类似于程序 print_check.hdev。主要…

人工智能 2023年5月26日
0075
机器学习中的梯度下降法

1. 机器学习中为什么需要梯度下降梯度下降是机器学习中常见优化算法之一，梯度下降法有以下几个作用：（ 1 ）梯度下降是迭代法的一种，可以用于求解最小二乘问题。（ 2 ）在求解…

人工智能 2023年6月16日
0098
基于Android的天气预报查询系统设计

早前模仿别人的做的一个APP，基于Android的天气预报设计，加上语音识别的功能，现在分享一下，希望可以给大家带来帮助。代码仓库：https://github.com/Yang-…

人工智能 2023年5月27日
0089
万字解析——区块链hyperledger fabric2.2部署实战教程

导航一、前言二、hyperledger fabric介绍三、测试网络示例 * 3.1 搭建开发环境 3.2 安装示例、二进制和 Docker 镜像 3.3 使用Fabric测…

人工智能 2023年7月30日
0072
逻辑回归模型是否需要进行特征缩放

是否需要进行特征缩放的问题在逻辑回归模型中，是否需要进行特征缩放是一个常见的问题。特征缩放是指将特征数据标准化到特定的范围内，以保证模型能够更好地拟合数据。本文将介绍逻辑回归模型…

人工智能 2023年12月31日
0029
直立平衡调试总结——十六届智能车双车组

目录 * – 简介 – + * 本文以第十六届双车组（直立）软件调试为主，第十七届部分主要讲通讯与控距 – 一、第十六届双车组： –…

人工智能 2023年6月17日
0099
RuntimeError Given groups=1, weight of size [6, 5, 3, 3], expected input[4, 2, 6, 6] to have…及问题解决

RuntimeError: Given groups=1, weight of size [64, 512, 3, 3], expected input[4, 2048, 66, …

人工智能 2023年6月16日
00124
多传感器融合定位第十章基于优化的定位方法

第十章基于优化的定位方法本章是基于先验地图的图优化方法，先验地图的构建可参考多传感器融合定位第九章基于优化的建图方法代码下载： 1.环境配置：出现以下问题，是由于 ma…

人工智能 2023年5月26日
0075
人工智能实验1-波士顿房价预测

人工智能实验1-波士顿房价预测 1 实验内容 * 1.1 波士顿房价预测任务 1.2 线性回归模型 2 源代码 * 2.1 数据处理 – 2.1.1 读入数据 2.1….

人工智能 2023年6月25日
00244
【数学模型】层次分析

Hello大家好，今年数学建模国赛将于9月中旬举行，是时候提前做一些准备了。本次模型非常简单，只是介绍比较得详细，我下次注意，争取限制下字数。文末准备了层次分析-python模…

人工智能 2023年7月5日
0061
《知识图谱方法、实践与应用》- 第六章知识图谱推理

——总结自王昊奋、漆桂林、陈华钧主编的《知识图谱方法、实践及应用》一书的第六章知识图谱推理。 1 面向知识图谱的推理主要围绕关系的推理展开，即基于图谱中已有的事实或关系推断出未…

人工智能 2023年6月1日
0075
R语言使用factor函数处理名义变量（nominal、无序/标称分类变量）、使用ordered函数处理序数变量（ordinal、有序分类/标称变量）

[S. V. Patankar 和 D. B. Spalding 提出了分布阻力的概念，来表征壳程固体表面对流体流动的影响，即把壳程内的换热管束、支撑板以及折流挡板等固体结构看成是…

人工智能 2023年7月2日
0085
安装Anaconda 并创建 Python 虚拟环境

一、Anaconda下载打开Anaconda官网点击：https://www.anaconda.com/1.安装后，cmd 输入python 验证是否成功exit() 退出；…

人工智能 2023年7月6日
0054

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

训练神经网络解决二分类问题的原理

最大似然估计

二分类问题

大家都在看