DJL-Java开发者动手学深度学习之使用Softmax进行分类

2023年7月2日上午6:17 • 人工智能 • 阅读 76

分类问题

我们从一个简单的图片分类问题开始讲起。假如每次给定一个图片，我们可以用一个标量来表求每一个像素，那么每个图片对应的特征可以表求为 { x 1 , x 2 , x 3 , . . . , x n } {x_1,x_2,x_3,…,x_n}{x 1 ,x 2 ,x 3 ,…,x n } 。另外，我们假设每个图片属于喵星人和汪星人的一种。
接下来，我们就可以选择如何用标签进行表求。我们有两个明显的选择：最直接的想法是选择( y ∈ { 1 , 2 } ) (y \in {1, 2} )(y ∈{1 ,2 })，其中整数分别代表 { 狗 , 猫 } {狗, 猫}{狗,猫}。这是在计算机上存储此类信息的有效方法。如果类别间有一些自然顺序，比如说我们试图预测 { 小学 , 中学 , 初中 , 高中 , 大学 } {小学,中学,初中,高中,大学 }{小学,中学,初中,高中,大学}，那么将这个问题转变为回归问题，并且保留这种格式是有意义的。

幸运的是，一般的分类问题并不与类别之间的自然顺序有关。统计学家很早以前就发明了一种表示分类数据的简单方法：独热编码（one-hot encoding）。独热编码是一个向量，它的分量和类别一样多。类别对应的分量设置为1，其他所有分量设置为0。在我们的例子中，标签( y ) (y)(y )将是一个二维向量，其中( 1 , 0 , 0 ) (1, 0, 0)(1 ,0 ,0 )对应于”猫”、( 0 , 1 , 0 ) (0, 1, 0)(0 ,1 ,0 )对应于”狗”,( 0 , 0 , 1 ) (0, 0, 1)(0 ,0 ,1 )对应于”猪”：
y ∈ { ( 1 , 0 , 0 ) , ( 0 , 1 , 0 ) ， ( 0 , 0 , 1 ) } y \in {(1, 0, 0), (0, 1, 0)，(0, 0, 1)}y ∈{(1 ,0 ,0 ),(0 ,1 ,0 )，(0 ,0 ,1 )}

网络结构

为了估计所有可能类别的条件概率，我们需要一个有多个输出项的模型，每个类别对应一个输出。为了解决线性模型的分类问题，我们需要和输出一样多的函数。每个输出对应于一种类型。在我们的例子中，由于我们有4个特征和3个可能的输出类别，参考我们之前讲的线程回归，我们可以写出如下预测公式。

f ( x ) = x 1 w 1 + x 2 w 2 + x 3 w 3 + x 4 w 4 + b f(x) = x_1w_1+x_2w_2+x_3w_3+x_4w_4+b f (x )=x 1 w 1 +x 2 w 2 +x 3 w 3 +x 4 w 4 +b

我们可以用神经网络图来描述这个计算过程。与线性回归一样，softmax回归也是一个单层神经网络。

为了更简洁地表达模型，我们仍然使用线性代数符号。通过向量形式表达为( y = W x + b ) (\mathbf{y} = \mathbf{W} \mathbf{x} + \mathbf{b})(y =W x +b )，这是一种更适合数学和编写代码的形式。由此，我们已经将所有权重放到一个( 3 × 4 ) (3 \times 4)(3 ×4 )矩阵中。对于给定数据样本的特征( x ) (\mathbf{x})(x )，我们的输出是由权重与输入特征进行矩阵向量乘法再加上偏置( b ) (\mathbf{b})(b )得到的。

; 损失函数

接下来，我们需要一个损失函数来度量预测的效果。我们将使用最大似然估计，这与在线性回归 DJL-Java动手学深度学习之线性回归实现中的方法相同。
假定一个向量y ^ \hat{\mathbf{y}}y ^，我们可以将其视为”任意输入 x ^ \hat{\mathbf{x}}x ^的每个类的条件概率”。比如y ^ 1 = P ( 猫 ∣ x ) \hat{y}_1 =P( 猫 \mid \mathbf{x})y ^1 =P (猫∣x )。
我们可以将估计值与实际值进行比较：

P ( Y ∣ X ) = ∏ i = 1 n P ( y ( i ) ∣ x ( i ) ) P(\mathbf{Y} \mid \mathbf{X}) = \prod_{i=1}^n P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)})P (Y ∣X )=i =1 ∏n P (y (i )∣x (i ))

根据最大似然估计，我们最大化( P ( Y ∣ X ) ) (P(\mathbf{Y} \mid \mathbf{X}))(P (Y ∣X ))，相当于最小化负对数似然：

− log ⁡ P ( Y ∣ X ) = ∑ i = 1 n − log ⁡ P ( y ( i ) ∣ x ( i ) ) = ∑ i = 1 n l ( y ( i ) , y ^ ( i ) ) -\log P(\mathbf{Y} \mid \mathbf{X}) = \sum_{i=1}^n -\log P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)}) = \sum_{i=1}^n l(\mathbf{y}^{(i)}, \hat{\mathbf{y}}^{(i)})−lo g P (Y ∣X )=i =1 ∑n −lo g P (y (i )∣x (i ))=i =1 ∑n l (y (i ),y ^(i ))

其中，对于任何标签( y ) (\mathbf{y})(y )和模型预测( y ^ ) (\hat{\mathbf{y}})(y ^)，损失函数为：

l ( y , y ^ ) = − ∑ j = 1 q y j log ⁡ y ^ j l(\mathbf{y}, \hat{\mathbf{y}}) = – \sum_{j=1}^q y_j \log \hat{y}_j l (y ,y ^)=−j =1 ∑q y j lo g y ^j
通常我们将上面公式称为交叉熵损失（cross-entropy loss）。

模型预测和评估

在训练softmax回归模型后，给出任何样本特征输入，我们可以预测每个输出类别的概率。通常我们使用预测概率最高的类别作为输出类别。

关注公众号，我们后续给出Softmax的代码实现。

Original: https://blog.csdn.net/xxcnb/article/details/122017491
Author: ousinka
Title: DJL-Java开发者动手学深度学习之使用Softmax进行分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/664866/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

安卓–多指触控

1、体验与发现首先看一下代码： @Override public boolean onTouchEvent(MotionEvent event) { switch (event….

人工智能 2023年6月27日
0081
关于pytorch在训练模型时常见错误

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月28日
0077
TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head forObject Detection on Drone-captur

标题 TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head forObject Detection on…

人工智能 2023年7月11日
0056
Unknown layer: TCN 关于加载自己定义类和导入tcn模型的问题

Unknown layer: TCN 关于加载自己定义类和导入tcn模型的问题报错合集： ValueError: Unknown layer: TCN The added lay…

人工智能 2023年5月23日
00144
Transformers 库的基本使用

本内容主要介绍 Transformers 库的基本使用。 Transformers 库是一个开源库，其提供的所有预训练模型都是基于 transformer 模型结构的。 1.1….

人工智能 2023年6月16日
00219
Transformer主干网络——PVT_V1保姆级解析

前言论文地址：PVT1代码地址：github作者很厉害…各种cv的顶会收割机… 系列文章 Transformer主干网络——ViT保姆级解析Transfo…

人工智能 2023年5月26日
0080
问题解决之 RuntimeError: Couldn‘t load custom C++ ops. This can happen if your PyTorch XXX

一、问题描述在深度学习环境 GPU 版 pytorch 下，运行代码出现报错，关键报错信息如下： RuntimeError: Couldn’t load custom C++ o…

人工智能 2023年7月4日
0086
pytorch模型从训练到LibTorch部署(标贝科技)

1、pytorch和libtorch安装(标贝科技) PyTorch 是Torch7 团队开发的，从它的名字就可以看出，其与Torch 的不同之处在于PyTorch 使用了Pyth…

人工智能 2023年6月6日
0092
【线性回归】for循环求简单线性回归的误差函数

导览全文了解数据集目标简述主体代码展示 01、了解数据集 data.csv：一个保存着若干数据点坐标的文件。首先导入相关依赖，通过散点图的形式画出数据导入数据库 impo…

人工智能 2023年6月17日
0050
Stata重复与去重

我们在处理数据的时候，经常会遇到观测值（数据中，每一行叫一个观测值）有重复的情况；有些时候这些观测值是有差别的，而这些差别有可能要关注，也有可能不关注。下面我们来看一下下图的数据…

人工智能 2023年7月15日
00101
【几种数据集采样方式】

在训练神经网络时，如果数据量太大，无法一次性将数据放入到网络中进行训练，所以需要进行分批处理数据读取。这一个问题涉及到如何从数据集中进行读取数据的问题，PyTorch 框架提供了 …

人工智能 2023年5月28日
0049
Ubuntu 20.04搭建OpenCV 4.5.0 & C++环境

目录 1. 安装依赖项 2. 下载OpenCV 4.5.0源文件 3. Cmake配置和编译OpenCV 4. 环境配置 * 4.1 配置pkg-config环境 4.2 配置动态…

人工智能 2023年7月18日
0046
Pytorch Softmax用法

Pytorch Softmax用法 pytorch中的softmax主要存在于两个包中分别是：torch.nn.Softmax(dim=None)torch.nn.function…

人工智能 2023年7月21日
0047
【Educoder作业】问题求解——数值表示

这节课的讲的原码补码，代码实现倒是次要的，主要是理解为什么会有补码这种东西，为什么通过补码进行加法可以代替减法这个代码实现的巧妙在于用a b s abs a b s和e v a …

人工智能 2023年7月4日
0085
Nature子刊：支持人类情景记忆编码的振荡信号与基因表达的相关性

《本文同步发布于”脑之说”微信公众号，欢迎搜索关注~~》1 引言全基因组关联研究(genome-wide association studies, GWAS…

人工智能 2023年7月18日
0041
计算机视觉(多目标跟踪)算法中卡尔曼滤波算法详解

目录一、背景详解二、卡尔曼滤波(Kalman)原理 * 代码实践三、总结参考文献一、背景详解卡尔曼滤波（Kalman filter）是一种高效的自回归滤波器，它能在存…

人工智能 2023年6月24日
0078

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

DJL-Java开发者动手学深度学习之使用Softmax进行分类

分类

分类问题

网络结构

; 损失函数

模型预测和评估

大家都在看