softmax回归

2023年6月17日下午6:42 • 人工智能 • 阅读 84

线性回归适用于 输出连续值的情景； softmax回归适用于输出像图像类别这样的 离散值。和线性回归不同，softmax回归的输出单元从一个变成多个，且引入了softmax运算使输出更适合离散值的预测和训练。

假设训练数据集中图像的真实标签为狗、猫和鸡（假设可以用四像素表示出这三种动物），这些标签分别对应离散值为y1,y2,y3（通常使用离散的数值表示类别，例如y1=1,y2=2,y3=3）。虽然可以使用回归模型来建模，并将预测值就近定点化到1,2,3这三个离散值之中，但这种 连续值到离散值的转化通常会影响分类质量。

因为有4种特征和3种输出动物类别，所以权重包含12个标量（带下标的w，

）、偏差包含3个标量（带下标的b,

），且对每个输入计算o1,o2,o3这三个输出：

softmax回归同线性回归一样，也是一个单层神经网络。由于每个输出o1,o2,o3的计算都要依赖于所有的输入x1,x2,x3,x4，softmax回归的输出层也是一个全连接层。

softmax回归是一个单层神经网络

既然分类问题需要得到离散的预测输出，一个简单的办法是将输出值

当作预测类别是i的置信度，并将值最大的输出所对应的类作为预测输出。

然而，直接使用输出层的输出有两个问题。一方面，由于输出层的输出值的范围不确定，很难在直观上判断这些值的意义（若输出值分别为

、10、

）；另一方面，由于真实标签是离散值，这些离散值与不确定范围的输出值之间的误差难以衡量。

softmax运算符解决了以上两个问题，通过下式将输出值变换成值为正且和为1的概率分布：

交叉熵损失函数

我们已经知道，softmax运算将输出变换成一个合法的类别预测分布。实际上，真实标签也可以用类别分布表示：对于样本i，构造向量

，使其第

（样本i类别的离散数值）个元素为1，其余为0.这样训练目标可以设为使预测概率分布

尽可能接近真实的标签概率分布

。

线性回归中使用平方损失函数

。然而，想要预测分类结果正确，其实并不需要预测概率完全等于标签概率。例如，在图像分类的例子里，如果

，那么只需

比其他两个预测值

、

大就可以。即使，

值为0.6，不管其他两个预测值为多少，类别预测均正确。而平方损失则过于严格，例如

=0.2比

=0，

=0.4的损失要小很多，虽然两者都有同样正确的分类。

可以通过使用更适合衡量两个概率分布差异的测量函数改善上述问题。其中交叉熵（cross entropy）是一个常用的衡量方法：

交叉熵只关心对正确类别的分类的预测概率，因为只要其值足够大，就可以确保分类结果正确。当遇到一个样本有多个标签时，例如图像里含有不止一个物体时，交叉熵同样只关心对图像中出现的物体类别的预测概率。

softmax回归代码：

%matplotlib inline
import d2lzh as d2l
from mxnet.gluon import data as gdata
import sys
import time

#&#x83B7;&#x53D6;&#x6570;&#x636E;&#x96C6;
mnist_train = gdata.vision.FashionMNIST(train=True)
mnist_test = gdata.vision.FashionMNIST(train=False)

&#x672C;&#x51FD;&#x6570;&#x5DF2;&#x4FDD;&#x5B58;&#x5728;d2lzh&#x5305;&#x4E2D;&#x65B9;&#x4FBF;&#x4EE5;&#x540E;&#x4F7F;&#x7528;
def get_fashion_mnist_labels(labels):
    text_labels = ['t-shirt', 'trouser', 'pullover', 'dress', 'coat',
                   'sandal', 'shirt', 'sneaker', 'bag', 'ankle boot']
    return [text_labels[int(i)] for i in labels]

&#x672C;&#x51FD;&#x6570;&#x5DF2;&#x4FDD;&#x5B58;&#x5728;d2lzh&#x5305;&#x4E2D;&#x65B9;&#x4FBF;&#x4EE5;&#x540E;&#x4F7F;&#x7528;
def show_fashion_mnist(images, labels):
    d2l.use_svg_display()
    # &#x8FD9;&#x91CC;&#x7684;_&#x8868;&#x793A;&#x6211;&#x4EEC;&#x5FFD;&#x7565;&#xFF08;&#x4E0D;&#x4F7F;&#x7528;&#xFF09;&#x7684;&#x53D8;&#x91CF;
    _, figs = d2l.plt.subplots(1, len(images), figsize=(12, 12))
    for f, img, lbl in zip(figs, images, labels):
        f.imshow(img.reshape((28, 28)).asnumpy())
        f.set_title(lbl)
        f.axes.get_xaxis().set_visible(False)
        f.axes.get_yaxis().set_visible(False)

&#x8BFB;&#x53D6;&#x5C0F;&#x6279;&#x91CF;
batch_size = 256
transformer = gdata.vision.transforms.ToTensor()
if sys.platform.startswith('win'):
    num_workers = 0  # 0&#x8868;&#x793A;&#x4E0D;&#x7528;&#x989D;&#x5916;&#x7684;&#x8FDB;&#x7A0B;&#x6765;&#x52A0;&#x901F;&#x8BFB;&#x53D6;&#x6570;&#x636E;
else:
    num_workers = 4

train_iter = gdata.DataLoader(mnist_train.transform_first(transformer),
                              batch_size, shuffle=True,
                              num_workers=num_workers)
test_iter = gdata.DataLoader(mnist_test.transform_first(transformer),
                             batch_size, shuffle=False,
                             num_workers=num_workers)

由于并未按照书中方法使用FashionMNIST数据集，故将我使用FashionMNIST数据集的方法展示如下：

FashionMNIST数据集下载地址：https://github.com/zalandoresearch/fashion-mnist

在data数据集中会有FashionMNIST数据集（需要解压缩）：

此方法参考链接：https://blog.csdn.net/CBCZJL/article/details/104414904

打开压缩文件

def data_load(path, kind):
    images_path = os.path.join(path,'%s-images-idx3-ubyte.gz' % kind)
    labels_path = os.path.join(path,'%s-labels-idx1-ubyte.gz' % kind)
    with gzip.open(labels_path,'rb') as lbpath:
        labels = np.frombuffer(lbpath.read(),dtype=np.uint8, offset=8)
    with gzip.open(images_path,'rb') as impath:
        images = np.frombuffer(impath.read(),dtype=np.uint8, offset=16).reshape(len(labels),784)
    return images, labels

读取转化数据

X_train, y_train = data_load('E:/FashionMNIST','train')
X_test, y_test = data_load('E:/FashionMNIST','t10k')
X_train_tensor = torch.from_numpy(X_train).to(torch.float32).view(-1,1,28,28)*(1/255)
X_test_tensor = torch.from_numpy(X_test).to(torch.float32).view(-1,1,28,28)*(1/255)
y_train_tensor = torch.from_numpy(y_train).to(torch.float32).view(-1,1)
y_test_tensor = torch.from_numpy(y_test).to(torch.float32).view(-1,1)

mnist_train = torch.utils.data.TensorDataset(X_train_tensor, y_train_tensor)
mnist_test = torch.utils.data.TensorDataset(X_test_tensor, y_test_tensor)

batch_size = 256
train_iter = torch.utils.data.DataLoader(mnist_train, batch_size=batch_size, shuffle=True)
test_iter = torch.utils.data.DataLoader(mnist_test, batch_size=batch_size, shuffle=False)

softmax回归的简洁实现

%matplotlib inline
import d2lzh as d2l
from mxnet import gluon, init
from mxnet.gluon import loss as gloss, nn

&#x83B7;&#x53D6;&#x548C;&#x8BFB;&#x53D6;&#x6570;&#x636E;
batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)

&#x5B9A;&#x4E49;&#x548C;&#x521D;&#x59CB;&#x5316;&#x6A21;&#x578B;
net = nn.Sequential()
net.add(nn.Dense(10))
net.initialize(init.Normal(sigma=0.01))

softmax&#x548C;&#x4EA4;&#x53C9;&#x71B5;&#x635F;&#x5931;&#x51FD;&#x6570;
loss = gloss.SoftmaxCrossEntropyLoss()

&#x5B9A;&#x4E49;&#x4F18;&#x5316;&#x7B97;&#x6CD5;
trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': 0.1})

&#x8BAD;&#x7EC3;&#x6A21;&#x578B;
num_epochs = 5
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, None, None, trainer)

Original: https://blog.csdn.net/chenyuhuaxin/article/details/124273875
Author: 沉沉沉小姐
Title: softmax回归

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/631442/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

大数据发展前景及就业方向【大数据专业讲座】

一、大数据发展前景及趋势 1、政策解读当前，随着5G、云计算、人工智能等新一代信息技术快速发展，信息技术与传统产业加速融合，数字经济蓬勃发展，数据中心作为各个行业信息系统运行的物理…

人工智能 2023年7月15日
0048
OpenCV实战之人脸美颜美型（一）——开发环境搭建

### 回答1：人脸_识别系统是一种利用计算机技术对 _人脸_进行识别和验证的系统。其中， _opencv 人脸_检测是一种基于 _opencv_库的 _人脸_检测算法，可以通过…

人工智能 2023年7月20日
0043
Attention机制介绍

因为要写作业，我都不记得老师上课有讲attention，作业十分艰难的写完了，但是还不知道attention是个啥，在此，准备看一篇文章，搞懂这是个啥。原文地址解释 she is…

人工智能 2023年5月30日
0099
pytorch 动态调整学习率，学习率自动下降，根据loss下降

0 为什么引入学习率衰减？我们都知道几乎所有的神经网络采取的是梯度下降法来对模型进行最优化，其中标准的权重更新公式：W + = α ∗ gradient W+=\alpha * …

人工智能 2023年7月21日
0070
Fama-Macbeth回归图形化：EAP.fama_macbeth.Fama_macbeth_regress.plot()

实证资产定价（Empirical asset pricing）已经发布于Github和Pypi. 包的具体用法(Documentation)博主将会陆续在CSDN中详细介绍，也可以…

人工智能 2023年6月18日
00127
MLP神经网络，GRNN神经网络，SVM神经网络以及深度学习神经网络对比识别人体健康非健康数据

目录一、理论基础二、案例背景 1.问题描述 2.思路流程三、部分MATLAB程序四、仿真结论分析五、参考文献一、理论基础 MLP多层感知器神经网络（Multi-laye…

人工智能 2023年7月13日
0052
R语言dplyr包为dataframe添加数据列实战（ Add Columns）：基于mutate()函数添加一个或者多个数据列（尾部添加、头部添加、条件生成、某个具体数据列的前后）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月31日
0070
【深度学习基本概念】上采样、下采样、卷积、池化

上采样概念上采样（upsampling）：又名放大图像、图像插值；主要目的是放大原图像,从而可以显示在更高分辨率的显示设备上；上采样有3种常见的方法：双线性插值(bilin…

人工智能 2023年6月16日
0064
UDS服务基础篇之2E

UDS诊断服务基础篇之2E 前言 2E服务作为诊断服务中的基础服务，可以简单理解为就是一个用于写入ECU数据的外部接口，可实时获取软件内部的相关的状态信息。鉴于本文是基础入门介…

人工智能 2023年6月1日
0085
访问OpenCV中Mat某个像素点的数值的方法

这种方式在访问深度图中某个像素位置的深度很常用。由于一般深度图都是16位的，也就是 unsigned short的数据类型。如果访问的像素的坐标为 (x, y)，深度图的 Mat变…

人工智能 2023年7月20日
0046
Mac m1上用vscode安装opencv

安装python mac有自带的，主要是用python3 安装opencv 一种办法是通过homebrew来安装，安装命令 brew install opencv@3(如果没有&#…

人工智能 2023年7月20日
0050
基于Geoda的经典空间回归模型（OLS）、空间误差模型（SEM）和空间迟滞模型（SLM）

引言最近在网上搜索有关空间误差模型的方法，看到的最多的就是https://editor.csdn.net/md/?not_checkout=1&spm=1001.2014…

人工智能 2023年7月14日
0068
Spring JdbcTemplate.queryForObject()

Spring JdbcTemplate 是JDBC核心包中的中心类。它简化了 JDBC 与 Spring 的使用，并有助于避免常见错误。在此页面上，我们将学习使用它的 queryF…

人工智能 2023年6月29日
0071
使用jieba、pyhanlp工具实现关键字词句的提取

关键字提取简单来说关键字提取就是从一段文本中将最能体现总体思想的词或句抽取出来。关键字可以帮助我们快速了解文本想要表达的内容，尤其是在很长的文献、作文、专利等篇幅巨大、内容居多的场…

人工智能 2023年5月28日
0077
学习率设置

在我们刚刚接触深度学习时，对学习率只有一个很基础的认知，当学习率过大的时候会导致模型难以收敛，过小的时候会收敛速度过慢，其实学习率是一个十分重要的参数，合理的学习率才能让模型收敛到…

人工智能 2023年6月16日
0066
Text to image论文精读SSA-GAN：基于语义空间感知的文本图像生成 Text to Image Generation with Semantic-Spatial Aware GAN

目录一、原文摘要二、为什么提出SSA-GAN 三、SSA-GAN * 3.1、文本编码器 3.2、SSACN 块 – 3.2.1、上采样块 3.2.2、掩码预测器 …

人工智能 2023年7月28日
0068

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

softmax回归

交叉熵损失函数

softmax回归代码：

softmax回归的简洁实现

大家都在看