Softmax回归识别验证码（手写数字）

2023年6月17日上午4:59 • 人工智能 • 阅读 93

我们首先来学习softmax regression和one-hot encoding。这次本次实验需要学习和机器学习相关的两个重要概念。
我们之前学过逻辑回归。由于Logistic Regression算法复杂度低、容易实现等特点，在工业界中得到广泛使用，如计算广告中的点击率预估等。但是，Logistic Regression算法主要是用于处理二分类问题，若需要处理的是多分类问题，如手写字识别，即识别是{0，1，…，9}中的数字，此时，需要使用能够处理多分类问题的算法。Softmax Regression算法是Logistic Regression算法在多分类问题上的推广，主要用于处理多分类问题，其中，任意两个类之间是线性可分的。
我们知道，在Logistic回归中比较重要的有两个公式，一个是阶跃函数：

另一个是对应的损失函数：

最终，Logistic回归需要求出的是两个概率：

在Logistic回归需要求解的是两个概率，而在Softmax Regression中将不是两个概率，而是k个概率，k表示的是分类的个数。我们需要求出以下的概率值：

此时的损失函数为：

其中I{}是一个指示性函数，意思是大括号里的值为真时，该函数的结果为1，否则为0。下面就这几个公式做个解释：
先来看看损失函数的由来
概率函数可以表示为：

其似然函数为：

log似然为：

我们要最大化似然函数，即求max

转化成损失函数。

接着对log似然(或者是损失函数)求偏导

为了简单，我们仅取一个样本，则可简单表示为：

对上式求偏导

如Logistic回归中一样，可以使用基于梯度的方法来求解这样的最大化问题。

接下来学习独热编码。
在此之前我们先来了解什么是离散特征。
在机器学习算法中，我们经常会遇到分类特征，例如：人的性别有男女，祖国有中国，美国，法国等。
这些特征值并不是连续的，而是离散的，无序的。通常我们需要对其进行特征数字化。
那什么是特征数字化呢？例子如下：
性别特征：[“男”，”女”]
祖国特征：[“中国”，”美国，”法国”]
运动特征：[“足球”，”篮球”，”羽毛球”，”乒乓球”]
假如某个样本（某个人），他的特征是这样的[“男”,”中国”,”乒乓球”]，我们可以用 [0,0,4] 来表示，但是这样的特征处理并不能直接放入机器学习算法中。因为类别之间是无序的
接着在回过头来学习独热编码。
One-Hot编码，又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。
One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后，每个整数值被表示为二进制向量，除了整数的索引之外，它都是零值，它被标记为1。
举个例子
性别特征：[“男”,”女”]，按照N位状态寄存器来对N个状态进行编码的原理，咱们处理后应该是这样的（这里只有两个特征，所以N=2）：
男 => 10
女 => 01
祖国特征：[“中国”，”美国，”法国”]（这里N=3）：
中国 => 100
美国 => 010
法国 => 001
运动特征：[“足球”，”篮球”，”羽毛球”，”乒乓球”]（这里N=4）：
足球 => 1000
篮球 => 0100
羽毛球 => 0010
乒乓球 => 0001
所以，当一个样本为[“男”,”中国”,”乒乓球”]的时候，完整的特征数字化的结果为：
[1，0，1，0，0，0，0，0，1]
为什么使用one-hot编码来处理离散型特征呢？
在回归，分类，聚类等机器学习算法中，特征之间距离的计算或相似度的计算是非常重要的，而我们常用的距离或相似度的计算都是在欧式空间的相似度计算，计算余弦相似性，基于的就是欧式空间。
而我们使用one-hot编码，将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间的某个点。
将离散型特征使用one-hot编码，确实会让特征之间的距离计算更加合理。
比如，有一个离散型特征，代表工作类型，该离散型特征，共有三个取值，不使用one-hot编码，其表示分别是x_1 = (1), x_2 = (2), x_3 = (3)。两个工作之间的距离是，(x_1, x_2) = 1, d(x_2, x_3) = 1, d(x_1, x_3) = 2。那么x_1和x_3工作之间就越不相似吗？显然这样的表示，计算出来的特征的距离是不合理。那如果使用one-hot编码，则得到x_1 = (1, 0, 0), x_2 = (0, 1, 0), x_3 = (0, 0, 1)，那么两个工作之间的距离就都是sqrt(2).即每两个工作之间的距离是一样的，显得更合理

本次实验用到的数据集叫做MNIST.这个数据集非常出名。MNIST是手写数字图片数据集，包含60000张训练样本和10000张测试样本。

MNIST数据集来自美国国家标准与技术研究所，National Institute of Standards and Technology(NIST)。现在你是不是知道这个数据集名字的由来了。M是Modified的缩写。训练集是由来自250个不同人手写的数字构成，其中50%是高中学生，50%来自人口普查局的工作人员。测试集也是同样比例的手写数字数据。每张图片有28×28个像素点构成，每个像素点用一个灰度值表示，这里是将28×28的像素展开为一个一维的行向量（每行784个值）
完整的数据可以从这里下载：
http://yann.lecun.com/exdb/mnist/
进一步关于数据的介绍会在下面的代码部分再展开。

导入相关库以及serborn,metaplotlib来可视化

读入训练数据集和测试数据集

我们以训练数据集为例打印出它的前几行看看

完整代码在1.py
测试如下

可以每条数据是一个长度为784的一维矩阵,这是因为数据经过标准化处理了,每条数据为手写图片的784个像素点（上图打印的785加上了前面的序号0，1，2，这一列本身不算在内）
我们从上图看到了很多0，但是这并不能说明对应的是什么数字，我们可以还是以这5条为例，打印出对应的数字

完整代码在2.py,测试可以得到下图5张手写数字图片，对应的标签在图片上方

每个像素的对比度不同，组合起来后得到上面的手写图片，那么我们看看像素值的最大值

完整代码在3.py

可以看到像素值在0到255之间。所以在后面的预处理过程中需要对数据进行归一化，以便获得更好的结果。
首先，我们需要定义标签和特征。我们将它们转换为浮点值，以便我们可以通过除以最大值255来缩放它们。我们在训练和测试集中进行此操作

处理后了之后再来看看我们的数据

完整代码在4.py

可以看到已经被缩放到0到1之间的数值了
我们上面已经对特征处理后了，接下来我们需要处理标签。
我们知道标签在0到9之间，不过我们从形状也可以看出，8和9之间比8和2之间更加相似，但是作为标签，存在这种偏差是不对的，我们本次实验通过One-Hot-Encoding消除这种偏差，我们可以创建一个只有1个1的用于描述每个数字的numpy数组
我们在下面的代码中是使用pandas的get_dummies进行独热编码

我们可以将经过独热编码处理后的数据打印出来

完整代码在5.py
测试如下

第一行是原来的标签，即0到9
之后是独特编码后的数据
可以看到，独热编码后的0到9分别由一组一维向量表示，每一组中只有1个是1，其他都是0。这么处理之后，我们再也不会认为8和9比8和2更加相似了
接下来就是搭建我们的模型，首先使用sklearn的train_test_split进行数据集的划分

导入tensorflow，设置learning_rate和epoch
我们还需要定义我们的预测函数。这将采用y = W * x + b（bias,偏差）的形式。我们需要先定义W，x和bias。由于我们拥有将要提供给模型的数据，因此我们将x定义为占位符(用于暂存变量)，稍后将为其赋值。但是，W和bias是在模型迭代时将更改的变量。我们还有y_true的值，它们是实际的标签，因此我们也将其定义为占位符

因为我们要进行Softmax regression，所以要使用的通用指标是交叉熵，如下代码所示。我们想使我们的交叉熵最小化。

我们还需要一种评估模型性能的方法，来对为数字进行分类的模型进行评估

接下来是我们的优化器。我们将使用梯度下降，因为它是一种最小化交叉熵的非常常用且功能强大的方法。其中一个参数是之前定义的学习率，以定义学习的速度。我们需要找到一个恰当的学习率，因为太低和太高都会产生不好的结果。

接着启动我们的session. 在TensorFlow中，始终会启动一个session来运行计算并分配占位符值。我们还将在session期间训练我们的模型。我们来初始化所有定义的变量

然后使用梯度下降来训练模型

在模型训练完成后，打印出将我们的模型用于验证集时的准确率

在计算完成后关闭session

完整代码在6.py
测试如下

可以看到准确率在78.8%左右，说明模型的性能还可以。

参考：
1.https://www.kaggle.com/samsonqian/softmax-regression-with-tensorflow-mnist?select=test.csv
2.https://fengxc.me/MNIST%E6%95%B0%E6%8D%AE%E9%9B%86%E4%BB%8B%E7%BB%8D.html
3.https://www.biaodianfu.com/softmax-regression.html
4.https://www.imooc.com/article/35900

Original: https://blog.csdn.net/yalecaltech/article/details/117134929
Author: Neil-Yale
Title: Softmax回归识别验证码（手写数字）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/628684/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pandas库笔记

两个待匹配数据表： df1、df2 联结匹配字段： data1 data2 用pandas的merge函数： import pandas as pd df3 = pd.merge(…

人工智能 2023年7月8日
0048
基于Anaconda的matplotlib学习

基于Anaconda的matplotlib学习 * – matplotlib安装 – 入门小案例 – 入门小测试 matplotlib安装第一…

人工智能 2023年7月23日
0080
【opencv】边界模式 borderMode

bordermMode 边界模式有如下几种： cv2.BORDER_CONSTANT 添加常数值为边界值，还需要指定另外一个参数 borderValue，borderValue默认…

人工智能 2023年7月19日
0054
使用人性化的Linux防火墙CFW阻止DDOS攻击

CFW (Cyber Firewall) 是一个人性化的 Linux 防火墙。它旨在协助阻止拒绝服务攻击 (DDOS)，同时能控制 Linux 系统端口的开关。由于基于 Linux…

人工智能 2023年6月26日
0092
睿智的目标检测61——Pytorch搭建YoloV7目标检测平台

睿智的目标检测61——Pytorch搭建YoloV7目标检测平台学习前言源码下载 YoloV7改进的部分（不完全） YoloV7实现思路 * 一、整体结构解析二、网络结构解析…

人工智能 2023年6月26日
0087
【入门篇】ESP8266直连智能音箱（天猫精灵）控制智能灯

本系列博客由民间人士刘益洲倾注心血撰写，仅供个人技术交流分享，不作任何商业用途。如果有什么问题，请留言，我会及时改正的。 [En] this series of blogs are…

人工智能 2023年5月27日
00243
工业4.0知识图谱

编者按本篇文章来自于17th Extended Semantic Web Conference (ESWC2020) 会议。该文章提出了基于语义标注网络的结构化数据集，包含工业4…

人工智能 2023年6月10日
0066
朋友问我，斗破苍穹中到底出现了多少次“恐怖如斯”？

需求分析最近，斗破苍穹的动画第五季正在热播，我的一个好友，在追动画的同时，也对斗破苍穹的小说，产生了浓厚的兴趣，最近在看完小说了以后，产生了一个疑问，他问我说，”我感…

人工智能 2023年7月4日
00104
Matlab图像特征提取的数学原理及实现

一、引言图像特征不论是对传统的图像处理，还是机器学习，都具有不可替代的地位和作用。图像特征其实就是可以用来刻画图像的像素集，这些像素和周围像素的变化幅度比较大。例如当你走在路上…

人工智能 2023年6月17日
0092
Unet的训练及预测

Unet的文件下载网盘下载：链接：https://pan.baidu.com/s/1H1Q8QpR0R3pNdJwKxvKD0g提取码：wn5i 一、制作数据集 1.安装labe…

人工智能 2023年6月25日
0086
pytorch GPU内存管理

1、PyTorch 提供了 memory_allocated() 和 max_memory_allocated() 用于监视 tensors 占用的内存； memory_cache…

人工智能 2023年7月22日
00104
ChatGPT帮你写代码？人工智能ChatGPT之于Web3的几点思考

人工智能AI有人热情膜拜，有人畏惧如虎，AI的发展已经进入高层面的快车道，技术更新迭代日新夜异，技术无罪也无善恶，曾经科幻未来的人机交流，共生共存如今在我们的脑海中已经有了轮廓的意…

人工智能 2023年7月31日
0052
讯飞输入法第11次作答：效率升维、场景细分、个性满足

作为最早的”装机必备”产品，讯飞输入法已经上线11周年。在风起云涌的移动互联网十几年里，第三方输入法可以说是见证历史的史诗产品：经历了初期智能手机普及的快…

人工智能 2023年5月25日
0090
【Kaggle】如何有效避免OOM(out of memory)和漫长的炼丹过程

本文介绍一些避免transformers的OOM以及训练等流程太漫长的方法，主要参考了kaggle notebook Optimization approaches for Tra…

人工智能 2023年6月4日
0094
用pandas写入excel某些单元格其他值不被覆盖

利用pandas和openpyxl将dict内的值写入excel，其他值不被覆盖。我们时常用pd.to_excel将dataframe写入到excel中，只能保留最后一次的，之前的…

人工智能 2023年7月7日
00127
机器学习进阶之时域/时间卷积网络 TCN 概念+由来+原理+代码实现

TCN 从”阿巴阿巴”到”巴拉巴拉” TCN的概念（干嘛来的！能解决什么问题） TCN的父母（由来） TCN的原理介绍上代码！ 1…

人工智能 2023年5月31日
0088

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Softmax回归识别验证码（手写数字）

大家都在看