python + sklearn实现手写数字识别

2023年6月16日上午1:07 • 人工智能 • 阅读 82

一、数据集

训练用的数据集使用的是sklearn框架中内置的数字数据集，共 1797条数据，每条数据由64个特征点组成

import numpy as np
from sklearn import datasets

digits = datasets.load_digits()
X = digits.data
y = digits.target
print(X.shape)
print(X[0])
print(np.array(X[0]).reshape(8, 8))
print("第一条数据的标签是：", y[0])

结果如下：

(1797, 64)
[ 0.  0.  5. 13.  9.  1.  0.  0.  0.  0. 13. 15. 10. 15.  5.  0.  0.  3.

 -  2.  0. 11.  8.  0.  0.  4. 12.  0.  0.  8.  8.  0.  0.  5.  8.  0.

 -  9.  8.  0.  0.  4. 11.  0.  1. 12.  7.  0.  0.  2. 14.  5. 10. 12.

 -  0.  0.  0.  6. 13. 10.  0.  0.  0.]
[[ 0.  0.  5. 13.  9.  1.  0.  0.]
 [ 0.  0. 13. 15. 10. 15.  5.  0.]
 [ 0.  3. 15.  2.  0. 11.  8.  0.]
 [ 0.  4. 12.  0.  0.  8.  8.  0.]
 [ 0.  5.  8.  0.  0.  9.  8.  0.]
 [ 0.  4. 11.  0.  1. 12.  7.  0.]
 [ 0.  2. 14.  5. 10. 12.  0.  0.]
 [ 0.  0.  6. 13. 10.  0.  0.  0.]]
第一条数据的标签是： 0

二、分类器

可以使用框架中提供的基于SVM算法分类器SVC（或LinearSVC），也可以使用基于K-邻近算法的分类器KNN

SVC分类器

import pickle
from sklearn import svm

def train_by_svc(name, x_train, y_train):
"""
    基于SVM的SVC分类器
    :param name: 训练好的分类器持久化存储到此名称的文件中
    :param x_train: 训练数据
    :param y_train: 预期结果
    :return:
"""
    classifier = svm.SVC(gamma=0.001)

    start = time.perf_counter()
    classifier.fit(x_train, y_train)
    print("训练完成, 耗时：%s" % (time.perf_counter() - start))
    with open(name, 'wb') as f:
        pickle.dump(classifier, f)

KNN分类器

import pickle
from sklearn.neighbors import KNeighborsClassifier as KNN

def train_by_knn(name, x_train, y_train):
"""
    基于k-邻近算法的KNN分类器
    :param name: 训练好的分类器持久化存储到此名称的文件中
    :param x_train: 训练数据
    :param y_train: 预期结果
    :return:
"""
    classifier = KNN(n_neighbors=3, algorithm='auto')

    start = time.perf_counter()
    classifier.fit(x_train, y_train)
    print("训练完成, 耗时：%s" % (time.perf_counter() - start))
    with open(name, 'wb') as f:
        pickle.dump(classifier, f)

三、使用样本数据训练分类器

我们先将从框架中获取到的数据集，分成训练数据和测试数据两部分，使用框架提供的函数train_test_split 可以很容易完成数据的拆分


X_train, X_test, Y_train, Y_test = train_test_split(X, y, test_size=0.1)

开始训练分类器，我们这里训练SVC分类器，也可以使用函数train_by_knn训练KNN分类器


train_by_svc('手写数字分类器.cfr', X_train, Y_train)

训练完成, 耗时：0.05120200000000019

四、测试训练完的分类器，并输出报告

定义一个预测函数，用于从指定文件加载分类器，并返回预测结果

def predict(name, x_test):
"""
    从指定文件加载分类器，对数据集进行测试，并返回预测结果
    :param name: 分类器文件
    :param x_test: 测试数据
    :return:
"""
    with open(name, 'rb') as f:
        clsifier = pickle.load(f)
    start = time.perf_counter()
    predicted = clsifier.predict(x_test)
    print("预测完成, 耗时：%s" % (time.perf_counter() - start))
    return predicted

开始测试

pre = predict('手写数字分类器.cfr', X_test)

print("分类器结果如下：")
print(metrics.classification_report(Y_test, pre))
print(metrics.confusion_matrix(Y_test, pre))

预测完成, 耗时：0.01339659999999987
分类器结果如下：
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        17
           1       1.00      1.00      1.00        21
           2       1.00      1.00      1.00        17
           3       1.00      1.00      1.00        15
           4       1.00      1.00      1.00        17
           5       1.00      0.93      0.96        27
           6       1.00      1.00      1.00        20
           7       1.00      1.00      1.00        12
           8       1.00      1.00      1.00        16
           9       0.90      1.00      0.95        18

    accuracy                           0.99       180
   macro avg       0.99      0.99      0.99       180
weighted avg       0.99      0.99      0.99       180

[[17  0  0  0  0  0  0  0  0  0]
 [ 0 21  0  0  0  0  0  0  0  0]
 [ 0  0 17  0  0  0  0  0  0  0]
 [ 0  0  0 15  0  0  0  0  0  0]
 [ 0  0  0  0 17  0  0  0  0  0]
 [ 0  0  0  0  0 25  0  0  0  2]
 [ 0  0  0  0  0  0 20  0  0  0]
 [ 0  0  0  0  0  0  0 12  0  0]
 [ 0  0  0  0  0  0  0  0 16  0]
 [ 0  0  0  0  0  0  0  0  0 18]]

五、报告解读

classification_report
最左侧的一列是标签0-9，第二列precision代表准确度，能够看到标签9准确度为0.9，可以理解为预测为9的结果中，有百分之10不是9

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        17
           1       1.00      1.00      1.00        21
           2       1.00      1.00      1.00        17
           3       1.00      1.00      1.00        15
           4       1.00      1.00      1.00        17
           5       1.00      0.93      0.96        27
           6       1.00      1.00      1.00        20
           7       1.00      1.00      1.00        12
           8       1.00      1.00      1.00        16
           9       0.90      1.00      0.95        18

    accuracy                           0.99       180
   macro avg       0.99      0.99      0.99       180
weighted avg       0.99      0.99      0.99       180

confusion_matrix(混淆矩阵)
这个矩阵中给我们展示真实值与预测值之间的数量关系，下边这个10×10的矩阵，
垂直代表真实值0-9，水平代表预测值0-9
那么第6行第10列的数字2，代表：真实值是5，但预测值是9的数量是2.

[[17  0  0  0  0  0  0  0  0  0]
 [ 0 21  0  0  0  0  0  0  0  0]
 [ 0  0 17  0  0  0  0  0  0  0]
 [ 0  0  0 15  0  0  0  0  0  0]
 [ 0  0  0  0 17  0  0  0  0  0]
 [ 0  0  0  0  0 25  0  0  0  2]
 [ 0  0  0  0  0  0 20  0  0  0]
 [ 0  0  0  0  0  0  0 12  0  0]
 [ 0  0  0  0  0  0  0  0 16  0]
 [ 0  0  0  0  0  0  0  0  0 18]]

六、手动创建测试数据

通过测试报告分析，感觉分类器的准确度还可以，接下来我们在白纸手写几个数字，并处理成特征数据，验证下分类器的效果。
测试图片，数字0：

处理成特征值, 使用opencv进行处理：

import cv2
import matplotlib.pyplot as plt

source = cv2.imread('test/0.jpg')
gray = cv2.cvtColor(source, cv2.COLOR_BGR2GRAY)
gray = cv2.GaussianBlur(gray, (51, 81), 0)

binary = cv2.threshold(gray, 140, 255, cv2.THRESH_TOZERO_INV)[1]

feature = cv2.resize(binary, (x, y)) / 10
plt.imshow(feature, cmap='gray')
plt.show()

嗯~ o(￣▽￣)o，不错，确实是个0，然后转为1维的特征值

feature_1d = feature.flatten()

测试下，能不能识别出来

pre = predict('手写数字分类器.cfr', [feature_1d])
print("识别结果：", pre)

呦呵，还真识别出来了

预测完成, 耗时：0.00033789999999989107
识别结果： [0]

Original: https://blog.csdn.net/momo3507/article/details/124941595
Author: 杀毒的炼金术士
Title: python + sklearn实现手写数字识别

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/618717/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

CVE-2019-0221 Apache Tomcat XSS 漏洞复现与分析

CVE-2019-0221 Apache Tomcat 9.0.0.M1 – Cross-Site Scripting (XSS) Vulnerability Apac…

人工智能 2023年6月6日
0088
NLP 实战(10): CSDN 领域榜标签分组更新

更新2022 04/12 暂时保留PHP 云原生/软件工程/后端排序在前 CSDN 全站数据在2021年完成了标签体系的统一。在这个基础上：用户可以在UC中心选择感兴趣的标签 …

人工智能 2023年6月1日
0069
TensorFlow实现自注意力机制（Self-attention），程序员如何解决中年危机

深度学习中的大多数计算都是为了提高速度性能而矢量化的，而对于自注意力也没有什么不同。如果为简单起见忽略 batch 维度，则 1×1 卷积后的激活将具有 (H, W, C) 的形状…

人工智能 2023年5月23日
00114
BraTs数据集处理及python读取.nii文件

导师让做一个关于脑肿瘤分割的小项目，今天开始学习图像分割和MRI相关知识！（md从分类到检测再到分割，从遥感图到脑部图，我真的会谢…生气）数据集 BraTS 是MIC…

人工智能 2023年6月17日
00127
知识图谱的应用领域

1.3 知识图谱的价值知识图谱最早的应用是提升搜索引擎的能力。随后，知识图谱在辅助智能问答、自然语言理解、大数据分析、推荐计算、物联网设备互联、可解释性人工智能等多个方面展现出丰…

人工智能 2023年7月28日
00105
【python技能树】python简介

1 Python定义 Python 是一种简单易学并且结合了解释性、编译性、互动性和面向对象的脚本语言。Python提供了高级数据结构，它的语法和动态类型以及解释性使它成为广大开…

人工智能 2023年7月3日
0082
NumPy学习笔记（二）—— zeros_like()函数（包含zeros函数）

目录一、前言 * 1、zeros()函数 2、一言以蔽之 – 参数 + 1）shape：使用int型或者元组类型的数组 2）dtype：数据类型（可选填，默认为num…

人工智能 2023年7月21日
0065
sklearn.ensemble模型融合

模型融合模型融合优势常见的模型融合方式 * 投票法 – 硬投票软投票栗子 sklearn 多样性分类栗子 – 导入库函数定义模型列表中每个模型结…

人工智能 2023年6月16日
00103
（一）感知机与python代码实现

参考李航老师的《统计学习方法》第二版知识点：感知机是二分类的线性分类模型，属于判别模型旨在求出将训练数据进行线性划分的分离超平面，目标求得一个超平面将正负例完全正确分开…

人工智能 2023年7月17日
0072
李沐《动手学深度学习》d2l——安装和使用

今天想要跟着沐神学习一下循环神经网络，在跑代码的时候，d2l出现了问题，这里记录一下解决的过程，方便以后查阅。李沐《动手学深度学习》d2l——安装和使用安装d2l 解决 Imp…

人工智能 2023年7月25日
0096
1995-2021全球经济自由度指数

1995-2021全球经济自由度指数 1、数据来源：美国传统jijin会 2、时间区间：1995-2021年 3、范围包括：全球 4、指标说明：经济自由度指数，是由华尔街riba…

人工智能 2023年6月30日
0085
Informer源码分析

首先是数据准备阶段的入口函数，位于Exp_Informer类的train函数内 train_data, train_loader = self._get_data(flag = ‘…

人工智能 2023年6月15日
0078
VoNR

尽管不断增长的数据业务需求是移动通信网络向5G演进的主要推动力，但语音业务作为基本业务仍然是不可或缺的一部分。为此，标准组织3GPP确定了5G沿用4G的语音架构仍基于IMS来提供语…

人工智能 2023年5月27日
0094
【OpenCVSharp Mat和byte[]互相转换】

版本：opencvsharp-4.5.3.20211228 我们以三通道图片为例： 1：Mat->byte[] Mat mat = Cv2.ImRead(fullpath);…

人工智能 2023年7月18日
0064
df pd 属性_pd.DataFrame()函数解析

DataFrame是Python中Pandas库中的一种数据结构，它类似excel，是一种二维表。== DataFrame的单元格可以存放数值、字符串等，这和excel表很像，同时…

人工智能 2023年7月8日
0099
【Matlab 六自由度机器人】运动学逆解（附MATLAB机器人逆解代码）

【Matlab 六自由度机器人】求运动学逆解往期回顾前言正文 * 一、运动学逆解 – 1. Pieper 法 2. 《机器人学》常规求解二、代码实现 &#821…

人工智能 2023年7月25日
0087

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31