用感受器算法解决墨渍分类问题

2023年6月19日下午9:25 • 人工智能 • 阅读 76

*问题描述

平面上有两摊墨渍，它们的颜色分别是黄色和蓝色，墨渍分类问题就是是根据点的坐标，判断其染上的颜色。从Sklearn的数据库中获取墨渍数据，每条数据是平面上的一个点，特征组（即特征向量）为该点的坐标，标签为该点的颜色，0表示黄色，1表示蓝色.

*实验目的

1、调用用Sklearn的make_blobs()读取m个墨渍数据。实验目的

2、调用Sklearn的train_test_split（），划分训练数据和测试数据分别为test_size=0.5, 0.4, 0.3, 0.2。

3、实现感知器类，在训练数据上训练感知器，输出模型的参数。用训练好的模型在测试数据上进行测试，输出模型的Accuracy。

4、分别画出训练数据、测试数据上的分离线。

*实验内容

包括数据导入、数据预处理、算法描述、主要代码。

数据导入

# 生成墨迹
plt.figure(1 )
#make_blobs函数是为聚类产生数据集，产生一个数据集和相应的标签
#n_samples:样本，默认值为100；centers：样本的标签，2；
# n_features:特征；cluster_std:方差；random_state:随机生成器的种子，给定值后，每次生成的数据集为固定值
#每一条训练数据中都含有特征和标签
X, y = make_blobs(n_samples =100 ,centers =2 ,n_features =2 ,cluster_std =0.6 ,random_state =0 )
plt.plot(X[:,0 ][y ==1 ], X[:,1 ][y ==1 ], “bs”,ms =3 )
plt.plot(X[:,0 ][y ==0 ], X[:,1 ][y ==0 ], “yo”,ms =3 )
plt.show()

2.数据预处理

用感知器类去解决墨渍问题：

import numpy as np
class Perceptron :
def fit (self , X, y): #生成训练模型，训练数据
m, n = X.shape # X mn矩阵_
w = np.zeros((n,1 )) _# w n1列向量
b =0
done =False
while not done: #done==True 结束
done =True
for i in range (m):
x = X[i].reshape(1 , -1 ) # x 1*n行向量
if y[i] * (x.dot(w) + b) 0 : #样本(x[i],y[i])位于直线错误一侧
w = w + y[i] * x.T # 更新 w
b = b + y[i] # 更新 b
done =False
self .w = w #得到模型的参数 w
self .b = b #模型参数 b
def predict (self , X): #预测x的标签
return np.sign(X.dot(self .w) +self .b) #预测标签 +1或-1

3.算法描述

Step1:使用sklearn工具库中的make_blobs函数为聚类产生数据集，产生一个数据集和相应的标签。并生成相应的墨渍。

Step2:生成训练模型和训练数据。使用感知器算法生成训练模型，定义一个Perceptron类，提供两个成员函数：fit函数和predict函数；函数fit的功能是训练模型并储存训练得到的参数；函数predict的功能是用训练好的模型对给定数据进行预测。

Step3：生成测试模型和测试数据。

Step4：得出结论。

4.主要代码

1、感知器算法（Perceptron.py）

墨渍分类（Ink.py）

# 墨渍数据从Sklearn获取
from sklearn.datasets.samples_generator import make_blobs
import matplotlib.pyplot as plt
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from perceptron import Perceptron # 感知器类_

#调用训练模型，训练数据
y =2 * y -1 # 标签 -1或+1
X_train, X_test, y_train, y_test = train_test_split(X, y,test_size =0.4 ,random_state =5 ) # 训练集、测试集划分

model = Perceptron() # 声明Perceptron实例
model.fit(X_train, y_train) # 训练
w = model.w # model 的参数 w
b = model.b # model 的参数 b
print (‘w=’, w)
print (‘b=’, b)

# 生成训练数据
x0 = np.linspace(-1 ,5 ,200 ) # 在[-1,5]均匀取200个点
line = -w[0 ] / w[1 ] * x0 – b / w[1 ] # 分离线已知w,b，x0，求x1, w0x0+w1x1+b=0 , x1即line

# draw 对训练数据集进行分类，两类分离线
plt.figure(2 )
plt.plot(X_train[:,0 ][y_train ==1 ], X_train[:,1 ][y_train ==1 ] +0.1 , “bs”,ms =3 ) #markersize，简写为 ms：定义标记的大小。
plt.plot(X_train[:,0 ][y_train == -1 ], X_train[:,1 ][y_train == -1 ] -0.1 , “yo”,ms =3 ) #bs:蓝色正方形；yo:黄色实心圆
plt.plot(x0, line)
plt.show()

# draw 对测试数据集进行分类，两类分离线
plt.figure(3 )
plt.plot(X_test[:,0 ][y_test ==1 ], X_test[:,1 ][y_test ==1 ], “bs”,ms =3 ) # 正例蓝色点
plt.plot(X_test[:,0 ][y_test == -1 ], X_test[:,1 ][y_test == -1 ], “yo”,ms =3 ) # 负例黄色点
plt.plot(x0, line)
plt.show()

y_pred = model.predict(X_test) # 测试
accuracy = accuracy_score(y_test, y_pred) # 测试结果的评价 sklearn.metrics.accuracy_score
print (“accuracy= {}”.format(accuracy)) # 输出正确率

*实验结果及分析

(1)训练数据和测试数据为test_size=0.5。

1、训练数据和测试数据的区分效果对比：

2、输出模型的参数w,b,Accuracy:

(2)划分训练数据和测试数据为test_size=0.4。

1、训练数据和测试数据的区分效果对比：

2、输出模型的参数w,b,Accuracy:

(3)划分训练数据和测试数据为test_size=0.3。

1、训练数据和测试数据的区分效果对比：

2、输出模型的参数w,b,Accuracy:

(4)划分训练数据和测试数据为test_size=0.2。

1、训练数据和测试数据的区分效果对比：

2、输出模型的参数w,b,Accuracy:

*遇到的问题和解决方法
根据以上实验所得，模型虽然在训练数据上预测的是完全正确的，但是划分训练数据和测试数据为test_size=0.4时，分离直线未能完全分离墨渍的两个特征，从而出现了误差，这也说明对模型的效果的度量应该在测试数据中进行，在测试数据中的准确率才是对模型正确的度量。
这说明使用监督式学习算法效果的度量方法，用模型h对x的标签值做预测时，预测值与真实情况可能存在误差，会产生过度拟合。
如何预防过度拟合：

通过对模型进行假设，从而降低过度拟合；

使用正则化算法避免过度拟合。

Original: https://blog.csdn.net/m0_63845261/article/details/123762063
Author: 学习中!
Title: 用感受器算法解决墨渍分类问题

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/640212/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

如何进阶为年薪百万的数据分析师

如果你对数据分析感兴趣，希望学习更多的方法论，希望听听经验分享，欢迎移步微信公众号「小火龙说数据」，更多精彩原创文章与你分享！在之前的文章中，小火龙和大家分享了「如何入行数…

人工智能 2023年7月17日
0058
模型评估指标

准确率是指分类正确的样本个数占总样本个数的比例，即A c c u r a c y = T P + T N T P + F N + F P + T N Accuracy=\frac{…

人工智能 2023年5月30日
0084
【语音信号处理】噪声抑制NS（一）噪声估计——MCRA方法

计算语音存在概率：思路：在一个短时窗内，计算局部能量（local energy，通常用 S ( k , l ) S(k,l)S (k ,l ) 表示）与最小能量 S m i n…

人工智能 2023年5月25日
00109
Pytorch环境搭建

Pytorch环境搭建一、 Anaconda 安装 Anaconda 作用包括：构建虚拟环境和资源包管理。其下载安装可以参考链接https://pan.baidu.com/s/1…

人工智能 2023年6月16日
0084
KPRN：Explainable Reasoning over Knowledge Graphs for Recommendation面向推荐的知识图谱解释推理

emm…图片复制过来显示不了（因为我太懒了0.0），要看图的话可以去我的博客瞅瞅，嘿嘿嘿对了，有些英文短句假如翻译成中文，阅读的时候就太搞脑子了，所以我干脆就不翻译了 …

人工智能 2023年6月10日
0072
提升C内功–函数栈帧的创建和销毁(动画讲解)

前言💖 作者：龟龟不断向前✨ 简介：宁愿做一只不停跑的慢乌龟，也不想当一只三分钟热度的兔子。👻 专栏：C++初阶知识点👻 工具分享：刷题：牛客网 leetcode 笔记软件：有…

人工智能 2023年6月27日
0089
opencv项目实践一（答题卡识别）

答题卡素材图片思路读入图片，做一些预处理工作。进行轮廓检测，然后找到该图片最大的轮廓，就是答题卡部分。进行透视变换，以去除除答题卡外的多于部分，并且可以对答题卡进行校正。再…

人工智能 2023年7月19日
0092
二维平面中相对坐标与绝对坐标的转换公式

public class CoordTrans7Param { public double[,] values=new double[7,1]; //{{dx},{dy},{dz}…

人工智能 2023年6月10日
00109
【Linux】—一文掌握Linux基本命令（上）

目录 ls pwd cd touch mkdir rmdir与rm man tree 的安装 cp mv nano的安装 cat ls 语法： ls [选项][目录或文件]功能： …

人工智能 2023年7月30日
0049
深度学习基础-基于Numpy的循环神经网络（RNN）实现和反向传播训练

本文是《深度学习进阶:自然语言处理》、《神经网络与深度学习》和《动手学深度学习》的读书笔记。本文将介绍基于Numpy的循环神经网络的前向传播和反向传播实现，包括RNN和LSTM。 …

人工智能 2023年6月4日
0099
（学习笔记1）可见光与红外图像的特征融合（Feature Fusion）

一、可见光与红外图像以及融合图像的特征 *可见光图像：纹理细节高空间分辨率 *红外图像：区分热辐射忽略照明 *融合图像：突出辐射信息（亮度和对比度）详细的纹理信息（渐变…

人工智能 2023年6月17日
0085
AI算法中的模型解释性是什么

问题：关于Learning算法有哪些常见的分类方法？学习算法是机器学习的核心技术，用于根据给定的数据样本集来构建模型或进行预测。常见的学习算法可分为监督学习、无监督学习和强化学习…

人工智能 2024年1月1日
0034
计量经济学（stata）笔记1 记录每天的进步

概述菜单驱动点击菜单栏命令行驱动在命令窗口里输入命令。结果窗看结果，变量窗历史窗口程序驱动 findit ：不知道具体命令名字 findit regression ：…

人工智能 2023年7月18日
0055
微信支付APIv3

文章目录微信支付 * 之前我的密钥啥的都是放到配置文件里面以后可以再写一个文件基础支付APIv3介绍获取验签和HttpClient – APIv3证书与密钥使用说…

人工智能 2023年5月30日
00108
Arduino的硬件：什么是单片机？什么是Arduino？Arduino和单片机区别？Arduino有哪些种类？Arduino扩展板有哪些？

要了解Arduino就先要了解什么是单片机， Arduino平台的基础其实就是AVR指令集的单片机。 01 什么是单片机？一台能够工作的计算机包含以下几个部分：中央处理单元CPU…

人工智能 2023年6月25日
00122
宽度学习(BLS)实战——python复刻MNIST数据集的数据预处理及训练过程

目录 1.宽度学习(Broad Learning System) 2.MNIST数据集 3.复刻MNIST数据集的预处理及训练过程 1.宽度学习(Broad Learning Sy…

人工智能 2023年6月19日
0097

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

用感受器算法解决墨渍分类问题

大家都在看