用感受器算法解决墨渍分类问题

  • *问题描述

平面上有两摊墨渍,它们的颜色分别是黄色和蓝色,墨渍分类问题就是是根据点的坐标,判断其染上的颜色。从Sklearn的数据库中获取墨渍数据,每条数据是平面上的一个点,特征组(即特征向量)为该点的坐标,标签为该点的颜色,0表示黄色,1表示蓝色.

  • *实验目的

1、调用用Sklearn的make_blobs()读取m个墨渍数据。实验目的

2、调用Sklearn的train_test_split(),划分训练数据和测试数据分别为test_size=0.5, 0.4, 0.3, 0.2。

3、实现感知器类,在训练数据上训练感知器,输出模型的参数。用训练好的模型在测试数据上进行测试,输出模型的Accuracy。

4、分别画出训练数据、测试数据上的分离线。

  • *实验内容

包括数据导入、数据预处理、算法描述、主要代码。

  1. 数据导入

# 生成墨迹
plt.figure(1 )
#make_blobs函数是为聚类产生数据集,产生一个数据集和相应的标签
#n_samples:样本,默认值为100;centers:样本的标签,2;
# n_features:特征;cluster_std:方差;random_state:随机生成器的种子,给定值后,每次生成的数据集为固定值
#每一条训练数据中都含有特征和标签
X, y = make_blobs(n_samples =100 ,centers =2 ,n_features =2 ,cluster_std =0.6 ,random_state =0 )
plt.plot(X[:,0 ][y ==1 ], X[:,1 ][y ==1 ], “bs”,ms =3 )
plt.plot(X[:,0 ][y ==0 ], X[:,1 ][y ==0 ], “yo”,ms =3 )
plt.show()

2.数据预处理

用感知器类去解决墨渍问题:

import numpy as np
class Perceptron :
def fit (self , X, y): #生成训练模型,训练数据
m, n = X.shape # X mn矩阵_
w = np.zeros((n,1 )) _# w n
1列向量

b =0
done =False
while not done: #done==True 结束
done =True
for i in range (m):
x = X[i].reshape(1 , -1 ) # x 1*n行向量
if y[i] * (x.dot(w) + b) 0 : #样本(x[i],y[i])位于直线错误一侧
w = w + y[i] * x.T # 更新 w
b = b + y[i] # 更新 b
done =False
self .w = w #得到模型的参数 w
self .b = b #模型参数 b
def predict (self , X): #预测x的标签
return np.sign(X.dot(self .w) +self .b) #预测标签 +1或-1

3.算法描述

Step1:使用sklearn工具库中的make_blobs函数为聚类产生数据集,产生一个数据集和相应的标签。并生成相应的墨渍。

Step2:生成训练模型和训练数据。使用感知器算法生成训练模型,定义一个Perceptron类,提供两个成员函数:fit函数和predict函数;函数fit的功能是训练模型并储存训练得到的参数;函数predict的功能是用训练好的模型对给定数据进行预测。

Step3:生成测试模型和测试数据。

Step4:得出结论。

4.主要代码

1、感知器算法(Perceptron.py)

import numpy as np
class Perceptron :
def fit (self , X, y): #生成训练模型,训练数据
m, n = X.shape # X mn矩阵_
w = np.zeros((n,1 )) _# w n
1列向量

b =0
done =False
while not done: #done==True 结束
done =True
for i in range (m):
x = X[i].reshape(1 , -1 ) # x 1*n行向量
if y[i] * (x.dot(w) + b) 0 : #样本(x[i],y[i])位于直线错误一侧
w = w + y[i] * x.T # 更新 w
b = b + y[i] # 更新 b
done =False
self .w = w #得到模型的参数 w
self .b = b #模型参数 b
def predict (self , X): #预测x的标签
return np.sign(X.dot(self .w) +self .b) #预测标签 +1或-1

  1. 墨渍分类(Ink.py)

# 墨渍数据从Sklearn获取
from sklearn.datasets.samples_generator import make_blobs
import matplotlib.pyplot as plt
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from perceptron import Perceptron
# 感知器类_

# 生成墨迹
plt.figure(1 )
#make_blobs函数是为聚类产生数据集,产生一个数据集和相应的标签
#n_samples:样本,默认值为100;centers:样本的标签,2;
# n_features:特征;cluster_std:方差;random_state:随机生成器的种子,给定值后,每次生成的数据集为固定值
#每一条训练数据中都含有特征和标签
X, y = make_blobs(n_samples =100 ,centers =2 ,n_features =2 ,cluster_std =0.6 ,random_state =0 )
plt.plot(X[:,0 ][y ==1 ], X[:,1 ][y ==1 ], “bs”,ms =3 )
plt.plot(X[:,0 ][y ==0 ], X[:,1 ][y ==0 ], “yo”,ms =3 )
plt.show()

#调用训练模型,训练数据
y =2 * y -1 # 标签 -1或+1
X_train, X_test, y_train, y_test = train_test_split(X, y,test_size =0.4 ,random_state =5 ) # 训练集、测试集划分

model = Perceptron() # 声明Perceptron实例
model.fit(X_train, y_train) # 训练
w = model.w # model 的参数 w
b = model.b # model 的参数 b
print (‘w=’, w)
print (‘b=’, b)

# 生成训练数据
x0 = np.linspace(-1 ,5 ,200 ) # 在[-1,5]均匀取200个点
line = -w[0 ] / w[1 ] * x0 – b / w[1 ] # 分离线 已知w,b,x0,求x1, w0x0+w1x1+b=0 , x1即line

# draw 对训练数据集进行分类,两类分离线
plt.figure(2 )
plt.plot(X_train[:,0 ][y_train ==1 ], X_train[:,1 ][y_train ==1 ] +0.1 , “bs”,ms =3 ) #markersize,简写为 ms:定义标记的大小。
plt.plot(X_train[:,0 ][y_train == -1 ], X_train[:,1 ][y_train == -1 ] -0.1 , “yo”,ms =3 ) #bs:蓝色正方形;yo:黄色实心圆
plt.plot(x0, line)
plt.show()

# draw 对测试数据集进行分类,两类分离线
plt.figure(3 )
plt.plot(X_test[:,0 ][y_test ==1 ], X_test[:,1 ][y_test ==1 ], “bs”,ms =3 ) # 正例蓝色点
plt.plot(X_test[:,0 ][y_test == -1 ], X_test[:,1 ][y_test == -1 ], “yo”,ms =3 ) # 负例黄色点
plt.plot(x0, line)
plt.show()

y_pred = model.predict(X_test) # 测试
accuracy = accuracy_score(y_test, y_pred) # 测试结果的评价 sklearn.metrics.accuracy_score
print (“accuracy= {}”.format(accuracy)) # 输出正确率

  • *实验结果及分析

(1)训练数据和测试数据为test_size=0.5。

1、训练数据和测试数据的区分效果对比:

用感受器算法解决墨渍分类问题

2、输出模型的参数w,b,Accuracy:

用感受器算法解决墨渍分类问题

(2)划分训练数据和测试数据为test_size=0.4。

1、训练数据和测试数据的区分效果对比:

用感受器算法解决墨渍分类问题

2、输出模型的参数w,b,Accuracy:

用感受器算法解决墨渍分类问题

(3)划分训练数据和测试数据为test_size=0.3。

1、训练数据和测试数据的区分效果对比:

用感受器算法解决墨渍分类问题

2、输出模型的参数w,b,Accuracy:

用感受器算法解决墨渍分类问题

(4)划分训练数据和测试数据为test_size=0.2。

1、训练数据和测试数据的区分效果对比:

用感受器算法解决墨渍分类问题

2、输出模型的参数w,b,Accuracy:

用感受器算法解决墨渍分类问题
  • *遇到的问题和解决方法

  • 根据以上实验所得,模型虽然在训练数据上预测的是完全正确的,但是划分训练数据和测试数据为test_size=0.4时,分离直线未能完全分离墨渍的两个特征,从而出现了误差,这也说明对模型的效果的度量应该在测试数据中进行,在测试数据中的准确率才是对模型正确的度量。

  • 这说明使用监督式学习算法效果的度量方法,用模型h对x的标签值做预测时,预测值与真实情况可能存在误差,会产生过度拟合。
  • 如何预防过度拟合:

通过对模型进行假设,从而降低过度拟合;

使用正则化算法避免过度拟合。

Original: https://blog.csdn.net/m0_63845261/article/details/123762063
Author: 学习中!
Title: 用感受器算法解决墨渍分类问题

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/640212/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球