鸢尾花分类（SVM,KNN,GaussianNB,DecisioinTreeClassiefier）

2023年7月3日上午4:05 • 人工智能 • 阅读 124

一、项目介绍

这个项目是我们《数据分析与机器学习这门课程》的实验一，数据集由老师提供，是csv文件格式。鸢尾花数据集是机器学习入门的一个经典的数据集，本项目通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于（Setosa，Versicolour，Virginica）三个种类中的哪一类。是一个三分类的监督学习问题。我们在此数据集上构造多个机器学习模型，并评估他们学习效果的好坏。

二、数据预处理

首先做的是缺失值的判断与填充，在这里总结一下查看缺失值的方法：

df.isnull()元素级别的判断，把所有元素的缺失值情况都列出来，元素为空就显示NA或True，反之显示False（不常用）
df.isnull().any()，列级别的判断，判断每列的缺失值情况。
df[df.isnull().values==True]，只显示存在缺失值的行列，清楚的确定缺失值的位置。

#从文件中读取数据
#查看缺失值，isnull.values==True只显示有缺失值的行列
import pandas as pd
iris=pd.read_csv(r"D:\QQ\782869251\FileRecv\鸢尾花分类\iris.csv",engine='python')
iris[iris.isnull().values==True]

#用平均值填补缺失值
iris["Sepal.Length"]=iris['Sepal.Length'].fillna(iris['Sepal.Length'].mean())
iris["Sepal.Width"]=iris["Sepal.Width"].fillna(iris["Sepal.Width"].mean())
iris["Petal.Length"]=iris["Petal.Length"].fillna(iris["Petal.Length"].mean())
iris["Petal.Width"]=iris["Petal.Width"].fillna(iris["Petal.Width"].mean())

#查看前五行数据的情况
iris.head()

#describe()查看样本数据的基本统计量，如总数，均值，标准差，最值等
iris.describe()

接下来，借助图形更好的观察数据的分布情况，查看变量两两间的关系。这里用到的seaborns在matplotlib基础上进行了更高级的api封装，使绘图变得更容易，不需要大量的调整，就可以绘出精致的图片

鸢尾花分类（SVM,KNN,GaussianNB,DecisioinTreeClassiefier）

#violinplot&#x5C0F;&#x63D0;&#x7434;&#x56FE;&#x663E;&#x793A;&#x6570;&#x636E;&#x5206;&#x5E03;&#x53CA;&#x6982;&#x7387;&#x5BC6;&#x5EA6;
#&#x901A;&#x8FC7;&#x5C0F;&#x63D0;&#x7434;&#x56FE;&#x53EF;&#x4EE5;&#x770B;&#x51FA;&#xFF0C;&#x5F53;&#x524D;&#x6570;&#x636E;&#x5206;&#x5E03;&#x5728;&#x54EA;&#x4E00;&#x4E2A;&#x533A;&#x95F4;&#x5185;&#xFF0C;&#x540C;&#x65F6;&#x5728;&#x8FD9;&#x4E2A;&#x533A;&#x95F4;&#x7684;&#x5206;&#x5E03;&#x5BC6;&#x5EA6;&#xFF0C;&#x5206;&#x5E03;&#x5BC6;&#x5EA6;&#x6700;&#x5927;&#x7684;&#x5728;&#x90A3;&#x4E2A;&#x4F4D;&#x7F6E;&#x3002;
import matplotlib.pyplot as plt
plt.figure(figsize=(10, 10))
for column_index, column in enumerate(iris.columns):
    if column == 'Species':
        continue
    plt.subplot(2, 2, column_index + 1)
    sns.violinplot(x='Species', y=column, data=iris)

三、构建分类器

先简单使用K近邻(KNeighborsClassifier)，支持向量机(SupportVectoeMachine)构造分类器并进行模型的评估，再详细介绍决策时算法DecisionTreeClassifier的使用

K近邻很奇怪的是，改变参数n_neighbors的数量1-9，准确率一直维持在0.9777不变

#KNN
from sklearn.neighbors import KNeighborsClassifier
knn=KNeighborsClassifier(n_neighbors=5)
knn.fit(train_inputs,train_classes)
knn.score(test_inputs,test_classes)

SVM也是，跑过一次模型之后，再改变参数，准确率一直不变

from sklearn import svm
classifier=svm.SVC(kernel='rbf',gamma=0.1,decision_function_shape='ovo',C=0.8)
classifier.fit(train_inputs,train_classes)
classifier.score(test_inputs,test_classes)

下面详细介绍决策树算法
决策树的参数：

classsklearn.tree.DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)
criterion用来决定不纯度的计算方法，有”entropy”信息熵和”gini”基尼系数两种
splitter特征划分点选择方法，可以是”best”或random，一般样本量不大时选择best，样本量过大，可以用random
max_depth限制树的最大深度，建议从=3开始尝试，看看拟合效果再决定是否增加设定深度。
min_samples_split节点再划分所需最少样本数。默认是2。
min_samples_leaf叶子节点所需最少样本数。如果达不到这个阈值，则同一父节点的所有叶子节点均被剪枝，这是一个防止过拟合的参数。建议从=5开始使用。
max_featues划分考虑的最大特征数，用作树的精修
min_impurity_decrease/min_impurity_split: 划分最需最小不纯度
class_weight：类别权重。在样本有较大缺失值或类别偏差较大时可以选择，防止决策树向类别过大的样本倾斜。可设定为”balanced”
min_weight_fraction_leaf: 叶子节点所有样本权重和。搭配class_weight使用，如果低于阈值，则会和兄弟结点一起呗减掉。

#决策树，默认参数
from sklearn.tree import DecisionTreeClassifier
decision_tree_classifier=DecisionTreeClassifier()
decision_tree_classifier.fit(train_inputs,train_classes)
decision_tree_classifier.score(test_inputs,test_classes)

由于一次结果的代表性不强，所以选择交叉验证，并取平均值作为最终结果

from sklearn.model_selection import cross_val_score
import numpy as np
cv_scores=cross_val_score(decision_tree_classifier,all_inputs,all_classes,cv=10)
np.mean(cv_scores)

GraidSerachCV网格搜索.待调节的参数很多，参数之间的组合也很多,使用sklearn的GridSearchCV在指定范围内自动搜索具有不同超参数的不同模型的组合

from sklearn.model_selection import GridSearchCV
params={"max_depth":[1,2,3,4,5],"max_features":[1,2,3,4]}
grid_search=GridSearchCV(decision_tree_classifier,params,cv=10)
grid_search.fit(train_inputs,train_classes)
print(grid_search.best_score_)
print(grid_search.best_params_)

四、构造神经网络模型进行分类

主要流程如下：搭建网络结构（add）→将搭建好的模型进行编译（compile）→对训练数据进行拟合训练（train）→打印出网络的结构和参数估计（summary）→对训练好的模型进行评估（evaluate）

#使用sklearn的LabelEncoder库，将all_classes字符串数组转化为整数数组
from sklearn.preprocessing import LabelEncoder
X=iris[iris.columns.drop('Species')].values
y=iris['Species'].values
encoder=LabelEncoder()
y1=encoder.fit_transform(y)
#再将y1转成神经网络需要的数组结构
Y=pd.get_dummies(y1).values

划分训练集和测试集

from sklearn.model_selection import train_test_split
train_inputs,test_inputs,train_classes,test_classes=train_test_split(X,Y,test_size=0.3,random_state=1)

使用Sequential创建神经网络模型，模型一共四层。损失函数使用”categorial_crossentropy”（比较适用于3种以上的分类情况），指定metrics=[‘accuracy’]，会在训练结束后计算训练数据在模型上的准确率

from keras.models import Sequential
from keras.layers import Dense
from keras.optimizers import Adam

#类的实例化
model = Sequential()
#全连接层model.add(Dense(神经元个数，激活函数))
model.add(Dense(10, input_shape=(4,), activation='relu'))
model.add(Dense(8, activation='relu'))
model.add(Dense(6, activation='relu'))
model.add(Dense(3, activation='softmax'))

#model.compile(优化器，损失函数，准确率)
model.compile(Adam(lr=0.04), 'categorical_crossentropy', metrics=['accuracy'])
#model.summary打印出网络的结果和参数统计
model.summary()

#指定epochs=100，训练数据会在模型中训练100次
model.fit(train_inputs,train_classes,epochs=100)

#使用模型进行预测
y_pred=model.predict(test_inputs)

浮点类型的数据不方便理解，所有使用np.argmax将数据转为整数数组
np.armax其实是取出最大值对应的索引，对于二维数组来说有两个索引方向，1代表按行搜索最大值

import numpy as np
Y_pred=np.argmax(y_pred,axis=1)
Y_test=np.argmax(test_classes,axis=1)

#模型评估
from sklearn.metrics import classification_report
report=classification_report(Y_test,Y_pred)
report

Original: https://blog.csdn.net/m0_61688615/article/details/121006393
Author: m0_61688615
Title: 鸢尾花分类（SVM,KNN,GaussianNB,DecisioinTreeClassiefier）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/666828/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

LightGBM 二元分类、多类分类、 Python的回归和分类器应用

LightGBM是一个梯度提升框架，它使用基于树的学习算法。与其他提升算法相比，它被设计为分布式且高效。可以用于比较的模型是 XGBoost，它也是一种提升方法，与其他算法相比，它…

人工智能 2023年6月17日
00155
Python+OpenCV利用KNN背景分割器进行静态场景行人检测与轨迹跟踪

前言视频图像中的目标检测与跟踪，是计算机视觉的基础课题，同时具有广泛的应用价值。视觉目标（单目标）跟踪任务就是在给定某视频序列初始帧的目标大小与位置的情况下，预测后续帧中该目标的…

人工智能 2023年6月20日
0088
VisionTransformer（二）—— 多头注意力-Multi-Head Attention及其实现

多头注意力-Multi-Head Attention及其实现目录多头注意力-Multi-Head Attention及其实现前言一、为什么要有Attention，注意力是什…

人工智能 2023年7月28日
0093
六、HSV颜色空间应用实例——颜色分割提取与替换

教程汇总：python基础入门系列通过之前的章节（四、OpenCV颜色空间——HSV颜色模型），我们已经初步认识了HSV颜色空间的特性与优势，现在就来看两个典型的应用实例，颜色分…

人工智能 2023年7月20日
0071
第一节:Keras深度学习框架之环境搭建

在学习本节之前，请阅读我们之前的热身课程： [En] Please read our previous warm-up course before learning this se…

人工智能 2023年5月25日
00146
Python数据分析与机器学习27-拼写纠正实例

文章目录一. 拼写纠正项目概述 * 1.1 拼写错误概述 1.2 贝叶斯方法计算 1.3 模型比较理论二. 项目实战 * 2.1 数据源介绍 2.2 一些概念 2.3 代码一…

人工智能 2023年7月15日
00131
机器学习常见评价指标

机器学习常见评价指标 0 引言 \qquad在建模的时候，不论是一般机器学习还是深度学习，都要有评价指标进行模型效果的衡量，评价指标是对于一个模型效果的数值型量化。一般来说，评价指…

人工智能 2023年6月26日
0098
创建DataFrame的两个途径

https://www.shiyanlou.com/courses/536/labs/1818/document 方法一由反射机制推断出模式： Step 1：引用必要的类。 St…

人工智能 2023年6月2日
0076
【Linux】CUDA Toolkit和cuDNN版本对应关系（更新至2022年6月，附官网永久更新链接）

目录一、前言二、对应关系三、如何使用四、总结五、参考一、前言 NVIDIA® CUDA® Toolkit 为创建高性能 GPU 加速应用程序提供了一个开发环境。借助 C…

人工智能 2023年5月23日
00110
PyTorch中的生成对抗网络（GAN）是如何实现的

1. 问题背景和简介生成对抗网络（Generative Adversarial Network，GAN）是一种用于生成以假乱真的模型的机器学习算法。PyTorch是一个流行的深度…

人工智能 2024年1月2日
0066
移动端 [Android iOS] 定制编译 tensorflow-lite

文章目录 * – 需求 – 环境 – 过程 – + 下载 tf-lite 源码 + 环境配置 + 尝试编译 + 扩展代码 + 接口提…

人工智能 2023年5月24日
0095
python3.9版本的pytorch下载与安装

文章目录前言一、下载步骤 * 1.下载anaconda 2.pytorch配置 3.下载pytorch的安装包二.开发环境配置（jupyter/pycharm) * 1. j…

人工智能 2023年6月16日
00156
论文阅读_时序聚类K-Shape

K-Shape 高效且准确的时间序列的聚类方法基本信息论文题目：k-Shape: Efficient and Accurate Clustering of Time Serie…

人工智能 2023年5月31日
00100
论文翻译之——《基于XGBoost的房价预测优化》-陶然

目录摘要 1 介绍 2.相关工作 2.1 文献综述 2.2 研究方法 3. 特征重要性和准确性改进 3.1 特征工程 3.1.1 数据描述 3.1.2 数据清洗 3.1.3 响应…

人工智能 2023年7月28日
0071
【保姆级手写理解——灰色预测理论以及python实现】

保姆级手写理解——灰色预测理论以及python实现写在前面 * 灰色建模初衷 OLS原理（普通最小二乘法） GM(1,1)原理介绍发展系数与预测情形的探究 GM(1,1)模型的…

人工智能 2023年6月16日
0086
Bert模型学习之句向量的简单应用

Bert模型学习之预训练模型的简单应用上文讲到，让自己的机器可以同时安装两个版本的python3.x，下面我们就可以正式运行Bert模型。一、框架安装 1.首先切换到版本3.6…

人工智能 2023年5月25日
0088

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

鸢尾花分类（SVM,KNN,GaussianNB,DecisioinTreeClassiefier）

大家都在看