KNN实现鸢尾花分类

2023年6月24日下午4:40 • 人工智能 • 阅读 80

因为我们有已知品种的鸢尾花的测量数据，所以这是一个监督学习问题。在这个问题中，我们要在多个选项中预测其中一个（鸢尾花的品种）。这是一个分类问题，可能的输出（鸢尾花的不同品种）叫做类别（class）。数据集中的每朵鸢尾花都属于三个类别之一，所以这是一个三分类问题。单个数据点（一朵鸢尾花）的预期输出是这朵花的品种。对于一个数据点来说，它的品种叫做标签（label）。

一、加载数据集

鸢尾花（Iris）数据集包含在scikit-learn的datasets模块中，我们可以调用load_iris函数来加载数据集：

from sklearn.datasets import load_iris
iris_dataset = load_iris()

load_iris返回的iris对象是一个Bunch对象，与字典非常相似，里面包含键和值：

print('Keys of iris_dataset:\n{}'.format(iris_dataset.keys()))

target_names键对应的是一个字符串数组，里面包含我们要预测的花的品种：

iris_dataset['target_names']

feature_names键对应的值是一个字符串列表，对每一个特征进行了说明：

iris_dataset['feature_names']

type(iris_dataset['data'])

iris_dataset['data'].shape

target数组包含的是测量过的每朵花的品种，也是一个Numpy数组，它是一维数组，每朵花对应其中一个数据：

type(iris_dataset['target'])

iris_dataset['target'].shape

品种被转换成了0-2的整数，0代表setosa,1代表versicolor,2代表virginica。

iris_dataset['target']

DESCR键对应的值是数据集的简要说明，这里给出开头的部分：

print(iris_dataset['DESCR'][:193]+'\n...')

filename可以看到下载的iris数据集的文件的地址：

iris_dataset['filename']

二、训练数据与测试数据

train_test_split函数可以打乱数据集并进行拆分，这个函数将75%的行数据及对应标签作为训练集，剩下25%的数据及其标签作为测试集。scikit-learn中的数据通常用大写的X表示，而标签用小写的y表示。大写的X是一个二维数组（矩阵），小写的y是因为目标是一个一维数组（向量）。在对数据进行拆分之前，train_test_split函数利用伪随机数生成器将数据集打乱。我们利用random_state参数指定了随机数的种子。

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(iris_dataset['data'],iris_dataset['target'],random_state=0)

三、数据可视化

绘制散点图矩阵，可以两两查看所有的特征，散点图矩阵无法同时显示所有特征之间的关系。

我们首先将Numpy数组转换成pandas Dataframe，pandas有一个绘制散点图矩阵的函数，叫做scatter_matrix。矩阵的对角线是每个特征的直方图：

import pandas as pd
import mglearn
&#x5229;&#x7528;X_train&#x4E2D;&#x7684;&#x6570;&#x636E;&#x521B;&#x5EFA;dataframe
&#x5229;&#x7528;iris_dataset.feature_names&#x4E2D;&#x7684;&#x5B57;&#x7B26;&#x4E32;&#x5BF9;&#x6570;&#x636E;&#x5217;&#x8FDB;&#x884C;&#x6807;&#x8BB0;
iris_dataframe = pd.DataFrame(X_train,columns = iris_dataset.feature_names)
&#x5229;&#x7528;dataframe&#x521B;&#x5EFA;&#x6563;&#x70B9;&#x56FE;&#x77E9;&#x9635;&#xFF0C;&#x6309;y_train&#x7740;&#x8272;
grr = pd.plotting.scatter_matrix(iris_dataframe,c=y_train,figsize(15,15),marker='o',
                              hist_kwds={'bins':20},s=60,alpha=.8,cmap=mglearn.cm3)

四、构建模型：K近邻算法

k近邻算法的含义是，我们可以考虑训练集中与新数据点最近的任意k个邻居，然后我们利用这些邻居中数量最多的类别做出预测。

k近邻算法是在neighbors模块中的KNeighborsClassifier类中实现的，我们需要将这个类实例化为一个对象，才能使用这个模型。

from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=1)

knn对象对算法进行了封装，既包括用训练数据构建模型的算法，也包括对新数据点进行预测的算法。还包括算法从训练数据中提取的信息。对于KNeighborsClassifier来说，里面只保存了训练集。

想要基于训练集来构建模型，需要调用knn对象的fit方法，输入参数为X_train和y_train，二者都是numpy数组，前者包含训练数据，后者包括训练标签：

knn.fit(X_train,y_train)

fit方法返回的是knn对象本身并做原处修改，因此我们得到了分类器的字符串表示。

五、做出预测

import numpy as np
X_new = np.array([[5,2.9,1,0.2]])
prediction = knn.predict(X_new)
prediction

iris_dataset['target_names'][prediction]

根据我们的预测，这朵新的鸢尾花属于类别0，也就说它属于setosa品种。

六、评估模型

y_pred = knn.predict(X_test)
y_pred

np.mean(y_pred == y_test)

knn.score(X_test,y_test)

对于这个模型来说，测试集的精度约为0.97.

采用决策树分类鸢尾花数据集，可以参考Iris数据集实战 – 徐-清风 – 博客园

Original: https://blog.csdn.net/qq_41298671/article/details/124952721
Author: 喜欢来来的刀刀
Title: KNN实现鸢尾花分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/649391/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

环境变量path的作用、时间序列的学习、标准差与标准误差

118.环境变量path的作用实际上，对Windows操作系统环境变量path的编辑，只是为了在命令行下可以无需带路径，直接执行一些程序，而不会出现程序文件无法找到的错误。 11…

人工智能 2023年7月18日
0059
【Unity入门计划】基本概念(6)-精灵渲染器 Sprite Renderer

目录官方文档 1 Sprite 精灵 2 Sprite Renderer 精灵渲染器 2.1 Sprite 精灵 2.2 Color 着色 2.3 Filp 翻转 2.4 Dra…

人工智能 2023年7月29日
00111
2D人体姿势估计论文合集

文章目录前言什么是人体姿势估计？为什么难？二维人体姿态估计的不同方法 * 经典方法基于深度学习的方法 2018 * Simple Baselines for Human …

人工智能 2023年7月24日
0060
卷积神经网络模型之——VGG-16网络结构与代码实现

文章目录 VGGNet简介 VGG16网络结构使用pytorch搭建VGG16 * features classifier 完整代码 VGGNet简介 VGG原文：Very de…

人工智能 2023年7月20日
0067
逻辑回归算法——乳腺癌检测

这个数据集总共从病灶造影图片中提取以下 10 个关键属性。• radius 半径即病灶中心点离边界的平均距离• texture 纹理，灰度值的标准偏差。• perimeter …

人工智能 2023年6月17日
00130
实战 | OpenCV实现纺织物缺陷检测-＞脏污、油渍、线条破损(详细步骤 + Python/C++源码)

点击下方卡片，关注” OpenCV与AI深度学习“ 视觉/图像重磅干货，第一时间送达! 导读本文将介绍使用OpenCV实现纺织物缺陷检测(脏污、油渍、线…

人工智能 2023年5月26日
00119
python（模块）xlwt

目录一、xlwt简介二、xlwt语法 * 1、模块安装 2、模块导入 3、向xls文件中写入内容 4、设置写入文件的格式 – 4.1 字体设置（font） 4.2 …

人工智能 2023年7月29日
0064
python中级—-处理 CSV 数据

undefined | 1 CSV简介 | 1.1 什么是CSV？ CSV(Comma Separated Values)是一种简单的文件格式，用于存储表格数据，例如电子表格或数据…

人工智能 2023年7月16日
0078
【论文笔记】VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS

For tasks at the intersection of vision and language, there lacks such pre-trained generic…

人工智能 2023年5月31日
0078
定量分析—频率分布直方图（groupby，agg，round具体用法）

对数据集”捞起生鱼片”做定量分析穿插pandas的cut，groupby，agg方法定量数据分布分析对于定量数据而言，选择组数与组宽是做评率分布分析时…

人工智能 2023年7月7日
0066
算法笔记（20）交叉验证及Python代码实现

常用交叉验证法包括K折叠交叉验证法(K-fold cross validation)、随机拆分交叉验证法(shuffle-split cross validation)、挨个儿试试…

人工智能 2023年7月1日
0082
【第十七届智能车】智能车图像处理（3）-元素识别（十字）

本博客使用的图像是188*120的大津法二值化图像。摄像头安装高度为25cm（离地），前瞻长度约1m。在对图像进行最简单的预处理和赛道边界提取后，就可以开始进行元素识别了，这里先…

人工智能 2023年7月26日
0052
uie模型微调个人总结

技巧：六月三十号补充，uie处理3000字的政策文件要占用12G左右的内存，uie处理一万字的文件时运行巅峰要占用28G左右内存，各位部署时，注意out of memory的错误…

人工智能 2023年7月27日
0069
动态图神经网络的分类

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月1日
0083
车道线检测数据集介绍

1.Tusimple数据集特点：位于高速路，天气晴朗，车道线清晰，特点是车道线以点来标注。(ground_truth:json格式) （提供带有实例级车道注释的大规模图像数据。 …

人工智能 2023年7月27日
0077
遥感图像小目标检测算法

### 回答1：遥感图像_变化检测是一种常见的 _遥感_应用，能够自动化地检测出地表覆盖类型和空间位置的变化。MATLAB在 _遥感图像_变化检测方面提供了多种 _算法_和工具，…

人工智能 2023年7月11日
0065

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

KNN实现鸢尾花分类

大家都在看