【机器学习入门】(1) K近邻算法：原理、实例应用（红酒分类预测）附python完整代码及数据集

2023年7月1日下午12:40 • 人工智能 • 阅读 98

各位同学好，今天我向大家介绍一下python机器学习中的K近邻算法。内容有：K近邻算法的原理解析；实战案例–红酒分类预测。 红酒数据集、完整代码在文章最下面。

案例简介：有178个红酒样本，每一款红酒含有13项特征参数，如镁、脯氨酸含量，红酒根据这些特征参数被分成3类。要求是任意输入一组红酒的特征参数，模型需预测出该红酒属于哪一类。

1. K近邻算法介绍

1.1 算法原理

原理：如果一个样本在特征空间中的k个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，那么该样本也属于这个类别。简单来说就是， 求两点之间的距离，看距离谁是最近的，以此来区分我们要预测的这个数据是属于哪个分类。

我们看图来理解一下。蓝色点是属于a类型的样本点，粉色点是属于b类型的样本点。此时新来了一个点（黄色点），怎么判断是属于它是a类型还是b类型呢。

方法是：新点找距离自身最近的k个点（k可变）。分别计算新点到其他各个点的距离，按距离从小到大排序， 找出距离自身最近的k个点。统计在这k个点中，有多少点属于a类，有多少点属于b类。 在这k个点中，如果属于b类的点更多，那么这个新点也属于b分类。距离计算公式也是我们熟悉的勾股定理。

【机器学习入门】(1) K近邻算法：原理、实例应用（红酒分类预测）附python完整代码及数据集

1.2 算法优缺点

算法优点：简单易理解、无需估计参数、无需训练。适用于几千-几万的数据量。

算法缺点：对测试样本计算时的计算量大，内存开销大， k值要不断地调整来达到最优效果。k值取太小容易受到异常点的影响，k值取太多产生过拟合，影响准确性。

2. 红酒数据集

2.1 数据集获取方式

红酒数据集是 Scikit-learn库中自带的数据集，我们只需要直接调用它，然后打乱它的顺序来进行我们自己的分类预测。首先我们导入Scikit-learn库，如果大家使用的是 anaconda的话，这个库中的数据集都是提前安装好了的，我们只需要调用它即可。

找不到这个数据集的，我把红酒数据集连接放在文末了，有需要的自取。

Scikit-learn数据集获取方法：

（1）用于获取小规模数据集，数据集已在系统中安装好了的

sklearn.datasets.load_数据名()

from sklearn import datasets
#系统中已有的波士顿房价数据集
boston = datasets.load_boston()

（2）远程获取大规模数据集安装到本地，data_home默认是位置是/scikit_learn_data/

sklearn.datasets.fetch_数据名(data_home = 数据集下载目录)

20年的新闻数据下载到
datasets.fetch_20newsgroups(data_home = './newsgroups.csv') #指定文件位置

这两种方法返回的数据是 .Bunch类型，它有如下属性：

data：特征数据二维数组；相当于x变量
target：标签数组；相当于y变量
DESCR：数据描述
feature_names：特征名。新闻数据、手写数据、回归数据没有
target_name：标签名。回归数据没有

想知道 还能获取哪些数据集的同学，可去下面这个网址查看具体操作：

https://sklearn.apachecn.org/#/docs/master/47

2.2 获取红酒数据

首先导入sklearn的本地数据集库，变量wine获取红酒数据，由于wine接收的返回值是 .Bunch类型的数据，因此我用 win_data接收所有特征值数据，它是 178行13列的数组， 每一列代表一种特征。 win_target用来接收所有的目标值，本数据集中的 目标值为0、1、2三类红酒。如果大家想更仔细的观察这个数据集，可以通过 wine.DESCR来看这个数据集的具体描述。

然后把我们需要的数据转换成DataFrame类型的数据。为了使预测更具有一般性，我们把这个 数据集打乱。操作如下：

from sklearn import datasets
wine = datasets.load_wine()  # 获取葡萄酒数据
wine_data = wine.data  #获取葡萄酒的索引data数据，178行13列
wine_target = wine.target  #获取分类目标值

将数据转换成DataFrame类型
wine_data = pd.DataFrame(data = wine_data)
wine_target = pd.DataFrame(data = wine_target)

将wine_target插入到第一列，并给这一列的列索引取名为'class'
wine_data.insert(0,'class',wine_target)

==1== 变量.sample(frac=1)           表示洗牌，重新排序
==2== 变量.reset_index(drop=True)   使index从0开始排序

wine = wine_data.sample(frac=1).reset_index(drop=True)  #把DataFrame的行顺序打乱

我们 取出最后10行数据用作后续的验证预测结果是否正确，这10组数据分出 特征值（相当于x）和目标值（相当于y）。剩下的数据也分出特征值features和目标值targets，用于模型训练。剩下的数据中还要划分出训练集和测试集，下面再详述。到此，数据处理这块完成。

#取后10行，用作最后的预测结果检验。并且让index从0开始，也可以不写.reset_index(drop=True)
wine_predict = wine[-10:].reset_index(drop=True)
让特征值等于去除'class'后的数据
wine_predict_feature = wine_predict.drop('class',axis=1)
让目标值等于'class'这一列
wine_predict_target = wine_predict['class']

wine = wine[:-10]  #去除后10行
features = wine.drop(columns=['class'],axis=1)  #删除class这一列，产生返回值
targets = wine['class']  #class这一列就是目标值

3. 红酒分类预测

3.1 划分测试集和训练集

一般采用75%的数据用于训练，25%用于测试，因此在数据进行预测之前，先要对数据划分。

划分方式：

使用 sklearn.model_selection.train_test_split 模块进行数据分割。

x_train,x_test,y_train,y_test = train_test_split(x, y, test_size=数据占比)

train_test_split() 括号内的参数：
x：数据集特征值(features)
y：数据集目标值(targets)
test_size：测试数据占比，用小数表示，如0.25表示，75%训练train，25%测试test。

train_test_split() 的返回值：
x_train：训练部分特征值
x_test: 测试部分特征值
y_train：训练部分目标值
y_test: 测试部分目标值

划分测试集和训练集
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(features,targets,test_size=0.25)

3.2 数据标准化

由于不同数据的 单位不同，数据间的跨度较大，对结果影响较大，因此需要进行数据缩放，例如 归一化和标准化。考虑到 归一化的缺点：如果异常值较多，最大值和最小值间的差值较大，会造成很大影响。我采用数据 标准化的方法，采用方差标准差， 使标准化后的数据均值为0，标准差为1，使数据满足标准正态分布。

先标准化再预测
from sklearn.preprocessing import StandardScaler  #导入标准化缩放方法
scaler = StandardScaler()  #变量scaler接收标准化方法
传入特征值进行标准化
对训练的特征值标准化
x_train = scaler.fit_transform(x_train)
对测试的特征值标准化
x_test = scaler.fit_transform(x_test)
对验证结果的特征值标准化
wine_predict_feature = scaler.fit_transform(wine_predict_feature)

3.3 K近邻预测分类

使用sklearn实现k近邻算法

from sklearn.neighbors import KNeighborsClassifier

KNeighborsClassifier(n_neighbors = 邻居数,algorithm = ‘计算最近邻居算法’)

.fit(x_train，y_train)

KNeighborsClassifier() 括号内的参数：

n_neighbors：int类型，默认是5，可以自己更改。（找出离自身最近的k个点）

algorithm：用于计算最近邻居的算法。有：’ball_tree’、’kd_tree’、’auto’。 默认是’auto’，根据传递给 fit()方法的值来决定最合适的算法，自动选择前两个方法中的一个。

from sklearn.neighbors import KNeighborsClassifier  #导入k近邻算法库
k近邻函数
knn = KNeighborsClassifier(n_neighbors=5,algorithm='auto')
把训练的特征值和训练的目标值传进去
knn.fit(x_train,y_train)

将训练所需的特征值和目标值传入.fit()方法之后，即可开始预测。首先利用 .score()评分法输入用于测试的特征值和目标值，来看一下这个 模型的准确率是多少，是否是满足要求，再使用 .predict()方法预测所需要的目标值。

评分法：根据x_test预测结果，把结果和真实的y_test比较，计算准确率

.score(x_test, y_test)

预测方法：

.predict(用于预测的特征值)

评分法计算准确率
accuracy = knn.score(x_test,y_test)
预测，输入预测用的x值
result = knn.predict(wine_predict_feature)

accuracy存放准确率，result存放预测结果，最终准确率为0.952，最终的分类结果和wine_predict_target存放的实际分类结果有微小偏差。

红酒数据集免费获取：

python实战K近邻算法，红酒分类预测数据集.xls-Python文档类资源-CSDN下载

完整代码如下：

python机器学习K近邻算法–红酒分类预测.py-Python文档类资源-CSDN下载

import pandas as pd
from sklearn import datasets

wine = datasets.load_wine()  # 获取葡萄酒数据
wine_data = wine.data  #获取葡萄酒的索引data数据，178行13列
wine_target = wine.target  #获取分类目标值

wine_data = pd.DataFrame(data = wine_data)  #转换成DataFrame类型数据
wine_target = pd.DataFrame(data = wine_target)
将target插入到第一列
wine_data.insert(0,'class',wine_target)

==1== 变量.sample(frac=1)           表示洗牌，重新排序
==2== 变量.reset_index(drop=True)   使index从0开始排序，可以省略这一步
wine = wine_data.sample(frac=1).reset_index(drop=True)

拿10行出来作验证
wine_predict = wine[-10:].reset_index(drop=True)
wine_predict_feature = wine_predict.drop('class',axis=1)  #用于验证的特征值，输入到predict()函数中
wine_predict_target = wine_predict['class']  #目标值，用于和最终预测结果比较

wine = wine[:-10]  #删除后10行
features = wine.drop(columns=['class'],axis=1)  #删除class这一列，产生返回值，这个是特征值
targets = wine['class']  #class这一列就是目标值
相当于13个特征值对应1个目标

划分测试集和训练集
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(features,targets,test_size=0.25)

先标准化再预测
from sklearn.preprocessing import StandardScaler  #导入标准化缩放方法
scaler = StandardScaler()  #变量scaler接收标准化方法

传入特征值进行标准化
x_train = scaler.fit_transform(x_train)  #对训练的特征值标准化
x_test = scaler.fit_transform(x_test)    #对测试的特征值标准化
wine_predict_feature = scaler.fit_transform(wine_predict_feature)

使用K近邻算法分类
from sklearn.neighbors import KNeighborsClassifier  #导入k近邻算法库
k近邻函数
knn = KNeighborsClassifier(n_neighbors=5,algorithm='auto')

训练，把训练的特征值和训练的目标值传进去
knn.fit(x_train,y_train)
检测模型正确率--传入测试的特征值和目标值
评分法，根据x_test预测结果，把结果和真实的y_test比较，计算准确率
accuracy = knn.score(x_test,y_test)
预测，输入预测用的x值
result = knn.predict(wine_predict_feature)

Original: https://blog.csdn.net/dgvv4/article/details/121316823
Author: 立Sir
Title: 【机器学习入门】(1) K近邻算法：原理、实例应用（红酒分类预测）附python完整代码及数据集

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/663369/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

OpenMV 从入手到跑TensorFlow Lite神经网络进行垃圾分类

Original: https://blog.csdn.net/qq_36300069/article/details/118071444Author: 超级网吧Title: Op…

人工智能 2023年5月24日
0069
非局部均值滤波算法（NL-means）

非局部均值滤波算法（NL-means）今天来学习一下另一类滤波算法：非局部均值滤波算法（NL-means）。非局部均值滤波算法最早于2005年由Buades等人发表在CVPR上，…

人工智能 2023年6月17日
00100
基于深度学习的建筑能耗预测02——安装Tensorflow-gpu

天津城建大学建筑学院18级-数字设计-基于深度学习的建筑能耗预测—2021WS作者：徐仔导师：万先生、丁先生 [En] Instructor: Mr. Wan and Mr. Di…

人工智能 2023年5月25日
0078
注意力机制（含pytorch代码及各函数详解）

目录 * – 注意力机制 – + * 非参注意力汇聚概述（不需要学习参数） * 参数化注意力机制概述 * 正式系统学习 * – 1.平均汇聚（池…

人工智能 2023年7月27日
00100
DTMF信号检测分析（Matlab)

基于Matlab平台的DTMF信号检测 1.将录制好的一段按键音读入到Matlab平台； 2.设计带通滤波器，去噪处理（可选）； 3.将给个按键音对应的信号一次分割； 4.计算分割…

人工智能 2023年6月17日
0071
年薪高达50W的测开，到底是做什么的？

市场上测试开发工程师的需求和薪资随着互联网行业对产品质量和速度的要求越来越高，所有BOSS都希望在保障版本迭代的速度的同时，能提供给客户最好质量和效果体验，以此抢占客户流量。所…

人工智能 2023年6月27日
0068
YOLOv5-6.1添加注意力机制（SE、CBAM、ECA、CA）

目录 0. 添加方法 1. SE * 1.1 SE 1.2 C3-SE 2. CBAM * 2.1 CBAM 2.2 C3-CBAM 3. ECA * 3.1 ECA 3.2 C3…

人工智能 2023年6月16日
0096
使用Pytorch框架自己制作做数据集进行图像分类（二）

第二章：Pytorch框架构建残差神经网络(ResNet) 第一章： Pytorch框架制作自己的数据集实现图像分类第二章： Pytorch框架构建残差神经网络(ResNet)第三…

人工智能 2023年7月2日
00107
导出tensorboard数据并用matplotlib重新绘图时遇到的问题

目录项目场景问题描述解决方案项目场景论文中需要展示tensorboard中的分类损失曲线，但tensorboard中的显示会有网格和平滑前的阴影，无法自由设置，PS处理也…

人工智能 2023年5月26日
0078
OpenCV+百度云人脸识别项目及源码

OpenCV+百度云人脸识别项目及源码 1、需要的硬件环境虚拟机带有摄像头的电脑 2、整体项目的框架用Opencv识别人脸，上传百度云进行识别对比 sudo apt-get i…

人工智能 2023年7月20日
0052
Yolov5基于目标区域（Region of Interest）的检测

Yolov5基于目标区域（Region of Interest）的检测 * – 前言引入 – mask图的制作 – yolo基于mask的检测 …

人工智能 2023年7月20日
0060
Matlab中直方图的绘制histogram函数

Matlab中直方图的绘制 histogram函数直方图属于数值数据的条形图类型，将数据分组为 bin。创建 Histogram 对象后，可以通过更改直方图的属性值修改它的各个方…

人工智能 2023年6月13日
0097
model.fit( )函数：训练模型

将训练数据在模型中训练一定次数，返回loss和测量指标 model.fit(x, y, batch_size, epochs, verbose, validation_split,…

人工智能 2023年6月12日
00110
TensorFlow实现条件批归一化（Conditional Batch Normalization）

条件批归一化（Conditional Batch Normalization）批归一化 (Batch Normalization, BN) 是深度学习中常用的网络训练技巧，它不仅…

人工智能 2023年7月13日
0069
Pytorch、TensorFlow、Keras如何固定随机种子

1. 可能引入随机性的地方 cuDNN中大量nondeterministic的算法 GPU多线程多个num_workers带来的随机性来自复杂模型的随机性（比如一些版本的RNN…

人工智能 2023年7月21日
0091
利用python实现Apriori关联规则算法

关联规则大家可能听说过用于宣传数据挖掘的一个案例:啤酒和尿布；据说是沃尔玛超市在分析顾客的购买记录时，发现许多客户购买啤酒的同时也会购买婴儿尿布，于是超市调整了啤酒和尿布的货架摆…

人工智能 2023年7月18日
0066

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31