#Python机器学习#KNN分类算法（附算法原理+网格搜索+演示代码）

2023年7月3日上午12:11 • 人工智能 • 阅读 77

KNN分类算法

1、KNN分类算法起源
KNN,K-Nearest Neighbor的简写，即K-最近邻法算法，由Cover和Hart于1968年提出。其核心思想是借助”物以类聚，人以群分”，通过周围的事物属性来判断自身的属性，即自身属性由身边最近的K个物体的属性来决定，属于监督学习算法的一种。

2、 算法流程：

3、距离计算方法介绍

闵可夫斯基距离

d i s t ( X , Y ) = ∑ ∣ x i − y i ∣ p p dist(X,Y) = \sqrt[p]{\sum|x_i-y_i|^p}d i s t (X ,Y )=p ∑∣x i −y i ∣p

01-曼哈顿距离（当p=1）

d i s t ( X , Y ) = ∑ ∣ x i − y i ∣ dist(X,Y) = {\sum|x_i-y_i|}d i s t (X ,Y )=∑∣x i −y i ∣
02-欧式距离（当p=2）
d i s t ( X , Y ) = ∑ ∣ x i − y i ∣ 2 2 dist(X,Y) = \sqrt[2]{\sum|x_i-y_i|^2}d i s t (X ,Y )=2 ∑∣x i −y i ∣2

03-切比雪夫距离（当p=无穷大）
d i s t ( X , Y ) = max ⁡ ∑ ∣ x i − y i ∣ dist(X,Y) = \max{\sum|x_i-y_i|}d i s t (X ,Y )=max ∑∣x i −y i ∣

欧氏距离、曼哈顿距离、切比雪夫距离都是闵可夫距离的特殊情况，在实际的应用过程中，选择欧式距离居多，平时我们计算两点之间的距离默认选用的也是欧式距离。

4、交叉验证法：
将原始数据集进行多次划分，得到n个验证集和n个测试集合，分别对n个不同划分的数据集合进行训练和建模，得到n个预测结果，n个结果的平均值作为最终的分类结果。

5、网格搜索法介绍
网格搜索算法是一种通过遍历给定的参数组合来优化模型表现的方法，自动遍历我们给定的超参数，从而得到范围内的最优模型。

#网格搜索法和交叉验证接口
sklearn.model_selection.GridSearchCV(estimator,param_grid=None,cv=None)
##参数说明
estimator：估计器对象  #KNN,决策树等
param_grid：估计器的参数

cv:指定交叉验证的折数
##输出结果
best_params_
best_score_
best_estimator_
cv_results_

KNN算法函数说明

##调用代码
from sklearn.neighbors import KNeighborsClassifier
sklearn.neighbors. KNeighborsClassifier(n_neighbor=5,algorithm='auto')
##超参数
#n_neighbors:使用的邻居数量，默认为5
#algorithm:计算最近邻居的算法，可选'auto','ball_tree','kd_tree','brute'

iris数据集展示

##读取数据集
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
iris=load_iris()

##展示数据集
##这一步是想让大家看到数据集合的格式，正式应用的时候可以不需要
#iris.target=pd.DataFrame(iris.data)
#iris_data.shape
iris_data=pd.DataFrame(iris.data)
iris_data.columns=iris.feature_names
iris_data['target']=iris.target
print(iris_data.shape)
iris_data.head()

6、代码示例-无网格搜索

##监督算法01-KNN

##划分数据集和训练集
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,random_state=13)

##特征工程：标准化
from sklearn.preprocessing import StandardScaler
transfer=StandardScaler()  ##相当于导入一个计算机
x_train=transfer.fit_transform(x_train)
x_test=transfer.transform(x_test)

##KNN预估器
from sklearn.neighbors import KNeighborsClassifier
estimator=KNeighborsClassifier(n_neighbors=3)
estimator.fit(x_train,y_train)

##模型的评估-方法1
y_predict=estimator.predict(x_test)
print("y_predict:\n",y_predict)
print("真实值&预测值：\n",y_test==y_predict)

##模型的评估-方法2
score=estimator.score(x_test,y_test)
print("KNN算法准确率：\n",score)

结果解释：当选定K=3时，算法准确率为0.95.

采用十折交叉验证和网格搜索法对模型进行调优

##读取数据集
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
iris=load_iris()

from sklearn.neighbors import KNeighborsClassifier
##划分数据集和训练集
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,random_state=13)

##特征工程：标准化
from sklearn.preprocessing import StandardScaler
transfer=StandardScaler()  ##相当于导入一个计算机
x_train=transfer.fit_transform(x_train)
x_test=transfer.transform(x_test)

##KNN预估器
from sklearn.model_selection import GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
estimator=KNeighborsClassifier()

##确定网格交叉验证的参数
param_dict={"n_neighbors":[3,5,7,8,10]}
estimator=GridSearchCV(estimator,param_grid=param_dict,cv=3)
estimator.fit(x_train,y_train)

##预测
y_predict=estimator.predict(x_test)

##模型评估

##打印最佳参数
print("最佳参数：\n",estimator.best_params_)
##最佳结果
print("最佳结果：\n",estimator.best_score_)
##最佳预估器
print("最佳预估器：\n",estimator.best_estimator_)

结果：

根据网格搜索结果，在CV=3的前提下，当K=8时模型效果最佳，预测准确度为0.96。最后选取K=8的KNN模型作为本次建模的最终模型。

KNN算法的优缺点
优点：算法简单、易于理解
缺点：
1、当样本量较少，K值过大，不均衡样本对结果影响大；
2、K值的取值对结果影响大，K过小可能收到异常值的影响。

Original: https://blog.csdn.net/weixin_45271735/article/details/126356366
Author: 更更-python
Title: #Python机器学习#KNN分类算法（附算法原理+网格搜索+演示代码）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/666486/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

在监督学习中，什么是特征工程？为什么它对算法的性能至关重要

什么是特征工程？在监督学习中，特征工程是指根据所面对的具体问题，利用数据领域知识和统计学方法，对原始数据进行处理和转换，以便更好地表达分类或回归问题的特征属性。特征工程的目标是通…

人工智能 2024年1月2日
0054
TensorFlow学习报告

创建常量 tensor可以由各种各样的类型，如字符串、布尔值、列表、浮点型等转换 tf.constant(32) tf.constant(“Hello”) …

人工智能 2023年7月14日
0060
SoftPool：基于Softmax加权的池化操作 | 2021新文

SoftPool使用softmax进行加权池化，能够保持特征的表达性并且是可微操作。从性能和准确率来看，SoftPool是目前的常规池化方法的一个不错的替代品来源：晓飞的算法工程…

人工智能 2023年7月12日
0051
Haar分类器学习笔记

Haar分类器是什么？ Haar分类器 = Haar-like 特征 + 积分图 + AdaBoost + 强分类器的级联 1、Haar-like 特征最基本的Haar-like特…

人工智能 2023年7月1日
0076
DeFMO: Deblurring and Shape Recovery of Fast Moving Objects

DeFMO: Deblurring and Shape Recovery of Fast Moving Objects 论文链接一、摘要和介绍摘要: 用相机拍摄高速移动的物体时…

人工智能 2023年6月22日
0084
cv2.error: OpenCV(4.5.5) D:aopencv-pythonopencv-pythonopencvmodulescoresrcarithm.cpp:650: er

星光不问赶路人，时光不负有心人。在训练模型时，读取图片数据的维度不是三维的，图片数据通道数正常是3，但训练时候，通道数有10、20等，后面打印img，发现最后通道数补充的都是0，…

人工智能 2023年6月18日
0067
GAN综述及其在图像生成领域的应用（含原理、代码详解）

本文将持续更新。目录 1. 基本GAN * 1.1 GAN（2014） 1.2 CGAN（2015） 1.3 DCGAN（2015） 1.4 VAE-GAN（2016） 1.5 …

人工智能 2023年6月15日
0083
【论文阅读笔记 KDD2021】《Relational Message Passing for Knowledge Graph Completion》

论文链接：https://arxiv.org/pdf/2002.06757.pdf代码和数据集：https://github.com/hwwang55/PathCon 文章目录 *…

人工智能 2023年6月1日
0084
HTML+CSS大作业——电影动漫言叶之庭(4页) web前端课程设计_web前端课程设计代码,web课程设计-HTML网页制作代码

HTML5期末大作业：电影网站设计——电影动漫言叶之庭(4页) web前端课程设计_web前端课程设计代码,web课程设计-HTML网页制作代码常见网页设计作业题材有 &…

人工智能 2023年6月29日
0065
Python + OpenCV一步一步地实现图像拼接（原理与代码）

图像拼接可以理解为三大步：按顺序读取多幅图像，并保证图像按照从左到右的顺序。发现这些图像像素之间的相关性（涉及到单应性）。将这些图像拼接成为一张全景图像。首先，需要了解如…

人工智能 2023年7月5日
0075
Efficient Long-Range Attention Network for Image Super-resolution

Efficient Long-Range Attention Network for Image Super-resolution Date: 2022/04/09File Typ…

人工智能 2023年5月28日
0072
分享一个超详细的数据分析案例【Python】附ABTest详细介绍

大家早上好，本人姓吴，如果觉得文章写得还行的话也可以叫我吴老师。欢迎大家跟我一起走进数据分析的世界，一起学习！感兴趣的朋友可以关注我或者我的数据分析专栏，里面有许多优质的文章跟大家…

人工智能 2023年6月11日
0084
图像处理-特征融合：相加、拼接、Attention

1 低层/高层特征 2 早/晚融合-Concat/Add 3 Attention特征融合特征融合是指来自不同层或分支的特征的组合，是现代网络体系结构中很常见的一种操作。图像处理的…

人工智能 2023年5月26日
00104
分类任务的标签与one-hot相互转化（tensorflow）

利用tensorflow自带的one_hot函数 1.从整数到one-hot 假设：四分类情况下label等于0~3 import tensorflow as tf label …

人工智能 2023年5月25日
00148
图像分类模型 I. 从LeNet到ResNet

从LeNet到ResNet，神经网络沿着越来越深方向演进。 LeNet LeNet是最早发布的卷积神经网络，取得了与SVM性能相媲美的效果，广泛应用于ATM数字识别。代码实现模型…

人工智能 2023年7月1日
0080
如何计算电机极数和无刷电机的Kv值?

介绍如果您正在制造无人机、遥控车或任何使用无刷直流(BLDC)电机的机器，您可能会遇到电机极数和电机Kv值的概念。这两个参数对于表征您的电机和估计其性能都很有帮助。在本文中，我…

人工智能 2023年6月2日
00195

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

#Python机器学习#KNN分类算法（附算法原理+网格搜索+演示代码）

KNN分类算法

大家都在看