k–最近邻算法（KNN）

2023年6月25日上午2:44 • 人工智能 • 阅读 75

一、简介

邻近算法（KNN）是数据挖掘分类技术最简单的方法之一，所谓K最近邻，就是K个最近的邻居的意思，说的是每个样本都可以用它最接近的K个临近值来代表。

如果一个样本在特征空间中的K个最相邻的样本中大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法在类别决策时，只与极少量的相邻样本有关。由于KNN算法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来判断所属类别的，因此对于类域的交叉，或重合较多的样本集来说，KNN方法较其他方法更加适合。

二、举例理解

我们需要确定绿点属于哪个颜色（蓝色或者红色），要做的就是选出距离目标点距离最近的k个点，看这k个点的大多数颜色是什么颜色。以绿点为圆心做圆，可以直观地看到其他样本与其目标点距离大小的排序，当k取3的时候，我们可以看出距离最近的三个，分别是红色，红色，蓝色，因此得到目标点为红色；但当k取5时，我们可以看出距离最近的五个，分别是红色，红色，蓝色，蓝色，蓝色，所以得到的目标点为蓝色，因此我们可以知道k的取值不同，得到的结果也是不同的。

三、算法步骤

1、计算测试数据与各个训练数据之间的距离

2、按照距离的递增顺序进行排序

3、选取距离最小的K个点

4、确定前K个点所在类别的出现频率

5、返回前K个点中出现频率最高的类别（决策依据方法之一）作为预测数据的分类

四、其他说明

1、关于距离的计算

1、闵可夫斯基距离

2、欧几里得距离（其实相当于购股定理）

3、曼哈顿距离

4、切比雪夫距离

5、马氏距离

6、余弦相似度

7、皮尔逊相关系数

8、汉明距离

9、杰卡德相似系数

10、编辑距离

11、DTW距离

12、KL散度

2、超参数

在机器学习的上下文中，超参数是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。通常情况下，需要对超参数进行优化，给学习机选择一组最优超参数，以提高学习的效能和效果。

3、关于K值的选择

K称为邻近数，即在预测目标点时取几个邻近的点来预测。

K值的选取非常重要：

1、如果K值选取过小时，一些有噪声的成分存在就会对预测产生比较大的影响，例如K值取1时，一旦最近一个点是噪声，那么就会出现偏差，K值的减少就意味着整体模型变得复杂，容易发生过拟合；

2、如果K值取得过大时，就相当于用较大邻域中的训练实例进行预测，学习的近似误差会增大。这时与输入目标点较远实例也会对预测起作用，使预测发生错误。K值增大就意味着模型变得简单，也就是容易发生欠拟合。

3、如果K=N时，那么就是取全部的实例，即为取实例中某分类下最多的点，就对预测没有什么实际意义了。

4、取K值的方法

1、从K=1开始，使用检验集估计分类器的误差率。重复该过程，每次K增值1，允许增加一个近邻，选取产生最小误差的K。

2、一般K的取值不超过20，上限是n的平方，随着数据集的增大，K的值也要增大。

3、K的取值尽量选取奇数以保证在计算结果最后会产生一个较多的类别，如果取偶数可能会产生相等的情况，不利于预测。

5、关于决策依据

最常用的决策规则是：

1、多数表决法（更加常用）：多数表决法类似于一个投票的过程，也就是在K个邻居中选择类别最多的种类作为测试样本的类别。

2、加权表决法：根据距离的远近，对近邻的投票进行加权，距离越近，加权越大。通过权重计算结果最大值的类为测试样本的类别。

6、优缺点

优点:

1、简单好用，容易理解。精度高，理论成熟，既可以用来分类也可以用来回归。

2、可用于数值型数据和离散型数据。

3、训练时间复杂度为o(n)，无数据输入假定。

4、对异常值不敏感。

缺点：

1、计算复杂度高，时间复杂度高。

2、样本不平衡问题（有些样本数量很多，而其他样本数量很少）

3、一般数值很大的时候不用这个，计算量太大，但是单个样本数量又不能太少，否则容易发生误分。

4、无法给出数据内在含义

五、代码

#&#x5F15;&#x5E93;
import numpy as np
import matplotlib.pyplot as plt
from math import sqrt
%matplotlib inline
#&#x539F;&#x59CB;&#x6570;&#x636E;
data=[[1,0.9],[1,1],[0.1,0.2],[0,0.1]]
labels=['A','A','B','B']
test_data=[[0.1,0.3]]
#&#x7ED8;&#x5236;&#x539F;&#x59CB;&#x6570;&#x636E;&#x6563;&#x70B9;&#x56FE;
print("------------------------&#x6570;&#x636E;&#x51C6;&#x5907;----------------------")
print("&#x539F;&#x59CB;&#x6570;&#x636E;&#x56FE;&#x50CF;&#x7ED8;&#x5236;...")
for i in range(len(data)):
    plt.scatter(data[i][0],data[i][1],color='b')
plt.scatter(test_data[0][0],test_data[0][1],color='r')
plt.show()
#&#x6D4B;&#x8BD5;&#x6570;&#x636E;x=(0.1,0.3)
#&#x91C7;&#x7528;&#x6B27;&#x6C0F;&#x8DDD;&#x79BB;&#x8FDB;&#x884C;&#x8BA1;&#x7B97;
print("------------------------&#x8DDD;&#x79BB;&#x8BA1;&#x7B97;----------------------")
x=[[0.1,0.3]]
distance=[]
labels_vz=[]
for i in range(len(data)):
    d=0
    d=sqrt((x[0][0]-data[i][0])**2+(x[0][1]-data[i][1])**2)
    distance.append(d)
    labels_vz.append(i)
print("&#x8BA1;&#x7B97;&#x7684;&#x8DDD;&#x79BB;&#x4E3A;&#xFF1A;\n",distance)
print("&#x73B0;&#x5728;&#x5BF9;&#x5E94;&#x7684;&#x6807;&#x7B7E;&#x4F4D;&#x7F6E;&#x4E3A;&#xFF1A;\n",labels_vz)
#&#x6309;&#x7167;&#x5347;&#x5E8F;&#x6392;&#x5E8F;&#xFF0C;&#x5E76;&#x53D6;&#x8DDD;&#x79BB;&#x6700;&#x5C0F;&#x7684;&#x524D;3&#x4E2A;
print("-----------------------&#x8DDD;&#x79BB;&#x6392;&#x5E8F;-----------------------")
for i in range(len(data)-1):
    for j in range(i+1,len(data)):
        if distance[i]>distance[j]:
            distance[i],distance[j]= distance[j],distance[i]
            labels_vz[i],labels_vz[j]= labels_vz[j],labels_vz[i]
print("&#x6392;&#x5E8F;&#x540E;&#x7684;&#x8DDD;&#x79BB;&#x4E3A;&#xFF1A;\n",labels_vz)
print("&#x53D6;&#x8DDD;&#x79BB;&#x6700;&#x8FD1;&#x7684;3&#x4E2A;&#x503C;&#xFF1A;",distance[0:3])
#&#x8FDB;&#x884C;&#x6295;&#x7968;&#x8868;&#x51B3;
print("-----------------------&#x8868;&#x51B3;&#x6295;&#x7968;-----------------------")
A=0
B=0
for i in range(len(labels_vz[0:3])):
    if labels[labels_vz[i]]=='A':
        A+=1
    else:
        B+=1
print("&#x6295;&#x7968;&#x4E3A;A&#x7684;&#x6570;&#x91CF;&#x4E3A;&#xFF1A;",A)
print("&#x6295;&#x7968;&#x4E3A;B&#x7684;&#x6570;&#x91CF;&#x4E3A;&#xFF1A;",B)
print("\n&#x5BF9;&#x7167;&#x521D;&#x59CB;&#x56FE;&#x4E2D;&#x7EA2;&#x8272;&#x70B9;&#xFF08;&#x6D4B;&#x8BD5;&#x70B9;&#xFF09;&#x4E0E;&#x524D;&#x4E24;&#x4E2A;&#x6807;&#x7B7E;&#x4E3A;A&#x7684;&#x79BB;&#x7684;&#x6700;&#x8FD1;&#xFF0C;&#x6240;&#x4EE5;&#x6211;&#x4EEC;&#x7684;&#x8BA1;&#x7B97;&#x4E0E;&#x56FE;&#x4E2D;&#x6240;&#x5448;&#x73B0;&#x7684;&#x7ED8;&#x56FE;&#x4E00;&#x81F4;")

Original: https://blog.csdn.net/crhispretty/article/details/125440577
Author: 涵~~
Title: k–最近邻算法（KNN）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/650157/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

AlexNet模型及代码详解

Alex在2012年提出的alexnet网络结构模型引爆了神经网络的应用热潮，并赢得了2012届图像识别大赛的冠军，使得CNN成为在图像分类上的核心算法模型。该网络的亮点在于：（…

人工智能 2023年6月16日
0089
文本的检测、识别实战：使用 Tesseract 进行 OpenCV OCR 和文本识别

在本篇文章中，我们将使用 OpenCV、Python 和 Tesseract 执行 (1) 文本检测和 (2) 文本识别。上篇文章，我向您展示了如何使用 OpenCV 的 EAS…

人工智能 2023年5月31日
00102
GNN入门之路07

GNN入门之路07 哈哈，写到这里，我的这个系列博客终于要写完了。说来也奇怪，本来当初是打算一个月内完成，结果由于换工作就耽误了，后来也入职新公司，一来二去竟然把这个任务留到了过年…

人工智能 2023年7月14日
0040
睿智的目标检测57——Tensorflow2 搭建YoloV5目标检测平台

睿智的目标检测57——Tensorflow2 搭建YoloV5目标检测平台学习前言源码下载 YoloV5改进的部分（不完全） YoloV5实现思路 * 一、整体结构解析二、网…

人工智能 2023年6月16日
0088
python使用pandas模块介绍以及使用，dataframe结构，Series结构，基本数据操作,DataFrame运算，pandas画图，存储，缺失值处理，离散化，合并

目录 1 pandas介绍 * 1.1 Pandas介绍 1.2 为什么使用Pandas 1.3 案例：在numpy当中创建的股票涨跌幅数据形式 1.4 DataFrame &#8…

人工智能 2023年7月8日
0055
【深度学习基础】卷积是如何计算的

1 什么是多卷积核 1.1 卷积从本质上讲，卷积的计算过程其实同全连接一样，也是各个神经元之间的线性组合。只是卷积操作在进行线性组合时选择的是特定位置上的神经元。下面我们首先通过…

人工智能 2023年7月26日
0093
【无标题】

前几天的文章中我们提到MAE在时间序列的应用，本篇文章介绍的论文已经将MAE的方法应用到图中，这是来自[KDD2022]的论文GraphMAE: Self-supervised M…

人工智能 2023年5月28日
0088
cuda安装失败原因汇总

目录一，cuda版本与显卡驱动的对应问题？二，cudnn与cuda的关系？三，cuda和cudnn如何使用？四，如何安装cv2？五，升级pip命令六，在cmd中提示缺少…

人工智能 2023年7月4日
00109
线性回归实战——波士顿房价预测

利用马萨诸塞州波士顿郊区的房屋信息数据，使用线性回归模型训练和测试一个房价预测模型，并对模型的性能和预测能力进行测试分析。使用的编程语言是python，主要使用了pandas、ma…

人工智能 2023年6月16日
00203
【OpenCV】中的鱼眼相机及其标定

1. 鱼眼镜头特性与镜头分类普通镜头和针孔相机在数学模型上可以等价对待，都是射影变换（Perspective transform）；鱼眼镜头受到水下斯涅耳窗口现象的启发，采用不同…

人工智能 2023年7月19日
0071
将激光雷达点云转换为和RGB图相对应的深度图（RGB-D）

1、匹配时间戳最相近的图片和点云文件，一张图片对应一个点云文件（或者一张图片对应多个点云文件，多张图片对应一个点云文件也可以），时间戳越相近越好，如果时间差比较大，需要做一些线性运…

人工智能 2023年5月26日
0095
深度可分离卷积

深度可分离卷积导读提出背景研究进展深度可分离卷积详细介绍空间可分离参数分析深度可分离卷积以及MobileNet的网络结构导读最近在学习模型量化相关的技术，过程中了…

人工智能 2023年5月26日
0094
如何利用 Python 批量合并 Excel？

大家好，今天分享一个利用 Pandas进行数据分析的小技巧，也是之前有粉丝在后台进行提问的，即如何将多个 pandas.dataframe保存到同一个 Excel中。喜欢记得收藏、…

人工智能 2023年7月15日
0066
多级小波分解网络：可解释的时间序列分析

文章信息本周阅读的论文是题目为《Multilevel Wavelet Decomposition Network for Interpretable Time Series An…

人工智能 2023年7月13日
0069
Kaldi 安装

Kaldi 安装 1 WSL -Ubuntu 参照 https://zhuanlan.zhihu.com/p/263089007 https://zhuanlan.zhihu….

人工智能 2023年5月23日
0065
yolo-pose环境搭建及训练和测试

文章目录前言 1、准备工作 2、训练模型 * 2.1.可能报的错：AttributeError: Cant get attribute SPPF on module models…

人工智能 2023年7月27日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

k–最近邻算法（KNN）

1、关于距离的计算

2、超参数

3、关于K值的选择

4、取K值的方法

5、关于决策依据

6、优缺点

大家都在看