KNN算法详解

2023年6月15日上午3:22 • 人工智能 • 阅读 117

title: “KNN算法详解”
date: 2022-01-01T11:20:23+08:00
lastmod: 2022-01-01T13:20:23+08:00
draft: false
tags: [“机器学习”, “KNN”, ‘KD树’]
categories: [“机器学习”]
author: “玉面蟾蜍”

KNN算法详解

KNN算法是一种非参数分类算法(不需要训练参数)，隶属于有监督学习，其核心思想为：”近朱者赤近墨者黑”

定义

KNN（K- Nearest Neighbor）法即K最邻近法：如果一个样本在特征空间中的K个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别

如下图所示：

当KNN的K定义为3，则在五角星最近的3个点内，分类为B的点最多，则五角星的分类为B

当KNN的K定义为6，则在五角星最近的6个点内，分类为A的点最多，则五角星的分类为A

; 三要素

距离度量算法：一般使用的是欧氏距离。也可以使用其他距离：曼哈顿距离、切比雪夫距离、闵可夫斯基距离等。各种距离方法见链接

k值的确定：k值越小，模型整体变得越复杂，越容易过拟合。通常使用交叉验证法来选取最优k值


from random import choice
from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import KFold, StratifiedKFold

N = 10

iris = datasets.load_iris()
X = iris['data']
y = iris['target']

k_candidate = [i for i in range(1,20) if i%2!=0]

fk = StratifiedKFold(n_splits=N, shuffle=True, random_state=521)

maximum_accuracy = 0

best_k = choice(k_candidate)

for k in k_candidate:

    count_accuracy = 0

    for train_index,valid_index in fk.split(X,y):

        clf = KNeighborsClassifier(n_neighbors=k)

        clf.fit(X[train_index], y[train_index])

        count_accuracy = count_accuracy + clf.score(X[valid_index], y[valid_index])

    count_accuracy = count_accuracy/N
    print('平均准确率为：%.2f' % count_accuracy)

    if count_accuracy > maximum_accuracy:

        maximum_accuracy = count_accuracy

        best_k = k
    print('当前最好的K值为：%d'%best_k,"当前最大的准确率值为：%.2f"%maximum_accuracy)
    print("*"*60)
print('评估最合适的K值为：%d'%best_k,"其准确率为：%.2f"%maximum_accuracy)

分类决策：一般使用多数表决，即在 k 个临近的训练点钟的多数类决定输入实例的类。可以证明，多数表决规则等价于经验风险最小化

假设我们的损失函数为 0,1损失函数 – 分类错误l o s s + 1 loss+1 l o s s +1，分类函数为 f ( z ) f(z)f (z )
误分类概率：P ( y ≠ f ( z ) ) = 1 − P ( y = f ( z ) ) P(y\neq f(z)) = 1 -P(y=f(z))P (y =f (z ))=1 −P (y =f (z ))
误分类率：1 k ∑ x i ∈ N k ( z ) I ( y i ≠ c j ) = 1 − 1 k ∑ x i ∈ N k ( z ) I ( y i = c j ) \frac {1} {k}\displaystyle \sum_{x_i \in N_k(z)}{I(y_i\neq c_j)} = 1-\frac{1}{k}\displaystyle \sum_{x_i \in N_k(z)}{I(y_i= c_j)}k 1 x i ∈N k (z )∑I (y i =c j )=1 −k 1 x i ∈N k (z )∑I (y i =c j )
因此为了使误分类率最小，就要最大化：1 k ∑ x i ∈ N k ( z ) I ( y i = c j ) \displaystyle \frac{1}{k}\displaystyle \sum_{x_i \in N_k(z)}{I(y_i= c_j)}k 1 x i ∈N k (z )∑I (y i =c j )
而使之最大化，则就应使得c j \pmb c_j c c c j 为N k ( z ) \pmb N_k(z)N N N k (z )中的大多数表达，即为多数表决规则(Vote)

核心问题

KNN是一种惰性机器学习方法：

优点：

天生支持增量学习（不需要训练，没有增量拓展的麻烦事儿）
可以用于非线性分类
能对超多变形的复杂决策空间建模
在数据量不多但数据代表性较强时，kNN分类效果较好

缺点：

计算开销大
可解释性不强
样本不平衡的时候，对稀有类别的预测准确率低

针对部分数据（特征空间维度大，数据容量大），可使用KD Tree加速检索过程。

kd Tree 是一种平衡二叉树，目的是实现对 k 维空间的划分。

kd树构造

上图的树就是一棵KDTree，形似二叉搜索树，其实KDTree就是二叉搜索树的变种。这里的K = 3(维度).

首先来看下树的组织原则。将每一个元组按0排序（第一项序号为0，第二项序号为1，第三项序号为2），在树的第n层，第 n%3 项被用粗体显示，而这些被粗体显示的树就是作为二叉搜索树的key值，比如，根节点的左子树中的每一个节点的第一个项均小于根节点的的第一项，右子树的节点中第一项均大于根节点的第一项，子树依次类推。

对于这样的一棵树，对其进行搜索节点会非常容易，给定一个元组，首先和根节点比较第一项，小于往左，大于往右，第二层比较第二项，依次类推。

; kd树检索

假设我们的k-d tree通过样本集{(2,3), (5,4), (9,6), (4,7), (8,1), (7,2)}创建的。
我们来查找点(2.1,3.1)，在(7,2)点测试到达(5,4)，在(5,4)点测试到达(2,3)，然后search_path中的结点为

再举一个稍微复杂的例子，我们来查找点(2,4.5)，在(7,2)处测试到达(5,4)，在(5,4)处测试到达(4,7)，然后search_path中的结点为

应用场景

数据敏感度

1、对数据没有假设，准确度高，对异常点不敏感

2、样本不平衡的时候，对稀有类别的预测准确率低

实际应用

经常在stacking中与其他模型组合使用，例如采用svm的特征为KNN加权

面试常见问题

1、 不平衡的样本可以给KNN的预测结果造成哪些问题，有没有什么好的解决方式？

输入实例的K邻近点中，大数量类别的点会比较多，但其实可能都离实例较远，这样会影响最后的分类。
可以使用权值来改进，距实例较近的点赋予较高的权值，较远的赋予较低的权值。

2、 为了解决KNN算法计算量过大的问题，可以使用分组的方式进行计算，简述一下该方式的原理。

先将样本按距离分解成组，获得质心，然后计算未知样本到各质心的距离，选出距离最近的一组或几组，再在这些组内引用KNN。本质上就是事先对已知样本点进行剪辑，事先去除对分类作用不大的样本，该方法比较适用于样本容量比较大时的情况。

3、 KD树建立过程中切分维度的顺序是否可以优化？

先对各个维度计算方差，选取最大方差的维度作为候选划分维度(方差越大，表示此维度上数据越分散)；对split维度上的值进行排序，选取中间的点为node-data；按照split维度的node-data对空间进行一次划分；对上述子空间递归以上操作，直到空间只包含一个数据点。分而治之，且循环选取坐标轴。从方差大的维度来逐步切分，可以取得更好的切分效果及树的平衡性。

4、 KD树每一次继续切分都要计算该子区间在需切分维度上的中值，计算量很大,有什么方法可以对其进行优化？

算法开始前，对原始数据点在所有维度进行一次排序，存储下来，然后在后续的中值选择中，无须每次都对其子集进行排序，提升了性能。

5、 KNN与K-means的区别

KNN

分类算法
监督学习
数据集是带Label的数据
没有明显的训练过程，基于Memory-based learning
K值含义 – 对于一个样本X，要给它分类，首先从数据集中，在X附近找离它最近的K个数据点，将它划分为归属于类别最多的一类

K-means

聚类算法
非监督学习
数据集是无Label，杂乱无章的数据
有明显的训练过程
K值含义- K是事先设定的数字，将数据集分为K个簇，需要依靠人的先验知识

Kmeans算法的缺陷：

聚类中心的个数K 需要事先给定，但在实际中这个 K 值的选定是非常难以估计的，很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适
Kmeans需要人为地确定初始聚类中心，不同的初始聚类中心可能导致完全不同的聚类结果。（可以使用Kmeans++算法来解决）

参考：

机器学习面试题之KNN

KNN与kdTree+Python实现

详解KD Tree

Original: https://blog.csdn.net/zsmjqtmd/article/details/124187905
Author: 玉面蟾蜍
Title: KNN算法详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/613531/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据标注的类别有哪些

在我之前的文章中，我已经介绍了什么是人工智能下的数据标注，并简单介绍了数据标注的种类和应用。现在我将详细介绍数据标注的类型，以便大家对数据标注有更深入的了解。一、形象类矩形拉框：这…

人工智能 2023年5月25日
00128
机器学习笔记1.1-回归(regression)

监督学习-Regression 一：模型搭建（初始版)这里采用的模型：sklearn.linear_model import LinearRegression sklearn 库中…

人工智能 2023年6月17日
0069
所有的线性滤波器总结

线性滤波器选题背景与意义 * 线性滤波器频域与空间域中线性滤波算法设计 * 均值滤波. 加权均值滤波高斯滤波线性锐化滤波线性算子理想低通（高通）滤波高斯低通（高通）…

人工智能 2023年6月18日
0052
opencv python 画轮廓的最小矩形（可旋转）

contours, hierarchy = cv.findContours(close_img, cv.RETR_TREE, cv.CHAIN_APPROX_NONE) # hie…

人工智能 2023年7月20日
0051
pandas 处理什么样的数据？

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月6日
0090
2021 年“泰迪杯”数据分析技能赛B题：python实现肥料登记数据分析(含原始数据)

这周复习了python数据处理的实战，把之前竞赛的题目重新做了一遍。这里侧重数据分析与数据处理的部分。文末含原始题目与数据，需要的小伙伴自取~ 【事先说明】：本文只是在技术维度上…

人工智能 2023年7月14日
00128
【TL第二期】动手学数据分析-第一章数据基本操作

文章目录 * – + * 第一章 * – 第一节数据载入与初步观察 – + 0 导库 + 1 载入数据 + 2 查看数据基本信息 &#8211…

人工智能 2023年7月7日
0076
对数几率回归

利用sklearn中的load_breast_cancer数据集进行对数几率回归分类先导入一下数据，再把矩阵调整成按列存储每个样本的形式 cancer = datasets.lo…

人工智能 2023年6月18日
0057
Yolov5中使用Resnet18作为主干网络

Yolov5中使用Resnet18作为主干网络预备知识采用Resnet-18作为主干网络，首先第一件事情就要了解Resnet的网络结构以及resnet-18中的残差层是做什么的…

人工智能 2023年7月29日
0062
Web前端大作业——基于HTML+CSS+JavaScript仿英雄联盟LOL游戏网站

🎉精彩专栏推荐👇🏻👇🏻👇🏻✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战案例…

人工智能 2023年6月26日
00101
pandas的数据结构

目录 1.pandas介绍 2.pandas的数据结构 2.1 Series 2.1 创建一个Series 2.1.1 创建一个具有标签索引的Series 2.1.2 使用pyth…

人工智能 2023年7月16日
0054
mediapipe u3dplugin使用记录

吐槽：第一次遇到这么难的节目，80%的时间都花在了网络传输上，但要珍惜，生活还要继续。 [En] Complaint: when you encounter such a diff…

人工智能 2023年5月24日
00134
教你用300行Python代码实现一个人脸识别系统

用300行Python代码实现一个人脸识别系统最近又多了不少朋友关注，先在这里谢谢大家。关注我的朋友大多数都是大学生，而且我简单看了一下，低年级的大学生居多，大多数都是为了完成课…

人工智能 2023年6月26日
0071
OpenCV中的Mat类（一）

学习资料参考：张平.《OpenCV算法精解：基于Python与C++》.[Z].北京.电子工业出版社.2017. Mat类就是指矩阵或者数组，该类在头文件opencv2\core…

人工智能 2023年6月21日
0071
ICLR 2022：文本驱动的图像风格迁移：Language-Driven Image Style Transfer

Language-Driven Image Style Transfer 论文地址：主要工作：具体实现： * LANGUAGE VISUAL ARTIST： CONTRASTI…

人工智能 2023年5月30日
0084
Stata数据转置和数据匹配

目录一、数据转置 1.说明 2.reshape 二、数据匹配 1.说明 2.merge 参考一、数据转置 1.说明在数据处理的过程中，偶尔会发现一些数据下载下来并非是面板数据…

人工智能 2023年7月15日
0095

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

KNN算法详解

定义

; 三要素

核心问题

kd树构造

; kd树检索

应用场景

数据敏感度

实际应用

面试常见问题

大家都在看