机器学习（二）— KNN（K-Nearest Neighbors）

2023年7月2日上午1:22 • 人工智能 • 阅读 94

KNN

K-Nearest Neighbors

简单类比（Simple Analogy）

KNN：通过你周围的人来判断你是哪一类人

Tell me about your friends(who your neighbors are ) and I will tell you who you are

; 背景

KNN – K-Nearest Neighbors 别名：

Memory-Based Reasoning
Example-Based Reasoning
Instance-Based Learning
Lazy Learning

KNN在模式识别和数据挖掘领域有着非常广泛的应用；KNN利用某种相似性度量方案（常见的比如距离函数）对周围对结点进行度量，从而确定当前结点所属对类别。没错，它是一种分类算法，并且是无参数化的懒惰的学习算法。

K nearest neighbors stores all available cases and classifies new cases based on a similarity measure (e.g distance function)

说KNN懒惰是因为它不做任何的抽象和泛化，仅仅使用一种特定的相似性度量方案，不需要学习任何东西。

Using a strict definition of learning, in which the learner summarizes raw input into a model (equations, decision trees, clustering, if then rules), a lazy learner is not really learning anything.

与其他学习算法不一样，KNN在训练的时候只需要花费很短的时间，它只是存储训练数据，但是在测试的时候需要花费较长的时间；也不需要建立模型。这点和其他学习算法正好相反。

KNN使用多数投票的方式对新的样本进行分类，在邻近的K个样本中，某一类的样本个数最多，那么就新样本就属于这一类。

An object (a new instance) is classified by a majority votes for its neighbor classes.

The object is assigned to the most common class amongst its K nearest neighbors.(measured by a distant function)

比如在上面这个图种，绿色的新样本就被分类成B类。

KNN

前面说过KNN是一种懒惰的学习算法，对新样本进行分类是通过对邻近样本使用某种相似性指标得到的，并且是采用多数投票对方式。

那么这就有两个问题，第一：邻近样本中的”邻近”是如何定义的？第二：相似性度量指标是啥？

先来看第一个问题。KNN中的K就是解决这个问题的，K的值代表了取新样本周围最近邻居的数目。

“K” stands for number of data set items that are considered for the classification.

对于第二个问题，相似性度量指标一般用的是距离函数，即选择距离新样本最近的邻居。

如上图，左边是已经存储好的训练集，对于测试集中的每个样本都与训练集的样本计算距离，然后选择K个最近的训练集样本，接着在选择好的训练集样本中使用多数投票的方式来对测试集数据进行分类。

听起来好像没啥问题，但是这其中隐含了两个问题。第一，距离如何算？第二，从上面对流程能看出，KNN对时间复杂度是O(n2)。

第二个问题好像没啥解决办法，因为这是KNN本身的缺点。那如何计算距离呢？

欧几里得距离(Euclidean)

曼哈顿距离(Manhattan)

好的，到目前为止，已经讨论完了KNN算法的完整流程了，小结一下吧：

所有的样本都是在一个n维的空间中的
每个样本由数字类型的属性和标签组成
选择距离新样本最近的K个训练集样本
找出这K个样本里出现次数最多的标签

那么这个k值如何选择呢？或者说它的值对算法性能有什么影响呢？

K值太小对话，算法对异常值就非常敏感。举个极端的例子，k=1，并且距离新样本最近的样本点是一个误分类点。
稍大点的k比较好，但是如何很大又回包含很多其他类大样本点。
根据经验，k < sqrt(n)，n是训练集样本的个数。并且最好选择奇数（二分类）。

从上面的描述可以得到如下结论：

k太小的话，模型的bias小， _variance_高，过拟合，高复杂度。
随着k增大，bias增大，variance减小，走向欠拟合，低复杂度。
可以使用crass_validation来调整k值。

这部分可以参考下： KNN和K-means的区别为什么KNN算法里的K越小模型会越复杂？过拟合和欠拟合的偏差和方差问题（ https://blog.csdn.net/yanni0616/article/details/100008763 ）

直观地理解，过拟合就是学习到了很多”局部信息”，或者是”噪音”，使得我们的模型中包含很多”不是规律的规律”。在knn算法中，k越小，就越有可能让我们的学习结果被”局部信息”所左右。在极端情况下，k=1，knn算法的结果只由离我们待预测样本最近的那个点决定，这使得我们knn的结果高概率被”有偏差的信息”或者”噪音”所左右，是一种过拟合。

最后贴一下优缺点吧。

; 结语

这篇文章介绍了knn的一些基本问题，花了大概一个半小时的时间整理，图片都是来自于上课老师的ppt。考虑了许久要不要加sklearn的实现，如果加了是不是还要弄个不用sklearn的实现方案，但是想到这个东西遍地都是，懒得写了。

当然还有一些东西本文并未涉及到，比如说距离函数那里使用的都是数字类型的特征，如果特征是二分类的呢？如果是string呢？其实也有相应的衡量指标的，没加的原因主要是因为感觉没必要，因为我的初衷是为了应付期末考试的哈哈哈。

吐槽一下，notion笔记贴到csdn操作不友好。

Original: https://blog.csdn.net/williamgavin/article/details/122766486
Author: williamgavin
Title: 机器学习（二）— KNN（K-Nearest Neighbors）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/664437/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

关于YOLOv5标签命名问题的报错解决（assert mlc ＜ nc, ‘Label class %g exceeds nc=%g in %s.）

目录一. 泰迪杯害虫检测训练的时候，碰到如下问题：二. 解决步骤一. 泰迪杯害虫检测训练的时候，碰到如下问题： Label class 485 exceeds nc=28 i…

人工智能 2023年5月28日
0093
Python中回归（分类）结果的两种情况

【小白从小学Python、C、Java】【Python全国计算机等级考试】【Python数据分析考试必会题】 ● 标题与摘要 Python中回归（分类）结果的两种情况：（1）…

人工智能 2023年6月17日
00102
Tensorflow】：could not load dynamic library ‘libcudart.so.11.0‘；dlerror:libcudart.so.11.0的解决方法

一、问题描述 import tensorflow报错如下图测试：tf.test.is_built_with_cuda()显示Truetf.test.is_gpu_available…

人工智能 2023年5月23日
0060
Embedding原理到实战

原创：王稳钺资料来源：张春阳词向量被应用在非常非常多的场景中，甚至可以说跟文字相关的互联网应用基本上都会跟词向量有关系。本文主要从应用、发展以及实战代码来介绍词向量。 1. 词向…

人工智能 2023年5月30日
0056
用YOLOv5ds训练自己的数据集——同时检测和分割

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月3日
0069
计算机视觉数据集介绍：KITTI数据集

KITTI数据集简介 KITTI数据集是由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办，利用组装的设备齐全的采集车辆对实际交通场景进行数据采集获得的公开数据集。该数据集包含丰…

人工智能 2023年6月25日
0097
Redis数据库相关指令大合集

14天学习训练营导师课程：郑为中《Vue和SpringBoot打造假日旅社管理系统》努力是为了不平庸~ 学习有些时候是枯燥的，但收获的快乐是加倍的，欢迎记录下你的那些努力时刻（…

人工智能 2023年7月31日
0058
tensorflow-gpu版本安装教程（过程详细）

准备工作：在开始安装前，如果你的电脑装过tensorflow，请先把他们卸载干净，包括依赖的包（tensorflow-estimator、tensorboard、tensorflo…

人工智能 2023年5月26日
00157
基于YOLO的谱面识别与检索【Python环境实现】

文章目录一.YOLO模型结构学习与介绍 1.模型结构下载 2.模型结构介绍二．YOLO模型包训练输出结果调试三．YOLO模型乐谱识图训练过程 1.训练集路径设置2.修改配置文…

人工智能 2023年7月11日
00107
卷积神经网络resent网络实践

文章目录 * – 前言 – 一、技术介绍 – 二、实现途径 – 三、总结前言上篇文章，讲了经典卷积神经网络-resnet，这篇文…

人工智能 2023年7月27日
0064
Keras深度学习实战——音频分类

Keras深度学习实战——音频分类 * – 0. 前言 – 1. 音频分类任务与神经网络模型分析 – + 1.1 urbansound8k 数据…

人工智能 2023年7月1日
0067
YOLOX改进之模型轻量化（Lite）

文章内容：给YOLOv5-Lite系列轻量级模型换上YOLOX头部环境：pytorch1.7+cuda11.0注意：YOLOv5版本为5.0，可以匹配YOLOX的主干网络与neck…

人工智能 2023年5月28日
0081
MMPose姿态估计+人体关键点识别效果演示

MMPose——开源姿态估计算法库（附人体关键点识别效果演示）一、简介 1.1 背景首先姿态估计属于计算机视觉领域的一个基础研究方向。MMPose是基于Pytorch的姿态估计…

人工智能 2023年6月23日
0064
遥感航拍影像25篇CVPR39个数据集

摘要本文讲解了39个数据集，关于高空卫星图和低空无人机航拍图像。本文汇总了25篇CVPR2020年和2021年的论文。本文详细介绍了这25篇论文的任务是什么，难点是什么，场景…

人工智能 2023年7月26日
00108
图解自注意力机制

写在最前边这个文章是《图解GPT-2 | The Illustrated GPT-2 (Visualizing Transformer Language Models)》的一部分…

人工智能 2023年6月15日
00116
YOLO系列 — YOLOV7算法（一）：使用自定义数据集跑通YOLOV7算法

YOLO系列 — YOLOV7算法（一）：使用自定义数据集跑通YOLOV7算法这不就尴尬了。。。刚理解完美团出的YOLO V6算法，V7就出来了。。。而且最关键的是V7还有V4作…

人工智能 2023年7月3日
00105

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习（二）— KNN（K-Nearest Neighbors）

大家都在看