机器学习算法—-KNN K邻近 (K值的选择) (学习笔记)

2023年6月15日下午8:50 • 人工智能 • 阅读 107

文章目录

KNN简介
算法原理
K值选择
距离的计算
学习参考

今天整理一下KNN的笔记，这个算法比较简单，没什么太多的东西。

我刚才看到一个视频教程，里面的老师说KNN是一个聚类算法，我疑惑了一秒，然后出去确认了一下他讲错了，KNN是分类算法，分类和聚类在数据上都是有本质区别的，可以在我整理聚类的那篇学习笔记里看到聚类和分类的区别。

KNN简介

KNN的全称是K Nearest Neighbors。意思是K个最近的邻居。
KNN是有监督学习，K-Means是无监督学习，这俩一个分类一个聚类。

简单介绍一下KNN：

比如有下面这样的数据：

该数据中只有蓝色和红色数据，绿色为未知数据(蓝或红)。
KNN就根据距离绿色样本最近的数据来判断绿色可能的颜色，
此时俩红距离其较近，所以该未知可能为红色。

; 算法原理

想说一下大致步骤

计算样本的距离
将得到的距离结果升序排序
取排序结果的前K个
加权平均

这里比较关键的点就是如何选择K的数值其次是距离的计算。

K值选择

k值是KNN算法的一个超参数，K的含义即参考”邻居”标签值的个数。有个反直觉的现象，K取值较小时，模型复杂度（容量）高，训练误差会减小，泛化能力减弱；K取值较大时，模型复杂度低，训练误差会增大，泛化能力有一定的提高。
原因是K取值小的时候（如k==1），仅用较小的领域中的训练样本进行预测，模型拟合能力比较强，决策就是只要紧跟着最近的训练样本（邻居）的结果。但是，当训练集包含”噪声样本”时，模型也很容易受这些噪声样本的影响（如图过拟合情况，噪声样本在哪个位置，决策边界就会画到哪），这样会增大”学习”的方差，也就是容易过拟合。这时，多”听听其他邻居”训练样本的观点就能尽量减少这些噪声的影响。K值取值太大时，情况相反，容易欠拟合。

通过交叉验证不断尝试最优的K值，从选取一个较小的K值开始，不断增加K的值，然后计算验证集合的方差，最终找到一个比较合适的K值。

还可以根据经验选择，比如经常性的做某一数据集，知道他的K大概是多少比较好。

距离的计算

之前在聚类的笔记里已经记录了很多种距离的计算方式了，比如欧几里得距离，曼哈顿距离等等，可以去那篇笔记里看一下，—-聚类的笔记

学习参考

K值选择:https://www.zhihu.com/question/40456656

KNN简介（讲错的那个视频）:https://www.bilibili.com/video/BV1Nt411i7oD?spm_id_from=333.337.search-card.all.click

Original: https://blog.csdn.net/qq_38737428/article/details/124024925
Author: 深度不学习！！
Title: 机器学习算法—-KNN K邻近 (K值的选择) (学习笔记)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/617406/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pandas教程03—DataFrame的创建及索引

文章目录欢迎关注公众号【Python开发实战】，免费领取Python学习电子书！工具-pandas * Dataframe对象 – 创建Dataframe 多级索引…

人工智能 2023年7月6日
0087
ResNet网络结构详解及代码复现

ResNet论文详解 1.1. Introduction 一般网络越深，特征就越丰富，模型效果也就越好。在深度重要的驱动下，出现了2个问题：梯度消失和梯度爆炸：梯度消失：误差梯…

人工智能 2023年7月14日
0084
入门opencv，欢笑快乐每一天

🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🥰 博客首页： knighthood2001😗 欢迎点赞👍评论🗨️❤️ 热爱python，期待与大家一同进步成长！！❤️👀 给大家推荐一款很火爆的刷题、面试…

人工智能 2023年7月5日
0074
目标检测中的损失函数

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月25日
0045
随机森林回归matlab代码_集成算法随机森林回归模型

所有的参数，属性与接口，全部和随机森林分类器一致。仅有的不同就是回归树与分类树的不同，不纯度的指标，参数 Criterion不一致。 <code>RandomFore…

人工智能 2023年6月18日
0090
手把手教你安装torch_geometric库（pyg）

正常步骤： 1.在安装前要检查电脑的上的torch和cuda版本 import torch; print(torch.version)检查torch版本； import torch…

人工智能 2023年7月21日
0063
一个大型车企的数据应用体系实践案例

近些年随着互联网和数字技术的飞速发展，车企正面临着日新月异的行业变革，在运营和管理中产生和接触大量数据，但对数据的使用和挖掘不足，数据资产未能参与到企业的业务转化中。在这样的背景…

人工智能 2023年7月17日
0054
扩散模型Diffusion Model与DDPM

diffusion model是2015年的一篇文章， https://arxiv.org/pdf/1503.03585.pdf 但是2020年的DDPM之后，才开始逐渐火起来的，…

人工智能 2023年7月30日
00117
数字图像处理之matlab实验（五）：形态学图像处理

常见的形态学处理包括腐蚀、膨胀、开运算、闭运算。不同的操作有不同的作用，同样的操作在不同类型的图片上也有不同效果，具体效果如下表格所示。要求熟练掌握对二值图像的形态学处理。不同操…

人工智能 2023年7月28日
0080
图像增强（空域滤波）——图像锐化

图像锐化 * – 图像锐化处理目的 – 方法 – + 微分运算 + 梯度锐化 + 边缘检测图像锐化处理目的对图像边缘锐化：突出图像中的细节，…

人工智能 2023年7月19日
0065
Hector slam算法原理解析与代码详解

写了markdown 上传，公式都乱码，无果，截图上传吧目录 1. hector 原理解析 1.4 多重分辨率地图 2.代码框架 2.1 回调函数 2.2 更新 3. 扫描匹配 …

人工智能 2023年6月11日
0065
理解Linemod匹配算法

理解Linemod匹配算法 Linemod算法是一种基于形状的模板匹配算法，相较于历史工作，该算法通过量化梯度角度方法，利用现代计算机SIMD技术，实现更为快速的匹配。可以认为Li…

人工智能 2023年6月18日
0076
为什么交叉熵常被用作分类问题的损失函数

前言在深度学习领域，交叉熵（Cross Entropy）常被用作分类问题的损失函数。为知其所以然，本文将详细讲解交叉熵，熵（Entropy）， KL散度（Kullback-L…

人工智能 2023年7月1日
0087
Yolov5更换backbone，与模型压缩（剪枝，量化，蒸馏）

~~~欢迎各位交流、star、fork、issues~~~ 项目介绍：本仓库是基于官方yolov5源码的基础上，进行的改进。目前支持更换yolov5的backbone主干网络为…

人工智能 2023年6月23日
0068
【Python】：SIFT算法的实现

✨博客主页：米开朗琪罗~🎈✨博主爱好：羽毛球🏸✨年轻人要：Living for the moment（活在当下）！💪🏆推荐专栏：【图像处理】【千锤百炼Python】【深度学习】【排…

人工智能 2023年6月18日
0081
【论文写作】使用overleaf撰写你的会议论文

@ 前言 overleaf详细使用处理share链接处理文件压缩包 overleaf常见功能一个Latex项目的构成 .tex文件的基本架构常用的tex命令 \usepac…

人工智能 2023年6月4日
00105

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习算法—-KNN K邻近 (K值的选择) (学习笔记)

文章目录

大家都在看