k-NN分类算法详解与分析(k近邻分类算法)

2023年7月2日下午11:33 • 人工智能 • 阅读 92

文章目录

*
–
+ k近邻分类算法
+
* K = 1时的预测情况
* k = 3 时的预测情况
* k = 5 时的预测情况
+ 实战—-鸢尾花分类(不同k值对预测值的影响)
+ 总结

k近邻分类算法

k近邻分类算法，即k-NN算法，可以说是最简单的机器学习算法。

核心思想就是，通过测量预测的数据点与已训练数据点之间距离，寻找距离 最近的已训练数据点(最近的训练数据点个数由算法使用者自己指定，适中即可)的标签结果，即为测试数据点的预测结果。

K = 1时的预测情况

可见下图：

import mglearn

mglearn.plots.plot_knn_classification(n_neighbors=1)

其中三个预测点(五角星标识test pred)，分别找到了与它们最近的一个已训练数据点，并根据近邻训练点的结果，得到预测结果。

k = 3 时的预测情况

在考虑多余一个邻居的情况下，使用投票法(voting)来指定标签，即出现次数更多的类别作为预测结果。
可见下图:

import mglearn

mglearn.plots.plot_knn_classification(n_neighbors=3)

同上图，预测结果也可以从五角星的颜色中得出，可得，当邻居个数不同时，预测结果也会不同。

k = 5 时的预测情况

可见下图:

import mglearn

mglearn.plots.plot_knn_classification(n_neighbors=5)

可见，预测需要考虑的情况越来越复杂。
那么是否是选定邻居越多时预测越准确呢？

答案是否定的，我们可以使用鸢尾花分类这个案例对 k-NN 算法进行分析。

实战—-鸢尾花分类(不同k值对预测值的影响)

from IPython.display import display
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
import matplotlib.pyplot as plt
import numpy as np

iris_dataset = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris_dataset['data'], iris_dataset['target'], random_state=0)

print('X_train shape: {}'.format(X_train.shape))
print('y_train shape: {}'.format(y_train.shape))

print('X_test shape: {}'.format(X_test.shape))
print('y_test shape: {}'.format(y_test.shape))

print('--------------------------------------')

train_pres = []
test_pres = []

for i in range(1, 39):

    knn = KNeighborsClassifier(n_neighbors=i)

    knn.fit(X_train, y_train)

    train_pre = knn.score(X_train, y_train)
    test_pre = knn.score(X_test, y_test)

    train_pres.append(train_pre)
    test_pres.append(test_pre)

train_pre_points = np.array(train_pres)
test_pre_points = np.array(test_pres)

plt.plot(train_pre_points, '.-r')
plt.plot(test_pre_points, '.-g')

`
X_train shape: (112, 4)
y_train shape: (112,)
X_test shape: (38, 4)
y_test shape: (38,)

Original: https://blog.csdn.net/weixin_43479947/article/details/126687136
Author: Gaolw1102
Title: k-NN分类算法详解与分析(k近邻分类算法)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/666429/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【计算机视觉】MOPS特征描述的邻域点为啥是偶数行/列的矩阵？

MOPS特征描述什么是MOPS 为啥它关心的关键点邻域范围是偶数行？ * 关键点的原始位置和待提取的特征仿射变换基于opencv-python具体实现什么是MOPS MOP…

人工智能 2023年6月22日
00176
Hybrid Curriculum Learning for Emotion Recognition in Conversation 论文阅读 2022 AAAI

Hybrid Curriculum Learning for Emotion Recognition in Conversation 论文发表于2022 AAAI，阿里巴巴团队，旨…

人工智能 2023年5月28日
0077
[附源码]Nodejs计算机毕业设计基于的仓库管理系统Express(程序+LW)

该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置： Node.js+ Vscode + Mysql5.7 + HBuilderX+Nav…

人工智能 2023年7月31日
0045
八种点云聚类方法（一）— DBSCAN

本文为博主原创文章，未经博主允许不得转载。本文为专栏《python三维点云从基础到深度学习》系列文章，地址为”https://blog.csdn.net/suiying…

人工智能 2023年5月31日
00106
HMM与CRF的总结（仅供参考，建议大家看李宏毅老师的视频）

这两天我一直在寻找HMM和CRF之间的区别。为了防止在采访间隙出现这样的问题，我准备了几个自问来总结这两天的收获。 [En] In order to prevent this k…

人工智能 2023年5月25日
0097
吴恩达机器学习课后作业

目录 01-linear regression * 线性回归预备知识单变量线性回归（一个特征值）单变量线性回归（多个特征值）单变量线性回归（正规方程） 01-linea…

人工智能 2023年6月23日
0097
语音识别插件_语音识别技术，将语音转换为文本

现在越来越多的同学不想打字，而选择用语音来取代文字的输入，现在也已经有很多的语音识别技术了，逐渐成熟强大，完全可以应用在日常的生活中。很多的技术公司也努力把这种语音识别技术应用在…

人工智能 2023年5月25日
0076
简述Pytorch多卡训练原理与实现

一、多卡训练原理 1.为什么要多卡训练：简单来说，有两种原因：第一种是模型在一块GPU上放不下，两块或多块GPU上就能运行完整的模型（如早期的AlexNet）。第二种是多块GPU…

人工智能 2023年6月16日
0078
【阅读笔记】联邦学习实战——用Python从零实现横向联邦图像分类

联邦学习实战——用Python从零实现横向联邦图像分类前言 1. 代码分析 * 1.1 配置信息 1.2 训练数据集 1.3 服务端 1.4 客户端 1.5 整合 2. 模型效果…

人工智能 2023年7月1日
0093
K210学习笔记（一）——什么是K210？

K210学习笔记（一）——什么是K210？一、K210是什么？二、为什么选择K210 K210功耗仅为0.3w，典型设备工耗为1W，算力为1TOPS（比树莓派、Jetson N…

人工智能 2023年6月23日
0087
现代企业管理笔记——企业概论

如果有兴趣了解更多相关内容，欢迎来我的个人网站看看：瞳孔空间一：现代企业类型及企业系统现代企业的特征：企业是以市场为导向、以营利为主要目的，专门从事商品生产和经营活动的经济组…

人工智能 2023年6月27日
0091
超分之EDSR

这篇文章是SRResnet的升级版——EDSR，其对网络结构进行了优化(去除了BN层)，省下来的空间可以用于提升模型的size来增强表现力。此外，作者提出了一种基于EDSR且适用于…

人工智能 2023年5月26日
00130
图像处理基础知识——图片存储形式、色域、图片文件格式

图像处理基础知识——图片存储形式、色域、图片文件格式 1.图片存储形式对于任意一幕我们人眼看到的图像，在用相机镜头拍摄下来后，他就不再是我们人眼见到的图像了，而是在计算机内部的处…

人工智能 2023年6月21日
0098
时间序列数据的预处理

时间序列数据随处可见，要进行时间序列分析，我们必须先对数据进行预处理。时间序列预处理技术对数据建模的准确性有重大影响。在本文中，我们将主要讨论以下几点：时间序列数据的定义及其…

人工智能 2023年6月19日
0082
使用tensorflow出现的错误及其解决方法（numpy、opencv_contrib）

1 tensorflow调用numpy库提示错误ImportError: numpy.core.multiarray failed to import2 打开anaconda pr…

人工智能 2023年5月24日
00109
PaddleNLP–UIE（二）–小样本快速提升性能（含doccona标注）

NLP专栏简介：数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等专栏详细介绍：NLP专栏简介：数据增强、智能标注…

人工智能 2023年6月25日
00139

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31