机器学习学习笔记之一：K最近邻算法（KNN）

2023年6月14日上午5:25 • Linux • 阅读 69

假定数据有M个特征，则这些数据相当于在M维空间内的点

[X = \begin{pmatrix} x_{11} & x_{12} & … & x_{1M} \ x_{21} & x_{22} & … & x_{2M} \ . & . & & .\ . & . & & .\ . & . & & .\ x_{N1} & x_{N2} & … & x_{NM} \end{pmatrix}]

同时我们有标注集向量

[\vec{y} = \begin{pmatrix} y_1 \ y_2 \ . \ . \ . \ y_M \end{pmatrix}]

那么对于一个新的数据点

[\vec{x_z} = \begin{pmatrix} x_{z1} & x_{z2} & … & x_{zM} \end{pmatrix}]

我们通过计算其与其他所有点的欧氏距离

[D_j=\sqrt{(x_{z1}-x_{j1})^2+(x_{z2}-x_{j2})^2+…+(x_{zM}-x_{jM})^2} ]

得到与所有点的距离向量（并按从小到大排序）

[\vec{D} = \begin{pmatrix} D_1 \ D_2 \ . \ . \ . \ D_M \end{pmatrix}]

取前k个点即为最近邻的k个点。

[\vec{D_k} = \begin{pmatrix} D_1 \ D_2 \ . \ . \ . \ D_k \end{pmatrix}]

根据这k个点所对应的标注，统计这些标注出现的次数(n_k)

[\vec{y’}=\begin{pmatrix} y_1 & n_1 \ y_2 & n_2 \ . & .\ . & .\ . & .\ y_k & n_k \end{pmatrix}]

取数量最大的标注作为(\vec{x_z})的标注。

[y_z = \max_n{\vec{y’}} ]

算法实现（Python）

from numpy import *

def KNNclassify(inX, dataset, labels, k):
"""
    K-Nearest Neighbour algorithm
    :param inX: Input vector X
    :param dataset: Training Dataset
    :param labels: Labels vector
    :param k: the number of nearest neighbours
    :return: The class of input
"""
    dataset_size = dataset.shape[0]
    diffMat = tile(inX, (dataset_size, 1)) - dataset  # Use inX to fill a matrix of dataset_size
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)  # Sum according to rows of matrix
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort()  # Get the index of all distances
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

算法优点

算法缺点

Original: https://www.cnblogs.com/ryuasuka/p/7368078.html
Author: 飞鸟_Asuka
Title: 机器学习学习笔记之一：K最近邻算法（KNN）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/610472/

转载文章受原作者版权保护。转载请注明原作者出处！

Linux

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Shell alias命令详解：给命令设置别名

给命令设置别名，你可以把它当作命令的”小名”，但是这样做有什么意义呢？比如笔者刚接触 Linux 时，使用的编辑器是 Vi，但是现在 Vim 的功能明显比…

Linux 2023年5月28日
0057
关于最近公司一个业务系统的性能优化方案

一个刚上线的IT系统，往往负载压力不大，所以不会存在什么性能问题。这时，人们大多只关心系统的功能性和用户体验。但是，随着时间推移，用户量和数据量都比刚上线的时候要多很多，高并发和大…

Linux 2023年6月6日
0085
访问权限控制

一.编译单元 1-1 概念一个Java源代码文件通常被称为一个编译单元，每个编译单元的后缀需是.java，并且每个编译单元中最多只能有1个public类（当然，可以为0个）。 1…

Linux 2023年6月8日
0099
WEB自动化-09-Cypress 测试报告

9 测试报告一份好的测试报告，可以很直观的看出整个测试过程的各种数据。而Cypress的测试报告是基于Mocha，因此任何支持Mocha的测试报告都可以应用于Cypress。但…

Linux 2023年6月7日
00107
WEB自动化-08-Cypress 接口测试

8 接口测试在服务和服务、系统和系统之间进行通信时，常常会使用到接口。通过接口测试，可以在项目早期更快发现问题。接口有很多类型，而现阶段使用的接口是基于HTTP协议的接口。 8….

Linux 2023年6月7日
00110
双绞线

双绞线简介双绞线（twisted pair，TP）是一种综合布线工程中最常用的传输介质，双绞线一般由两根22～26号绝缘铜导线相互缠绕而成，在一个电缆套管里的，不同线对具有不同的…

Linux 2023年6月7日
0073
jenkins pipeline中获取shell命令的输出

//获取标准输出//第一种result = sh returnStdout: true ,script: ” Original: https://www.cnblogs…

Linux 2023年5月28日
0084
记录一次docker镜像拉取失败的问题

syslog日志 Mar 13 08:42:41 xxx dockerd[30691]: time=”2022-03-13T08:42:41.928436506Z&#8…

Linux 2023年6月14日
00144
无法获取指向控制台的文件描述符 (couldn’t get a file descriptor referring to the console)

背景最近收拾东西，从一堆杂物里翻出来尘封四年多的树莓派 3B 主机来，打扫打扫灰尘，接上电源，居然还能通过之前设置好的 VNC 连上。欣慰之余，开始 clone 我的 git 项…

Linux 2023年5月27日
00139
GCC 内联汇编基础

GCC 内联汇编在 MIT6.828的实验中，有几处用到了很底层的函数，都以内联汇编的形式存在，例如 static inline uint32_t read_esp(void) …

Linux 2023年6月8日
0080
截止2021年底，我国18个税种中已有12个税种完成立法

截止2021年底，我国18个税种中已有12个税种完成立法： 1.中华人民共和国个人所得税法 (自1980年9月10日起施行)2.中华人民共和国企业所得税法 (自2008年1月1日起…

Linux 2023年6月14日
00394
启动mysql报错ERROR 2002 (HY000): Can’t connect to local MySQL server through socket ‘/var/lib/mysql/mysql.sock’ (111)

mysql之前还好好的，突然就启动不了了，我也很纳闷，原来是服务没有启动 netstat -ntlp 后，发现并没有启动于是我试着启动mysql service mysqld s…

Linux 2023年6月7日
0082
如何写好倒计时

引言本文讲解倒计时为什么建议使用 setTimeout而不使用 setInterval，倒计时为什么存在误差，以及如何解决。倒计时器在前端开发中，倒计时器功能比较常见，比如活…

Linux 2023年6月7日
00322
WEB自动化-07-Cypress Test Runner

7 Test Runner 7.1 概述 Test Runner是Cypress非常重要一个组件，其主要作用为运行测试、更改配置、将运行的测试结果写入控制台等等。打开Cypres…

Linux 2023年6月7日
0080
docker 安装mysql5.7

docker 安装mysql5.7 前言 MySQL 是目前最流行的关系型数据库管理系统，开发者是瑞典MySQL AB公司。目前MySQL被广泛地应用在Internet上的中小型网…

Linux 2023年6月6日
0090
angular报错:Cannot assign to a reference or variable

错误代码: <input #manufacturerId="ngModel" id="manufacturerId" name=&qu…

Linux 2023年6月7日
0093

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

机器学习学习笔记之一：K最近邻算法（KNN）

算法实现（Python）

算法优点

算法缺点

大家都在看