机器学习-knn(k近邻)算法原理及实现

2023年7月2日上午6:32 • 人工智能 • 阅读 67

前言

经典的knn了解一下。

1.算法思路

1.1算法基本思想

knn的基本思想:需要确定一个样本A的类别，可以计算出它与所有训练样本的距离，然后找出和该样本距离最小的k个样本，对这k个样本的类别进行统计，样本数最多的那个类别就是我们A的类别了。

1.2预测算法流程

knn没有需要求解的参数，没有训练过程，参数k由人工指定。对于分类问题，给定n个训练样本(xi,yi)，xi为特征向量，yi为标签值。设定合适的参数k，类别数为c，待分类的样本为x。算法的预测流程如下。
(1)在训练数据中找出离x最近的k个样本，假设这些样本的集合为N。
(2)统计集合N中每类样本的数量Ci,i=0,1,2…,c-1。
(3)最终分类结果为argmaxCi,即样本数最多的那个类别。
在实现的时候还可以考虑样本的权重，即每个样本带有不同的样本权重，比如说这个权重和每个类样本数在总样本数占比有关，这种方法成为带权重的k近邻算法。

1.3常用距离公式

(1)曼哈顿距离：

(2)欧式距离

(3)闵可夫斯基距离
可以看作是欧式的一种推广。

(4)夹角余弦
夹角余弦取值范围为[-1,1],可以用来衡量两个向量方向的差异。夹角余弦越大，表示两个向量的夹角越小。

(4)巴氏距离
定义两个离散型或连续型概率分布的相似性。对于离散型随机变量，它定义为:

其中，xi,yi为两个随机变量取某个值得概率，它们是向量x,y得分量。两个向量越相似，这个距离值越小。

; 简单的numpy实现

按照上面所陈述得思路，knn得简单numpy实现如下，笔者使用的是iris数据集。

'''
knn numpy简单实现
追天一方
'''
import numpy as np
from sklearn import datasets

class knn(object):
    '''
    实现k近邻算法
    '''
    def __init__(self,x,y):
        '''
        样本集数据和标签
        '''
        self.x=x
        self.y=y

    def pre(self,point_x,k):
        '''
        预测函数
        '''

        dim=self.x.shape[1]

        distance=None
        for i in range(dim):
            d=self.x[:,i]-point_x[:,i]
            if distance is None:
                distance=d*d
            else:
                distance=distance+d*d
        distance=np.sqrt(np.square(distance))
        max_distance=np.max(distance,axis=0)

        k_points=[]
        for i in range(k):
            point = np.argmin(distance, 0)
            k_points.append(point)

            distance[point]=max_distance
        assert len(k_points)==k,"len(k_points!=k"

        k_y=self.y[k_points]

        class_nums=np.max(k_y,0)+1

        y_num=np.zeros((class_nums,1))
        for i in range(k):
            y_num[k_y[i]]=y_num[k_y[i]]+1
        result=np.argmax(y_num,0)
        return result

if __name__ == '__main__':

    iris = datasets.load_iris()

    X = iris.data

    y = iris.target
    clf=knn(X,y)
    data=np.array([[5.8,3.1,5.0,1.7]])
    result=clf.pre(data,10)
    print(result)

代码注释很清晰，笔者就不详解了

sklearn实现

sklearn提供两种方法实现knn，第一种是类KNeighborsRegressor 基于每个查询点的 k 个最近邻实现，也就是类似上面的numpy实现。
类RadiusNeighborsRegressor 基于每个查询点的固定半径 r 内的邻点数量实现。它的近邻查找使用使KDTree 或 BallTree。
实现代码如下：

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier
import matplotlib

def make_meshgrid(x, y, h=.02):
    x_min, x_max = x.min() - 1, x.max() + 1
    y_min, y_max = y.min() - 1, y.max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
    np.arange(y_min, y_max, h))
    return xx, yy

def plot_test_results(ax, clf, xx, yy, **params):
    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    ax.contourf(xx, yy, Z, **params)

iris = datasets.load_iris()

X = iris.data[:, :2]

y = iris.target

knn = KNeighborsClassifier()
knn.fit(X,y)

title = ('KNNClassifier')

fig, ax = plt.subplots(figsize = (5, 5))
plt.subplots_adjust(wspace=0.4, hspace=0.4)

X0, X1 = X[:, 0], X[:, 1]

xx, yy = make_meshgrid(X0, X1)

plot_test_results(ax, knn, xx, yy, cmap=plt.cm.coolwarm, alpha=0.8)

ax.scatter(X0, X1, c=y, cmap=plt.cm.coolwarm, s=20, edgecolors='k')
ax.set_xlim(xx.min(), xx.max())
ax.set_ylim(yy.min(), yy.max())
ax.set_xlabel('x1')
ax.set_ylabel('x2')
ax.set_xticks(())
ax.set_yticks(())
ax.set_title(title)
plt.show()

运行结果如下：

Original: https://blog.csdn.net/qq_52095705/article/details/121620562
Author: 追天一方
Title: 机器学习-knn(k近邻)算法原理及实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/664890/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

SSD-mobilenetv1训练过程（1）

本次训练用了SSD模型，代码为GitHub上lufficc那一版，backbone为mobilenetv1，自己试着修改的，很艰难。完了之后感觉对网络模型的理解又深了一层。在此简要…

人工智能 2023年7月9日
0096
DHCP协议从入门到部署DHCP服务器进行实验

目录 1、DHCP基本概念 2、DHCP的优点 3、DHCP的工作原理 4、通过抓包验证原理 5、在windows server上部署DHCP服务器 6、实验搭建实验环境配置R…

人工智能 2023年6月26日
0076
pickle.dump()和pickle.load()进行文件操作

序列化：把对象转换为字节序列的过程称为对象的序列化。可以将对象信息永久存储反序列化：把字节序列恢复为对象的过程称为对象的反序列化。 *创建上一次程序保存的对象序列化： pi…

人工智能 2023年5月23日
0067
selenium操作已经打开的浏览器

selenium 操作已经打开的浏览器有时通过selenium打开网站时，发现有些网站需要扫码登录，就很头疼，导致爬虫进展不下去。例如打开该网站：https://xh.newra…

人工智能 2023年7月5日
00152
知识图谱-基于张量分解的路径推理补全

路径张量分解的知识图谱推理算法*（2017）前言 2.1背景和目的 * 2.2.1构建 2.2 算法描述 2.3实验 * 2.3.1 路径问题回答 2.3.2 实体链接预测前言…

人工智能 2023年6月10日
0078
YOLOv5Face YOLO5Face人脸检测论文及代码简析

YOLO5face人脸检测模型论文和代码简析 YOLO5Face模型分析 * 论文及源码下载论文创新点实验结果下载代码跑起来调整数据集训练完成之后检验结果一点点代码简析…

人工智能 2023年7月27日
0091
nlp数据增强+SimBERTv2 +谷歌翻译回译

谷歌回译  #!pip install googletrans==4.0.0-rc1 -i https://pypi.tuna.tsinghua.edu.cn/s…

人工智能 2023年5月31日
0077
基于深度学习的指针式仪表图像智能读数方法

针对传统图像处理的仪表识别方法鲁棒性较差，难以满足复杂环境下的指针式仪表图像读数，而深度学习的方法通过样本的训练能够适应更多的复杂场景，越来越多的仪表读数解决方案更偏向于使用深度学…

人工智能 2023年5月26日
0083
刷题记录:牛客NC50959To the Max

传送门:牛客题目描述: Given a two-dimensional array of positive and negative integers, a sub-rectan…

人工智能 2023年6月28日
0074
人工智能-10种机器学习常见算法

机器学习是目前行业的一个创新且重要的领域。今天，给大家介绍机器学习中的10种常见的算法，希望可以帮助大家适应机器学习的世界。 1、线性回归线性回归(Linear Regressi…

人工智能 2023年6月15日
0063
大作业——嵌入式系统

flash wav格式音频数据 wav音频选用的是window开机的经典音乐，通过python代码得到wav格式音频的数据块，采用16进格式保存 import sys if __n…

人工智能 2023年5月23日
0096
Python 大数据的进行信用卡欺诈检测（附源码与注释）

本案例可用于帮助大家对前面知识的掌握，同样也可以用于毕业设计等用途，我写文的初衷只是帮助大家对知识的掌握。一、背景和目的该数据集包含使用信用卡进行的金融交易的数据。这些数据是指…

人工智能 2023年7月16日
0061
数据仓库–基本概念和数据定义规范

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月18日
0046
一元线性回归模型（保姆级）

提示：本文是基于最小二乘法对数据进行拟合。目录一、模型建立的流程二、模型原理 1.模型 2、参数编辑和编辑的估计三、回归方程的显著性检验 1、t检验 2、F检验 3、…

人工智能 2023年6月18日
0085
Ubuntu22.04 在线安装 MySQL8

使用APT安装MySQL sudo apt-get -y install mysql-server 确保记住您设置的根密码。以后想设置密码的用户可以在对话框中将密码字段留空，然后按…

人工智能 2023年6月28日
00131
路人队——钟某人的matlab学习day9——如何让图像变得更优雅

子图子图是什么，在matlab中指代在一个图里面再加一个图，或者多个。制作子图的命令是用subplot(m,n,p)，其中的m和n指代这个子图的m行和n列，n也可以指代有几个窗口…

人工智能 2023年6月22日
0075

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习-knn(k近邻)算法原理及实现

1.1算法基本思想

1.2预测算法流程

1.3常用距离公式

大家都在看