k近邻法–python代码实现与kd树构建搜索

2023年7月1日下午3:37 • 人工智能 • 阅读 53

k近邻法属于监督学习，不需要训练模型（懒惰学习）。算法流程：对于测试样本，按照某种距离度量（闵可夫斯基距离、欧氏距离、曼哈顿距离、切比雪夫距离等）从给定的训练集中找出与其相近邻的k个训练样本，根据这k个训练样本信息进行预测。对于分类任务，可按照投票法，以k个训练样本中出现最多的类别作为预测结果；对于回归任务，可按照平均法，取k个训练样本实际输出的平均值作为预测结果，也可以加权平均，对于距离测试样本进的训练样本取较大的权重。

对鸢尾花数据集进行分类，将数据集分为训练集和测试集

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np
from collections import Counter
iris_data = load_iris()
data = pd.DataFrame(iris_data.data,columns=iris_data.feature_names)
data['target'] = iris_data.target
X,y = data.iloc[:,:-1].values,data.iloc[:,-1].values
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3,stratify=y)
data.head()

sepal length (cm)sepal width (cm)petal length (cm)petal width (cm)target05.13.51.40.2014.93.01.40.2024.73.21.30.2034.63.11.50.2045.03.61.40.20

构建模型

class knn:
    def __init__(self,X_train,y_train,neighbors,ord):
        self.X = X_train
        self.y = y_train
        self.k = neighbors
        self.ord = ord
    def predict(self,x):
        knn_list = []
        for i in range(self.k):
            dist = np.linalg.norm(x-self.X[i],ord=self.ord)
            knn_list.append((dist,self.y[i]))

        for i in range(self.k,len(self.X)):
            dist = np.linalg.norm(x-self.X[i],ord=self.ord)
            max_index = knn_list.index(max(knn_list,key=lambda x:x[0]))
            if dist<knn_list[max_index][0]:
                knn_list[max_index] = (dist,self.y[i])

        knn_y = [k[-1] for k in knn_list]

        counter_y = Counter(knn_y)
        max_y = sorted(counter_y.items(),key=lambda x:x[1])[-1][0]
        return max_y

    def score(self,X_test,y_test):
        count = 0
        for x,y in zip(X_test,y_test):
            if y==self.predict(x):
                count += 1
        return count/len(X_test)
knn_model = knn(X_train,y_train,15,2)
test_accuracy = knn_model.score(X_test,y_test)
print('测试集准确率为;',test_accuracy)

&#x6D4B;&#x8BD5;&#x96C6;&#x51C6;&#x786E;&#x7387;&#x4E3A;; 0.9777777777777777

sklearn实现

from sklearn.neighbors import KNeighborsClassifier
knn_model = KNeighborsClassifier(n_neighbors=10)
knn_model.fit(X_train,y_train)
score = knn_model.score(X_test,y_test)
print(score)

0.977777777778

kd树是二叉树，表示对k维空间的划分，用来对k维的实例点进行存储并进行快速检索，其结构非常适合寻找最近邻居和碰撞检测。
构建过程：
首先，构建根节点。按照实例点的某一维度进行划分，一般选取方差值最大的维度进行划分；将实例点按照该维度的值进行排序，取中值对应的实例点作为根节点，将值小于中值的实例点放在树的左边，生成左子节点，大于中值的实例点放在树的右边，生成右子节点；然后对左子节点和右子节点继续进行维度划分；重复上述过程，直到不能划分为止，生成叶子节点。
搜索过程：
首先，在kd树中找到包含目标点x的叶子节点，从根节点出发，递归访问kd树，若x小于当前节点划分维度的值，则移动到左子节点，否则反之；以寻找到的叶节点作为当前最近点，向上依次访问当前最近点的父节点并更新最近点，若父节点在划分维度与目标点x的值小于当前最近距离，还需要访问此父节点的另一子节点；直到访问到根节点结束。
若训练集为[[7,2],[4,7],[5,4],[2,3],[8,1],[9,6]]，寻找目标点[3,4.5]的最近训练样本。

from collections import namedtuple
import numpy as np
from time import process_time

class KdNode(object):
    def __init__(self,dom_elt,split,left,right):
        self.dom_elt = dom_elt
        self.split = split
        self.left = left
        self.right = right

class KdTree(object):
    def __init__(self,data):
        self.k = len(data[0])
        self.root = self.createNode(data,0)

    def createNode(self,data,split):
        if not data:
            return None
        splitPos = len(data)>>2
        dataSort = sorted(data,key=lambda x:x[split])
        medianNode = dataSort[splitPos]
        splitNext = (split+1) % self.k
        return KdNode(medianNode,split,self.createNode(dataSort[:splitPos],splitNext),self.createNode(dataSort[splitPos+1:],splitNext))

    def search_nearest(self,point):
        self.result = namedtuple('nearestInf','point distance')
        self.nearestPoint = None
        self.nearestDis = 0
        def travel(node,depth):
            if node != None:
                axis = node.split
                if point[axis]<node.dom_elt[axis]:
                    travel(node.left,depth+1)
                else:
                    travel(node.right,depth+1)
                distance = np.sqrt(np.sum((np.array(point) - np.array(node.dom_elt))**2))
                if self.nearestPoint == None:
                    self.nearestPoint = node.dom_elt
                    self.nearestDis = distance
                elif self.nearestDis > distance:
                    self.nearestPoint = node.dom_elt
                    self.nearestDis = distance
                if abs(point[axis]-node.dom_elt[axis]) < self.nearestDis:
                    if point[axis] < node.dom_elt[axis]:
                        travel(node.right, depth + 1)
                    else:
                        travel(node.left, depth + 1)
        travel(self.root,0)
        return self.result(self.nearestPoint,self.nearestDis)

data = [[7,2],[4,7],[5,4],[2,3],[8,1],[9,6]]
tree1 = KdTree(data)
result = tree1.search_nearest([3,4.5])
print(result)

nearestInf(point=[2, 3], distance=1.8027756377319946)
0.0

结果为点（2，3），距离为1.803

Original: https://blog.csdn.net/qq_45420034/article/details/123022346
Author: Let it go !
Title: k近邻法–python代码实现与kd树构建搜索

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/663589/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

1元左右从零开始搭建自己的chatgpt微信机器人（含chaptgpt注册流程）

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0075
DQN算法的原理与复现

基本思路先来解释下Q-learning简单来说就是瞬时奖励+记忆经验奖励。瞬时奖励：做了一个动作就能获得的奖励经验奖励：按照训练时的经验，上一系列动作发生之后，接下来怎么做才…

人工智能 2023年6月16日
0086
图床是什么？如何使用图床？

图床其实是互联网中存储图片的空间，举个栗子：假设你在微博分享一张图片，你的粉丝可以通过互联网看到你分享的图片，那么他是去访问你的手机的相册吗？其实不是的，你分享图片，也就是把图片…

人工智能 2023年6月4日
0078
模式识别PCA方法实现人脸识别-Python

理解PCA的基本思路，掌握基本的使用PCA进行人脸分类的方法。 1、了解基本的PCA原理； 2、掌握基本的读取数据的方法，能基本上完成pgm文件的读取； 3、能够利用PCA进行数据…

人工智能 2023年6月24日
0077
猿创征文｜时间序列分析算法之二次指数平滑法和三次指数平滑法详解+Python代码实现

二次指数平滑法(Holt’s linear trend method) 1.定义 2.公式二次指数平滑值： Original: https://blog.csdn.n…

人工智能 2023年7月28日
0055
深度学习系列45：图像恢复综述

从本期开始，会探索图像恢复领域的论文和代码。本次先阅读一下综述。传统方法一个很大的假设是我们相信我们可以在缺失区域之外找到相似的patch，但是如果缺失区域之外没有任何类似的pat…

人工智能 2023年6月17日
0071
Linux系统中查看当前文件夹下文件的个数

在linux系统中，可以使用 ls 命令查看有多少个文件，该命令用于显示指定目录下的内容，当参数设置为 “wc -c” 时，可显示目录下的文件个数，语法为 …

人工智能 2023年6月30日
00120
C++智能指针

文章目录一、智能指针的目的和基本原理二、不带引用计数的智能指针 * – 2.1 auto_ptr 2.2 scoped_ptr 2.3 unique_ptr 三、带…

人工智能 2023年6月30日
00107
KeyBLD Selecting Key Blocks with Local Pre-ranking for Long Document Information Retrieval

KeyBLD: Selecting Key Blocks with Local Pre-ranking for Long Document Information Retrieva…

人工智能 2023年5月31日
0081
【Pandas 笔试测试题】

今天是上海疫情封控的第58天，看到好多沪漂离开上海，心中阵阵发酸，始终相信一句话，冬天到了，春天还会远吗？终有胜利的一天，再坚持坚持。话不多说，上正题，今天分享一套面试试题，原试…

人工智能 2023年7月15日
00127
MongoDB实验——数据库基本操作（头歌）

命令行第2关：创建集合命令行输入： mongouse Testdb2db. t_stu.insert([{_id:1,name:”小明”,sex: &#…

人工智能 2023年7月30日
0069
【OpenCV 例程300篇】09. 图像的裁剪（cv2.selectROI）

专栏地址：『youcans 的 OpenCV 例程 300 篇』【OpenCV 例程300篇】09. 图像的裁剪（cv2.selectROI）用 Numpy 的切片方法可以进行…

人工智能 2023年5月26日
0073
TensorFlow2 实现神经风格迁移，DIY数字油画定制照片

TensorFlow2 实现神经风格迁移，DIY数字油画定制照片 * – 前言 – 神经风格迁移 – 使用VGG提取特征 – + 图…

人工智能 2023年5月23日
0051
BERT 命名实体识别 (pytorch实现)

BERT命名实体识别代码链接： GitHub – kamalkraj/BERT-NER: Pytorch-Named-Entity-Recognition-with-B…

人工智能 2023年5月30日
0080
pytorch的训练测试流程总结，以及model.evel()， model.train()，torch.no_grad()作用

pytorch的 model.eval()和model.train()作用 pytorch中model.train()和model.eval()的区别主要在于Batch Norma…

人工智能 2023年7月22日
0078
深度学习计算机视觉学习路线

文章目录前言一、机器学习及OpenCV学习路线二、深度学习学习路线总结前言对于深度学习的学习从模模糊糊的入坑，恍惚间已过半年，从开始对人工智能的新奇，到现在已经完全磨灭…

人工智能 2023年5月28日
0071

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

k近邻法–python代码实现与kd树构建搜索

大家都在看