KD树实现鸢尾花分类（Numpy实现）

2023年8月25日上午7:45 • Python • 阅读 55

最近也是刚接触KD树，刚开始也是一头雾水，自己也是搜了很多资料，通过自己的理解以及老师的讲解，对KD树有了更深的理解，然后就写个博客来记录一下，也好能帮助其他人去了解KD树。

关于KD树的原理网上有很多，我就不再讲述原理了，需要的数据集我会放在文章末尾，本文我主要用用Numpy去实现，没有涉及sklearn。

首先，导入所需要的库

import pandas as pd
import numpy as np
from collections import Counter

from collections import Counter是用来统计各个标签出现的次数的，因为我取得是前k个最近距离，也可省去不要。

读取鸢尾花数据，建立测试标签（x为所有鸢尾花特征值，y为标签，simple为测试数据）

x = np.array(pd.read_csv('iris.csv', usecols=(0, 1, 2, 3), delimiter=',', header=0))  # 读取特征集合
y = np.array(pd.read_csv('iris.csv')['species'])  # 读取标签集

simple = np.array([3.5,2.4,0.3,2.5])

创建一个KD数节点的类，__str__函数用于输出KD树

class KDtreeNode:
    def __init__(self, val, label, dim, left=None, right=None):
        self.val = val  # 特征集
        self.dim = dim  # 维度
        self.label = label  # 标签
        self.left = left  # 左子树
        self.right = right  # 右子树

    def __str__(self):
        return f'特征是：{self.val}, 标签是：{self.label},划分维度:{self.dim}'

接下来要创建一颗KD树，代码中我注释的比较全面，也就不再解释了，看我的注释就行

def CreateKDtree(x, y, dim):
    if x.size == 0:
        return None
    else:
        nidx = np.argsort(x, axis=0)[:, dim]  # 按照dim这个维度排序
        center_num = x.shape[0] // 2  # 中位数的序号

        cut_idx = nidx[center_num]  # 根节点的索引号
        left_idx = nidx[:center_num]  # 左子树的索引号
        right_idx = nidx[center_num + 1:]  # 右子树的索引号

        node_tree = KDtreeNode(x[cut_idx], y[cut_idx], dim)  # KD树的根节点
        dim = (dim + 1) % x.shape[1]  # 更新维度dim值
        node_tree.left = CreateKDtree(x[left_idx], y[left_idx], dim)  # 递归左子树
        node_tree.right = CreateKDtree(x[right_idx], y[right_idx], dim)  # 递归右子树
        return node_tree  # 得到KD树

对KD树进行搜索，得到预测结果

def search_KDtree(simple, k):
    # 初始化距离,最近点为None,最近距离为无穷大
    nearest_knn = np.array([[None, float('inf')] for _ in range(k)])
    # 创建一个列表,用于存放从根节点到一个叶子结点的所有节点,找距离最近的点
    node_list = []
    # 得到KD树,node_tree是一颗KD树
    node_tree = CreateKDtree(x, y, 0)
    while node_tree:
        # 将所有可能的节点加入到列表中,加入的位置为列表的第一个元素
        node_list.insert(0, node_tree)
        dim = node_tree.dim
        if simple[dim] < node_tree.val[dim]:
            node_tree = node_tree.left
        else:
            node_tree = node_tree.right
    #从叶子结点开始,回溯
    for node in node_list:
        #计算欧几里得距离
        distance = np.linalg.norm(node.val - simple, ord=2)
        #np.where返回一个二维数组,及满足要求的位置坐标.less_index为距离小于inf的行的索引
        less_index = np.where(distance < nearest_knn[:,1])[0]
        #print(nearest_knn)
        if less_index.size > 0:
            #对nearest_knn进行更新
            nearest_knn = np.insert(nearest_knn, less_index[0], [node, distance], axis=0)[:k]  #只取前k个距离最短的
        radius = nearest_knn[:,1][k-1]                #radius为k个距离中最远的那个,欧几里得距离
        dis = simple[node.dim] - node.val[node.dim]   #所求点到超平面的距离
        if radius > abs(dis):                              #如果欧几里得距离大于到超平面的距离
            if dis > 0:                               #如果simple[node.dim] > node.val[node.dim],加入左子树
                append_node = node.left
            else:
                append_node = node.right              #否则,加入左右树
            if append_node is not None:
                node_list.append(append_node)
    return([lab[0].label for lab in nearest_knn if lab[0] is not None])

依据KD搜索的原理，我们要从根节点出发，一直找下去，直到叶子节点，将这些节点存放在列表中，这些节点都可能是距离最短的，KD树搜索时，考虑的因素有很多，当欧几里得距离大于到超平面的距离时，同根节点的另外一颗树也可能存在最近距离，所以当条件满足时，还要将另外一棵树的节点添加到列表中

下面是主函数

lb = search_KDtree(simple, 3)
print('预测结果为:'+Counter(lb).most_common(1)[0][0])

直接调用搜索KD树函数就行，我只测试了一个样例，所以比较简单

下边是数据集下载地址，按照上边代码的顺序，直接粘贴过去是可以直接用的啊

提取码为5912，希望能帮到各位

Original: https://blog.csdn.net/qq_51606646/article/details/124060391
Author: (ฅ]ω[ฅ)
Title: KD树实现鸢尾花分类（Numpy实现）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/759152/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

爬虫系列：爬虫验证码识别

虽然大多数人对单词”CAPTCHA”都很熟悉，但是很少人知道它的具体含义：全自动区分计算机和人类的图灵测试（Completely Automated Pub…

Python 2023年11月3日
0029
Python爬虫全网搜索并下载音乐

Original: https://www.cnblogs.com/pythonQqun200160592/p/15528441.htmlAuthor: python可乐编程Tit…

Python 2023年5月25日
0069
Series对象（生成，访问和使用）

Series对象的生成使用Pandas.Series pandas.Series( data, index, dtype, copy)data:数据,可以是序列类型，可以是int…

Python 2023年8月21日
0070
Java中将 int[] 数组转换为 List（ArrayList）

说起数组转换成 ArrayList，很多同学第一反应就是遍历数组，将元素逐个添加到 ArrayList 中，但是这个看着就lower，一般不会这么答。所以马上就会想到Arrays工…

Python 2023年10月13日
0032
【无标题】

提示：这里可以&#…

Python 2023年8月17日
0040
Python可视化——matplotlib.pyplot绘图的基本参数详解

plt.legend(loc="lower left") # 设置图例位置 2.13 table()：向子图中添加表格 plt.table(cellText=N…

Python 2023年8月1日
0066
爬虫回响521_现在用scrapy爬一个网站始终遇到521错误，是怎么回事呢？

朋友我最近也在爬这个网站，给你点意见你可以看看吧。愿意交流下的话加下我的好友吧。 cnvd正常的情况都可以爬的到。 www.cnvd.org.cn这个东西就比较恶心了，很多的头都反…

Python 2023年10月4日
0038
Vue2之webpack篇（一）

目录前言 1、什么是webpack？ 2、传统开发模式一、传统开发模式 1、场景 2、问题 3、原因 4、解决方案二、ES6模块化 1、ES6的解决方案 3、拓展 4、取别名…

Python 2023年10月27日
0017
【小程序】如何开发属于自己的一款小程序

文章目录小程序简介 * 概念小程序与普通网页开发的区别微信开发者工具小程序代码构成 * 项目结构 JSON 配置文件 WXML 模板 WXSS 样式 JS 逻辑交互小程序…

Python 2023年11月4日
0045
[附源码]计算机毕业设计的手机电商网站Springboot程序

项目运行环境配置： Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX （Webstorm也行）+ Eclispe（IntelliJ IDEA,Ecli…

Python 2023年8月9日
0044
Python小恐龙快跑小游戏源代码及素材

该游戏是仿谷歌浏览器小恐龙游戏，程序运行入口Game7.py，配置文件：cfg.py，完整程序包及资源包请在本文文末下载，先上程序运行截图： Game7.py '&apo…

Python 2023年6月12日
0065
Pandas表格美颜技巧

公众号：尤而小屋作者：Peter编辑：Peter 大家好，我是Peter~ 本文中主要介绍的是如何来美化Pandas的DataFrame的数据。主要是通过Pandas中的两个方法来…

Python 2023年8月20日
0062
python-导入matplotlib错误

cannot import name ‘ft2font’ from partially initialized module ‘matplotl…

Python 2023年8月31日
0057
Vmware Pro 17 设置共享文件夹

专栏地址：嵌入式开发专栏文章：【01】windows安装VMware最新版本(VMware Workstation 17.0 Pro)详细教程【02】VMware17虚拟机安装Ub…

Python 2023年11月5日
0046
Pytest笔记

一、命名原则二、命令参数三、指定测试 1. 在模块中运行测试 2. 在目录中运行测试 3. 按关键字表达式运行测试 4. 通过节点 id 来进行测试 5. 通过标记来执行（只…

Python 2023年9月11日
0045
Linux环境conda虚拟环境中python解释器对应问题 + 解决后pip install 路径仍是系统python的依赖路径问题

1.1 原因 在创建虚拟环&#x5883…

Python 2023年9月9日
0069

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

KD树实现鸢尾花分类（Numpy实现）

大家都在看