【KNN】使用KNN算法实现对iris数据集的分类

2023年6月30日下午3:39 • 人工智能 • 阅读 88

一、实验报告

**
1、实验目的:使用KNN算法实现对iris数据集的分类
2、实验要求：（1）5次随机选取，对比分类准确率（2）探讨不同k值对分类准确率的影响

二、实验内容

1、数据预处理

调用numpy库读取Iris.txt数据集，
使用shuffle随机打乱数据，用replace函数把最后一列label替换成012，便于数据处理。
用切片函数iloc将原始数据拆分成为data和label数据
训练集和测试集按照设置好的比例分配
返回训练集与测试集
2、模型构建
定义一个计算欧式距离的函数，test数据减去train数据，再平方，把每个特征相加，最好开方。
KNN算法原理：
计算出样本数据和测试数据的欧氏距离距离
为测试数据选择k个与其距离最小的样本
统计出k个样本所在类别的出现频率
返回前K个点中出现频率最高的类别作为测试数据的预测分类
实现：
定义一个空的预测列表，得到每个训练数据的长度
用两次for循环计算每一个测试集与每一个训练集的距离，使用argsort函数从低到高排序并返回索引，定义一个空计数列表count
用for循环，每一次循环获得下标所对应的标签值，将标签存入字典之中并存入个数，取出k个最短距离
用sorted函数对标签进行排序，将出现频次最高的列表放入预测列表中，循环结束return预测列表
3、计算准确度
计算在测试数据集中算法正确预测的比例。
4、主函数设计
设定好训练集和测试集比例0.3，用for循环设置k的值，从2到20取值，输出精度，并绘制图如下所示：

三、结果分析

KNN算法易于实现，无需估计参数，K值用于选择最近邻的数目，K的选择非常敏感。K值越小意味着模型复杂度越高，从而容易产生过拟合；K值越大则意味着整体的模型变得简单，学习的近似误差会增大，由于数据集很小，并每次都随机选取，每次测试结果会有所变动，通过结果对比k值取5、6、7准确率比较高。

; 四、代码

import operator
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.utils import shuffle
def split_data_set(path, split_rate):
    list1 = pd.read_csv(path)
    list1 = shuffle(list1)
    total_length = len(list1)
    split_point = int(total_length * split_rate)
    list1 = list1.replace("Iris-setosa", "0")
    list1 = list1.replace("Iris-versicolor", "1")
    list1 = list1.replace("Iris-virginica", "2")
    x = list1.iloc[:, 0:4]
    x_train = x.iloc[:split_point, :]
    x_test = x.iloc[split_point:total_length + 1, :]
    y = list1.iloc[:, 4]
    y_train = y.iloc[:split_point]
    y_test = y.iloc[split_point:total_length + 1]
    return np.array(x_train), np.array(x_test), np.array(y_train), np.array(y_test)
def data_diatance(x_test, x_train):
    distances = np.sqrt(sum((x_test - x_train) ** 2))
    return distances
def knn(x_test, x_train, y_train, k):
    predict_result_set = []
    train_set_size = len(x_train)
    distances = np.array(np.zeros(train_set_size))

    for i in x_test:
        for indx in range(train_set_size):

            distances[indx] = data_diatance(i, x_train[indx])

        sorted_dist = np.argsort(distances)
        class_count = {}

        for i in range(k):

            sort_label = y_train[sorted_dist[i]]
            class_count[sort_label] = class_count.get(sort_label, 0) + 1
        sorted_class_count = sorted(class_count.items(), key=operator.itemgetter(1), reverse=True)
        predict_result_set.append(sorted_class_count[0][0])

    return predict_result_set
def score(predict_result_set, y_test):
    count = 0
    for i in range(0, len(predict_result_set)):
        if predict_result_set[i] == y_test[i]:
            count += 1
    score = count / len(predict_result_set)
    return score
if __name__ == "__main__":

    path = 'Iris.txt'
    split_rate = 0.3
    x_train, x_test, y_train, y_test=split_data_set(path,split_rate)
    X = []
    Y = []
    for k in range(2, 20):
        result = knn(x_test, x_train, y_train, k)

        acc = score(result, y_test)
        X.append(k)
        Y.append(acc)

    print(X, Y)
    plt.xlabel('k')
    plt.ylabel('acc')
    plt.plot(X, Y)
    plt.show()

五、KNN的分析与改进

存在优点：逻辑简单，对于异常值点不敏感，分类效果好
存在缺点：
（1）如果样本的类别不平衡，k个值里面，只考虑样本类别数量，没有考虑到相对距离，假如和其中一个离的非常近，其他点相对较远，这样会造成很大误差
（2）需要存储所有的训练数据，占用内存大，计算量大。
解决思路：
（1）可以在k个值里面，距离加上权重，距离越大权重越小，距离越小权重越大。
（2）采用分组快速搜索近邻法，先按照近邻关系分组，求出质心，用质心来与测试点求距离，选出若干组，在进行knn算法。

Original: https://blog.csdn.net/beautifullyu/article/details/123602208
Author: zhouwilon
Title: 【KNN】使用KNN算法实现对iris数据集的分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/661562/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

《数字图像处理》空间滤波学习感悟1：空间滤波原理

一、引言空间域图像处理（spatial processing）主要分为灰度变换（intensity transformations）和空间滤波（spatial filteri…

人工智能 2023年6月20日
0085
在线文本实体抽取能力，助力应用解析海量文本数据

随着信息化的发展，很多具有重要价值的知识隐藏分布在海量数据中，影响了人们获取知识的效率，如何处理繁杂的非结构化文本数据成为难题。近日，HMS Core 机器学习服务6.5.0版本…

人工智能 2023年6月1日
0092
MATLAB群智能算法开源第二十八期-动态元启发式神经网络优化算法

1 写在前面该系列为基础群智能优化算法，欢迎私信一起交流问题，更多的改进算法可查看往期的推文。有问题或者需要其他建议的话，非常欢迎后台私信交流，共同进步，如若出现违反学术道德的…

人工智能 2023年7月14日
0066
[原创]python计算中文文本相似度神器

介绍最近因为工作需要，需要使用一个功能，就是中文文本相似度的计算。属于nlp领域的一个应用吧，这里找到一个非常好的包和大家分享。这个包叫 sentence-transformer…

人工智能 2023年5月27日
0080
矩池云conda创建指定cuda cudnn tf版本的虚拟环境

本文将介绍如何在矩池云通过conda创建虚拟环境，并安装指定版本的cuda cudnn tf。需求：在矩池云中安装一个虚拟环境，python3.6，tensorflow-gpu1…

人工智能 2023年5月24日
0082
实用机器学习笔记-第三章-机器学习模型分类与介绍

### 回答1：机器学习模型_评估、选择和验证是指评估 _模型_的性能、从多个 _模型_中选择最佳 _模型，并验证模型_的泛化能力。常用的评估方法包括准确率、精确率、召回率、…

人工智能 2023年7月3日
0075
机器学习中的数学——距离定义（二十七）：巴氏距离（Bhattacharyya Distance）

在统计中，巴氏距离（Bhattacharyya Distance）测量两个离散或连续概率分布的相似性。它与衡量两个统计样品或种群之间的重叠量的巴氏系数密切相关。巴氏距离和巴氏系数以…

人工智能 2023年6月15日
00166
关于我装的GPU版tensorflow然后却是cpu在跑这件事

神经网络的层数越来越多，程序跑的也是越来越慢，打开任务管理器发现我的GPU根本没用到，白瞎我买的电脑，和费那劲装的tensorflowGPU版首先看一下GPU是否可用 impor…

人工智能 2023年5月26日
0091
解决Anaconda3 solving environment 巨慢的方法

解决Anaconda3 solving environment 巨慢的方法，亲测有效！！！最近在做毕设辽，准备做一个基于深度学习的MOT项目，python开发，coding期间由…

人工智能 2023年6月16日
0078
智能家居的新想法(2022)

关于控制体验智能方案分析独立生活空间智能智能管家的学习能力可能有的一些疑问我之前写过一篇名为《智能家居畅想》的文章，应该是在2016年。当时还有一篇没有发布的文章，就是…

人工智能 2023年5月25日
0066
【OpenVX】vx_imagepatch_addressing_t

相同尺寸不同图像类型 int main() { vx_context context = vxCreateContext(); TEST_image_stride_y(contex…

人工智能 2023年6月20日
0068
总体分类精度和kappa系数计算实例详细介绍！

为啥要算总体分类精度和kappa系数呢？想必大家都知道是为了精度评价，当我们没有实测数据的时候，那么总体分类精度和kappa系数就派上用场了！我们没有实测数据，依旧能够评价自己的方…

人工智能 2023年7月2日
0095
17:Oriented R-CNN for Object Detection

1.介绍不同方案生成定向proposals的比较。(a)旋转RPN密集放置不同尺度、比例和角度的旋转锚点。(b)水平RoI的RoI Transformer+学习型方案。它包括RP…

人工智能 2023年7月9日
0047
TPH-YOLOv5简述

引言无人机捕获场景下的目标检测技术已广泛应用于植物保护、野生动物保护和城市监测等实际应用中，在无人机捕获的图像上的目标检测性能，并为上述众多的应用提供洞察力。本文专注于在无人机上…

人工智能 2023年7月9日
0076
基于Pytorch，神经网络代码中super(Net,self).__init__()的语法深入分析

import torch from torch import nn class Net(nn.Module): def __init__(self): super(Net, sel…

人工智能 2023年7月13日
0057
人工智能是计算机科学的一个分支，它企图了解智能的实质

虽然计算机专业经常被误解为”修电脑的”，但计算机类专业一直是留学申请尤其是赴美留学的热门专业前三位，毕竟多少同学心中都怀着一个”硅谷梦&#822…

人工智能 2023年7月18日
0054

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【KNN】使用KNN算法实现对iris数据集的分类

一、实验报告

二、实验内容

三、 结果分析

; 四、 代码

五、KNN的分析与改进

大家都在看

三、结果分析

; 四、代码