【建模算法】KNN分类（Python实现）

2023年7月1日上午12:13 • 人工智能 • 阅读 45

【建模算法】KNN分类(Python实现)

01 算法用途

KNN（K- Nearest Neighbor）法即K最邻近法，最初由 Cover和Hart于1968年提出，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。KNN算法的核心思想是，如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

02 实例分析

用经典iris莺尾花标准数据集为例，最后一列class为分类结果，一共有3类，标签设置为（0，1，2），把前面几个特征指标作为自变量进行类别判定。

sepal_length_cmsepal_width_cmpetal_length_cmpetal_width_cmclass6.42.85.62.225.02.33.31.014.92.54.51.724.93.11.50.10

03 原理解析

KNN的算法原理通俗易懂，已知带有不同类别标签的数据，有测试数据要根据特征进⾏判别。计算测试数据到所有已知标签数据的距离，确定⼀个值K，将距离从小到⼤排序，识别前K个最⼩距离（通常采⽤欧式距离）分别属于哪类，统计前K个最小距离中不同类别的个数，哪类出现次数最多就被判定为哪类。

算法步骤：

（1）计算待测试数据与各训练数据的距离
（2）将计算的距离进行由小到大排序
（3）找出距离最小的k个值
（4）计算找出的值中每个类别的频次
（5) 返回频次最高的类别

Python源码：


import csv
import random
import numpy as np
import operator
from sklearn.neighbors import KNeighborsClassifier

def openfile(filename):

"""
    打开数据集，进行数据处理
    :param filename: 数据集的路径
    :return: 返回数据集的数据，标签，以及标签名
"""

    with open(filename) as csv_file:
        data_file = csv.reader(csv_file)
        temp = next(data_file)

        n_samples = int(temp[0])

        n_features = int(temp[1])

        target_names = np.array(temp[2:])

        data = np.empty((n_samples, n_features))

        target = np.empty((n_samples,), dtype=np.int)

        for i, j in enumerate(data_file):

            data[i] = np.asarray(j[:-1], dtype=np.float64)

            target[i] = np.asarray(j[-1], dtype=np.int)

    return data, target, target_names

def random_number(data_size):
"""
    该函数使用shuffle()打乱一个包含从0到数据集大小的整数列表。因此每次运行程序划分不同，导致结果不同

    改进：
    可使用random设置随机种子，随机一个包含从0到数据集大小的整数列表，保证每次的划分结果相同。

    :param data_size: 数据集大小
    :return: 返回一个列表
"""

    number_set = []
    for i in range(data_size):
        number_set.append(i)

    random.shuffle(number_set)

    return number_set

def split_data_set(data_set, target_data, rate=0.25):
"""
    说明：分割数据集，默认数据集的25%是测试集

    :param data_set: 数据集
    :param target_data: 标签数据
    :param rate: 测试集所占的比率
    :return: 返回训练集数据、训练集标签、训练集数据、训练集标签
"""

    train_size = int((1-rate) * len(data_set))

    data_index = random_number(len(data_set))

    x_train = data_set[data_index[:train_size]]

    x_test = data_set[data_index[train_size:]]

    y_train = target_data[data_index[:train_size]]

    y_test = target_data[data_index[train_size:]]
    return x_train,  x_test, y_train, y_test

def data_diatance(x_test, x_train):
"""
    :param x_test: 测试集
    :param x_train: 训练集
    :return: 返回计算的距离
"""

    distances = np.sqrt(sum((x_test - x_train) ** 2))
    return distances

def knn(x_test, x_train, y_train, k):
"""
    :param x_test: 测试集数据
    :param x_train: 训练集数据
    :param y_train: 测试集标签
    :param k: 邻居数
    :return: 返回一个列表包含预测结果
"""

    predict_result_set=[]

    train_set_size = len(x_train)

    distances = np.array(np.zeros(train_set_size))

    for i in x_test:
        for indx in range(train_set_size):

            distances[indx] = data_diatance(i, x_train[indx])

        sorted_dist = np.argsort(distances)

        class_count = {}

        for i in range(k):

            sort_label = y_train[sorted_dist[i]]

            class_count[sort_label]=class_count.get(sort_label, 0) + 1

        sorted_class_count = sorted(class_count.items(), key=operator.itemgetter(1), reverse=True)

        predict_result_set.append(sorted_class_count[0][0])

    return predict_result_set

def score(predict_result_set, y_test):
"""
    :param predict_result_set: 预测结果列表
    :param y_test: 测试集标签
    :return: 返回测试集精度
"""
    count = 0
    for i in range(0, len(predict_result_set)):
        if predict_result_set[i] == y_test[i]:
            count += 1

    score = count / len(predict_result_set)

    return score

if __name__ == "__main__":

    iris_dataset = openfile('iris_data.csv')
    x_train, x_test, y_train, y_test = split_data_set(iris_dataset[0], iris_dataset[1])
    result = knn(x_test,x_train, y_train, 6)
    print("原有标签:", y_test)

    print("预测结果：", np.array(result))
    score = score(result, y_test)
    print("手写KNN算法准确率：%.2f" % score)

    knn = KNeighborsClassifier(n_neighbors=6)

    knn.fit(x_train, y_train)

    prediction=[]
    for i in range(len(x_test)):
        prediction+=list(knn.predict(x_test[i].reshape(1,4)))
    print("原有标签:",y_test)
    print("预测结果:",np.array(prediction))

    print("sklearn库自带KNN算法准确率:{:.2f}".format(knn.score(x_test,y_test)))

以上分别使用原理手写代码和sklearn库自带KNN算法。因为随机选取训练集和测试集，每次结果可能不一样，运行三次结果如下：

第一次运行：

第二次运行：

第三次运行：

可见用原理手写KNN算法和sklearn库自带KNN算法效果是一样的，有时候会更好。

Original: https://blog.csdn.net/baidu/article/details/124388603
Author: 果州做题家
Title: 【建模算法】KNN分类（Python实现）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/662344/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于51单片机的水箱水位监测控制系统proteus仿真原理图PCB

功能介绍：0.本系统采用STC89C52作为单片机1.通过传感器监测水位，当水位低于水位下限时，接通加水水泵，直到水位达到水位上限，停止加水2.水位低于水位下限时，声光报警3.可按…

人工智能 2023年6月28日
0068
利用R语言Tidymodel包，对随机森林R语言实现

本人也是才学习tidymodel包，运用其中的随机森林引擎，完成随机森林算法的R语言实现。数据简介本文利用的数据是随机数据，只是为了实现运行的”工具人数据罢了&#8…

人工智能 2023年7月17日
0080
yolov5 训练模型预测没有框？mAP为零？

2022-04-08前几天（4月8号左右），下了个 yolov5 ，想做个目标检测。从安装依赖，下载权重到进行预测都很顺利，到训练自己的数据集，却出了点问题，发现预测结果都没有框。…

人工智能 2023年7月12日
0055
去噪自编码器tensorflow实现

import tensorflow.contrib.layers as lays import numpy as np from skimage import transform …

人工智能 2023年5月25日
0083
如何在Anaconda自创的环境下安装指定版本的包（numpy, tensorflow, gym）

例如，我创建了一个环境，名为rl，想用来写强化学习的程序，但是opanai给的历程需要一些特定版本的库，例如：Known dependencies: Python (3.5.4),…

人工智能 2023年5月23日
0084
使用“Opencv“时遇到terminate called after throwing an instance of ‘cv::Exception‘问题的解决方案

使用”Opencv”时遇到terminate called after throwing an instance of ‘cv::Excepti…

人工智能 2023年7月26日
00123
Python使用PaddleOCR本地进行视频字幕识别

本文简述了利用OpenCV库以及PaddleOCR库对视频预定位置进行字幕提取并整合识别，在实际工程中，可以调用OCR的识别输出接口进行识别内容的批量保存。后续改进方向参考： 1…

人工智能 2023年7月19日
0052
太赞了！Python竟可以轻松实现音频格式无损转换

在平时处理音频格式的时候，需要去下载各种音频处理软件（专业一点的软件还要收费），掌握Python技术的我们，知道Python是万能的（哈哈哈，开个玩笑）。今天辰哥就来教大家用Pyt…

人工智能 2023年5月27日
0057
双边网格学习、Bilateral Learning

目录背景方法结论挖坑，双边网格学习。双边网格具有很多优良的特性，在图像恢复等方面还具有很多的价值可以挖掘，因此本系列我会把相关论文和代码以我的理解写成博客，留做记录，代码…

人工智能 2023年6月20日
0078
K210模型训练（物体分类）

目录一、打开Maix IDE 的官网找到需要训练模型的平台Maix Hub 模型训练的分类：二、如何使用Maix Hub模型训练平台数据集的采集三、训练模型后的文件分类一…

人工智能 2023年7月1日
0098
tensorflow(8)–识别MNIST数据集

人工智能 2023年5月26日
0070
Linux下RTC驱动开发(硬件采用DS1302)

一、前言在Linux系统上主要有两个时间基准，一个数是系统时间和，一个是RTC 时间。其中系统时间是系统运行时由定时器（滴答定时器）维护的时间，掉电不保存数据。而RTC时间，是…

人工智能 2023年6月26日
0078
Pr 入门教程如何在多声道音频中选择性地启用声道？

欢迎观看 Premiere Pro 教程，小编带大家学习 Pr 的基本编辑技巧，了解如何在多声道音频中选择性地启用声道。大多数音频文件是单声道或立体声的，但许多专业录音系统可以录…

人工智能 2023年5月25日
00152
基于Java+Springboot+Vue+elememt美食论坛平台设计实现

博主介绍： ✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技…

人工智能 2023年6月29日
0079
python-keras图像多标签分类模型训练

最近在学习给图像打标签训练，记录一下自己整个过程。在python中有数据包Tensorflow-keras可以进行模型训练数据集可以是自己采集也可以下载网络上的数据集 1.将i…

人工智能 2023年7月2日
0057
ImageKit10 VCL Crack,添加图像处理和扫描功能

ImageKit10 VCL Crack,添加图像处理和扫描功能 ImageKit10 VCL Crack 是一个组件，可让您快速轻松地向应用程序添加图像处理功能。使用 Image…

人工智能 2023年6月22日
0070

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【建模算法】KNN分类（Python实现）

大家都在看