KNN分类模型

2023年7月1日下午7:05 • 人工智能 • 阅读 114

KNN分类模型

1.概念

k-邻近算法采用测量不同特征值之间的距离方法进行分类(k-Nearest Neighbor，KNN)
k值的作用【选择样本数据集中前K个的数据，出现次数最多的分类，作为新(预测)数据的分类】
欧几里得距离(Euclidean Distance)
注意：
在knn中的k的取值不同会直接导致分类的结果不同。 n_neighbors参数表示k值
模型的超参数：模型的参数有不同的取值且不同的取值会导致模型的分类或预测产生直接的影响
在knn算法中，目标数据可以不是数值型。在knn算法原理中，仅仅计算特征数据的距离，不会计算目标数据的距离。
工作原理
- 存在一个样本数据集合【训练样本集】，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。
- 输人没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。
- 一般来说，我们只选择样本数据集中前K个最相似的数据，这就是K-近邻算法中K的出处,通常K是不大于20的整数
- 最后，选择K个最相似数据中出现次数最多的分类，作为新数据的分类。

; 2.寻找最优k值

import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.neighbors import KNeighborsClassifier
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt

df=pd.read_csv('./data/adults.txt')

target=df['salary']
feature=df[['age','education_num','occupation','hours_per_week']]

x_train,x_test,y_train,y_test = train_test_split(feature,target,test_size=0.1,random_state=2020)

one_hot_train=pd.get_dummies(x_train['occupation'])
one_hot_test=pd.get_dummies(x_test['occupation'])

x_train=pd.concat([x_train,one_hot_train],axis=1).drop(labels='occupation',axis=1)
x_test=pd.concat([x_test,one_hot_test],axis=1).drop(labels='occupation',axis=1)

scores = []
ks = []

for i in range(5,100):
    knn = KNeighborsClassifier(n_neighbors=i)
    knn.fit(x_train,y_train)
    score = knn.score(x_test,y_test)
    scores.append(score)
    ks.append(i)

scores_arr=np.array(scores)
ks_arr=np.array(ks)

plt.plot(ks_arr,scores_arr)
plt.xlabel('k_value')
plt.ylabel('score_value')

max=scores_arr.argmax()

k_value=ks_arr[max]

3.knn案例

from sklearn.neighbors import KNeighborsClassifier

寻找最优k值预测

import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.neighbors import KNeighborsClassifier
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt

df=pd.read_csv('./data/adults.txt')

target=df['salary']
feature=df[['age','education_num','occupation','hours_per_week']]

x_train,x_test,y_train,y_test = train_test_split(feature,target,test_size=0.1,random_state=2020)

one_hot_train=pd.get_dummies(x_train['occupation'])
one_hot_test=pd.get_dummies(x_test['occupation'])

x_train=pd.concat([x_train,one_hot_train],axis=1).drop(labels='occupation',axis=1)
x_test=pd.concat([x_test,one_hot_test],axis=1).drop(labels='occupation',axis=1)

scores = []
ks = []

for i in range(5,100):
    knn = KNeighborsClassifier(n_neighbors=i)
    knn.fit(x_train,y_train)
    score = knn.score(x_test,y_test)
    scores.append(score)
    ks.append(i)

scores_arr=np.array(scores)
ks_arr=np.array(ks)

plt.plot(ks_arr,scores_arr)
plt.xlabel('k_value')
plt.ylabel('score_value')

max=scores_arr.argmax()

k_value=ks_arr[max]

knn=KNeighborsClassifier(n_neighbors=k_value)
knn.fit(x_train,y_train)
score=knn.score(x_test,y_test)

knn.predict()

4.knn取值问题

4.1学习曲线&交叉验证选取k值

k值较小，则模型复杂度较高，容易发生过度拟合，学习的估计误差会增大，预测结果对近邻的实例点非常敏感
k值较大，可以减少学习估计误差，但是学习的近似误差会增大，与输入实例较远的训练实例也会预测其作用，使预测发生错误，k值增大模型的复杂度会下降
在应用中，k值一般取一个比较小的值，通常采用交叉验证法来选取最优的k值
适用场景为小数据场景，样本为几千，几万

4.2 K折交叉验证

目的：
将样本的训练数据交叉折分出不同的训练集和验证集，使用交叉折分出不同的训练集和验证集分别测试模型的精准度，精准度的均值就是交叉验证的结果。将结果作用到不同的超参数中，选取出精准度最高的超参数作为模型创建的超参数即可
API

from sklearn.model_selection import cross_val_score
cross_val_score(estimator,X,y,cv)

实现思路
将数据集平均分割成k个等份
使用1份数据作为测试数据，其余为训练数据
计算测试准确率
使用不同的测试集，重复2,3步骤
对精准率求均值，作为对未知数据预测准确率的估计
交叉验证在knn算法的基本使用

from sklearn.model_selection import cross_val_score,train_test_split
import sklearn.datasets as datasets
from sklearn.neighbors import KNeighborsClassifier
iris=datasets.load_iris()
feature=iris['data']
target=iris['target']
x_train,x_test,y_train,y_test=train_test_split(feature,target,test_size=0.2,random_state=2020)
knn=KNeighborsClassifier(n_neighbors=5)

cross_val_score(knn,x_train,y_train,cv=5).mean()

使用交叉验证&学习曲线寻找最优的超参数

from sklearn.model_selection import train_test_split
import sklearn.datasets as datasets
from sklearn.neighbors import KNeighborsClassifier
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

iris=datasets.load_iris()
feature = iris['data']
target = iris['target']

x_train,x_test,y_train,y_test = train_test_split(feature,target,test_size=0.2,random_state=2020)
scores = []
ks = []
iris = datasets.load_iris()
feature = iris['data']
target = iris['target']

x_train,x_test,y_train,y_test = train_test_split(feature,target,test_size=0.2,random_state=2020)

for k in range(3,20):
    knn = KNeighborsClassifier(n_neighbors=k)
    score = cross_val_score(knn,x_train,y_train,cv=6).mean()
    scores.append(score)
    ks.append(k)
scores_arr=np.array(scores)
ks_arr=np.array(ks)
plt.plot(ks_arr,scores_arr)
plt.xlabel('k_value')
plt.ylabel('score_value')
max=scores_arr.argmax()
k=ks_arr[max]

4.3 模型选择

交叉验证也可以帮助我们进行模型选择，使用iris数据，比较和选择KNN和Logistic回归模型

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
import sklearn.datasets as datasets
from sklearn.neighbors import KNeighborsClassifier

iris = datasets.load_iris()
feature = iris['data']
target = iris['target']

x_train,x_test,y_train,y_test = train_test_split(feature,target,test_size=0.2,random_state=2020)
knn=KNeighborsClassifier(n_neighbors=5)
print(cross_val_score(knn,x_train,y_train,cv=10).mean())
lr=LogisticRegression()
print(cross_val_score(lr,x_train,y_train,cv=10).mean())

4.4 K-Fold&交叉验证

Scikit提供的API

from sklearn.model_selection import KFold
KFold(n_solits,shuffle,random_state)

示例

from numpy import array
from sklearn.model_selection import KFold
data=array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6])
kfold=KFold(n_splits=3,shuffle=True,random_state=1)
for train,test in kfold.split(data):
    print('train:%s,test:%s'%(data[train],data[test]))

Scikit中提取带K-Fold接口的交叉验证接口sklearn.model_selection.cross_validate，但是该接口没有数据shuffle功能，所以一般结合Kfold一起使用。如果Train数据在分组前已经经过了shuffle处理，比如使用train_test_split分组，那就可以直接使用cross_val_score接口

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
import sklearn.datasets as datasets
from sklearn.neighbors import KNeighborsClassifier

iris = datasets.load_iris()
feature = iris['data']
target = iris['target']
n_folds=5
kf=KFold(n_folds,shuffle=True,random_state=42).get_n_splits(feature)
scores=cross_val_score(knn,feature,target,cv=kf)
scores.mean()

5.算法代码实现

类封装

class KNNClassifier:
    def __init__(self,k=7):
        self.k=k
        self._X_train=None
        self._y_train=None

    def fit(self,X_train,y_train):
        self._X_train=X_train
        self._y_train=y_train

    def _predict(self,x):

        distances=np.sqrt(np.sum((self._X_train-x)**2,axis=1))

        votes=Counter(self._y_train[np.argpartition(distances,self.k)[:self.k]])
        return votes.most_common(1)[0][0]

    def predict(self,X_predict):
        y_predict=np.array([self._predict(x) for x in X_predict])
        return y_predict

from sklearn import datasets
from collections import Counter

iris=datasets.load_iris()
X=iris.data
y=iris.target
knn=KNNClassifier()
knn.fit(X,y)

y_predict=knn.predict(X)
y_predict

Original: https://blog.csdn.net/m0_46926492/article/details/122766173
Author: 荼靡，
Title: KNN分类模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/663881/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习——day2 看论文：基于深度学习的图像隐写方法研究

基于深度学习的图像隐写方法研究 * – 直接上思维导图 – chap1信息隐藏 – + 隐写术 + 相互促进、相互矛盾 + 隐写分析 + * 特…

人工智能 2023年6月25日
0091
pandas.cut()函数的使用

函数可以将数据进行分类成不同的区间值。在数据分析中，例如有一组年龄数据，现在需要对不同的年龄层次的用户进行分析，那么我们可以根据不同年龄层次所对应的年龄段来作为划分区间，例如 bi…

人工智能 2023年7月4日
0065
Anaconda 中安装百度飞浆Paddle 深度学习框架教程

1.Anaconda中新建一个环境，放Paddle 框架。点击进入anaconda navigator，进入后，点create新建，环境名自定义，勾选python3.7 2.进…

人工智能 2023年6月17日
00103
【目标检测】目标检测界的扛把子YOLOv5（原理详解+修炼指南）

文章目录 1.YOLO输入端 * 1.1 Mosaic数据增强 1.2 自适应锚框计算 1.3 自适应图片缩放 2.YOLO总体架构图 * 2.1 BackBone –…

人工智能 2023年7月26日
0062
HISI3559A YOLOV5训练部署全流程

HISI3559A YOLOV5训练部署全流程 yolov5网络简介 https://zhuanlan.zhihu.com/p/172121380 hisi3559a开发板简介 C…

人工智能 2023年7月14日
0058
多重信号分类(MUSIC)算法

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月30日
0083
AI快车道PaddleNLP系列直播课4|文本生成任务的高性能加速

目录 1 文本生成介绍 1.1 什么是机器翻译 2 transformer性能瓶颈分析和优化计算量最大的地方就是在encoder和decoder中，transformer中的se…

人工智能 2023年5月30日
0081
【YOLOv5】SPP、SPPF模块及添加ASPP模块

文章目录 YOLOv5配置文件 SPP介绍 YOLOv5中的SPP SPPF ASPP 又名，整理整理自己不靠谱的学习记录。 YOLOv5配置文件 YOLOv5通过yaml配置文件…

人工智能 2023年7月6日
0060
Python-OpenCV的基本使用

Python-OpenCV的基本使用 Python-OpenCV环境的配置看上一篇OpenCV环境的配置本篇主要介绍一下OpenCV的基本使用和相关函数的介绍。以下所有操作都基于这…

人工智能 2023年5月28日
0074
过滤算法如何处理数据稀疏性问题

问题：如何使用过滤算法处理数据稀疏性问题？介绍：数据稀疏性指的是在一个数据集中，大部分项没有值或者为零值的情况。在机器学习、数据挖掘等应用中，数据稀疏性问题是很常见的。过滤算法可…

人工智能 2024年1月4日
0037
Neo4j Cypher 查询语法

Created: Oct 13, 2020 9:22 PMTags: Cypher, DB, Neo4j 节点通常会表示为一实体节点可以包含属性关系是连接实体的边，通过关系看可…

人工智能 2023年6月10日
0078
基于pytorch的CNN猫狗图分

1.所需模块2.前提知识3.CNN简要4.基本框架5.代码. 1.所需的模块相关的作用在用到的时候单独讲。 import numpy as np import matplotli…

人工智能 2023年6月20日
00100
看直播赢万元豪礼，云汉流动直播间在涂鸦智能带你领略语音交互新风尚

Hi，小伙伴们，大家好~ 云汉核心城的移动直播间即将进入涂鸦智能。 [En] The mobile broadcast room in Yunhan Core City is ab…

人工智能 2023年5月27日
0084
ConditionalGAN（CGAN）介绍及实现图像转图像生成应用

ConditionalGAN（CGAN）介绍及实现图像转图像生成应用一.引言 * 1.1文字生成图像二.Conditional GAN * 2.1Conditional GAN…

人工智能 2023年5月26日
0085
Python机器学习–聚类-分类-回归三大算法评估指标

算法评估指标简介对于聚类,分类,回归三大算法类,有不同的算法评估指标,不同的评估指标. 分类算法常用评估指标:准确率,查准率,查全率,F1-score,PR曲线,ROC曲线和AU…

人工智能 2023年5月31日
0075
OpenHarmony学习笔记——Hi3861+ASR-01的语音识别助手

文章目录前言 Hi3861的UART与PWM简介 * UART简介 PWM ASR-01离线语音识别 * 天问官方介绍硬件连接软件部分 * ASR-01代码 Hi3861端代…

人工智能 2023年5月25日
00136

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

KNN分类模型

目录

1.概念

; 2.寻找最优k值

3.knn案例

4.knn取值问题

4.1学习曲线&交叉验证选取k值

4.2 K折交叉验证

4.3 模型选择

4.4 K-Fold&交叉验证

5.算法代码实现

大家都在看