one-class(单分类) kNN(K-Nearest Neighbor)算法Matlab实现

2023年7月3日上午3:55 • 人工智能 • 阅读 78

one-class(单分类) kNN(K-Nearest Neighbor)算法Matlab实现

本文的核心是给出了一个基于kNN的单分类（one-class）分类器实现代码，并给出了数据以及运行实例，让读者能更好地理解并使用。代码基于MATLAB平台实现。而多分类的KNN代码已经比较多了，比如https://blog.csdn.net/queyuze/article/details/70195087博客中就给出了其实现。

1.首先是单分类分类器的介绍

1.1二分类问题

首先，学过机器学习的人都应该比较了解二分类SVM，这里引用网上一个比较糊的图，但是能看出这里是针对两种label的数据进行了SVM边界构建。而多分类可以由多个二分类构建，这里非本文重点就不详细介绍了。

one-class(单分类) kNN(K-Nearest Neighbor)算法Matlab实现

; 1.2单分类问题（one-class）

单分类问题（one-class）不像常见的二分类或多分类问题，其目的并不是将有不同label的数据区分开来，而更像是对单个类别的特征生成一个轮廓与描述（description）。这里感觉轮廓更好理解一点，可以理解为是样本空间中的一个区域，当某个样本落在这个区域外，我们就认为该样本不属于这个类别。单分类方法常用于异常检测，或者类别极度不平衡的分类任务中。

算法层面：当我们假设数据服从一个概率分布，我们就可以对这个分布中的参数进行估计了。对于一个新样本，如果这个样本在给定类别的概率分布中的概率小于阈值，就会被判定为异常样本。

2.常用单分类SVM的缺点

2.1 SVDD简介

其基本思想是通过在映射到高维的特征空间中找出一个包围目标样本点的超球体（在如上特征降维可视化的二维图片，就是一个包围目标样本点的圆形），并通过最小化该超球体所包围的体积让目标样本点尽能地被包围在超球体中，而非目标样本点尽可能地排除在超球体中，从而达到正常类以非正常类之间划分的目的。

其训练过程如下：

1.&#x57FA;&#x4E8E;&#x5408;&#x6CD5;&#x7528;&#x6237;&#x7684;&#x6570;&#x636E;&#x8FDB;&#x884C;&#x8BAD;&#x7EC3;&#xFF08;&#x901A;&#x5E38;&#x662F;&#x591A;&#x4E2A;&#x7279;&#x5F81;&#x5411;&#x91CF;&#xFF09;
2.&#x83B7;&#x5F97;SVDD&#x5355;&#x5206;&#x7C7B;&#x5206;&#x7C7B;&#x5668;
3.&#x57FA;&#x4E8E;&#x6B64;&#x5206;&#x7C7B;&#x5668;&#x5BF9;&#x4E8E;&#x4E00;&#x4E2A;&#x672A;&#x77E5;&#x6837;&#x672C;&#x8FDB;&#x884C;&#x5206;&#x7C7B;&#xFF0C;&#x7ED3;&#x679C;&#x4E3A;&#x6B63;&#x5E38;&#x7C7B;&#xFF08;&#x53EF;&#x4EE5;&#x7406;&#x89E3;&#x4E3A;&#x5728;&#x4E0A;&#x56FE;&#x7684;&#x9ED1;&#x8272;&#x8FB9;&#x754C;&#x5185;&#xFF09;&#x6216;&#x8005;&#x5F02;&#x5E38;&#x7C7B;&#xFF08;&#x53EF;&#x4EE5;&#x7406;&#x89E3;&#x4E3A;&#x5728;&#x4E0A;&#x56FE;&#x7684;&#x9ED1;&#x8272;&#x8FB9;&#x754C;&#x5916;&#xFF09;&#x3002;

基本所有的单分类分类认证都是这个过程，比如在一些感知认证工作中，由于实际的场景往往只有正样本，所以选择单分类分类器作为其模型。

2.2 SVDD缺点

但是在实际使用中SVDD有一定的缺点，就是这个边界的松紧不能细粒度的调整，以使得我们实验中没法获得全面的分析数据。以第二张图为例，这个边界如果变大了，就是变松一点，那么误拒绝合法用户的概率就会低，因为模型正例的空间域变大了。反之如果边界变小，就是变紧，那么模型正例的空间域变小。这个松紧调整的意义在于我们可以细粒度地对我们的算法性能进行分析。

曾经在我的论文实验中，我十分希望如下以细粒度地调整模型的松紧，如下表所示。

松紧程度96%97%98%99%100%101%102%103%某性能指标

来观察设计的算法性能，比如FAR和FRR的变化，SVDD试了多次发现是不能满足如下这样细粒度要求的，其粒度会比较粗，使得我们无法全方位评估我们算法性能。MATLAB自带的fitsvm函数选下实现SVDD，这个 _OutlierFraction_代表了假设 7% 的观测值是离群值，对预测变量进行标准化。而实际上，当我们的样本数不足100而只有十几个的时候，往往以样本的离群值为代表，就只有较少的粒度。比如可能7%和10%都是代表固定个数样本的离群值。

SVMModel = fitcsvm(traindataout,labeltrain,'KernelFunction','RBF',
'KernelScale','auto','Standardize',true,'OutlierFraction',0.07);

本文核心想法：所以我换了思路，不以训练样本中的离群数代表模型松紧，我们将这个松紧粒度放在分类时进行调整。简单来说，我们利用KNN是基于距离度量的特性，我们获得测试样本与训练样本的距离与训练样本之间的距离，基于这两个值的比值是否小于一个阈值来判断，而我们可以对这个阈值实现细粒度的调整，实现模型松紧的细粒度调整。具体实现如下：

3.基于KNN的单分类分类器实现

3.1训练阶段

给定N个训练样本的特征数据，每一个特征数据向量记为di,i在1-N，其中dij表示第i个特征向量和第j个特征向量之间的曼哈顿距离或者欧式距离。基于M我们可以衡量这个训练样本的簇密度，代表了训练样本数据的特性。
M = ∑ i = 1 N − 1 ∑ j = i + 1 N d i j C N 2 M=\frac{\sum_{i=1}^{N-1}\sum_{j=i+1}^{N}d_{ij}}{C_{N}^{2}}M =C N 2 ∑i =1 N −1 ∑j =i +1 N d i j

function [M] = oneclass_KNN_train(traindata,distype)
% training process
% this function returns the threshold(M)  of traindata.

% It takes 2 input arguments
% which are traindata,distype.

% distype is the cityblock distance(1) or the euclidean distance(2)
    [n,~]=size(traindata);
    M=0;
    for i=1:n%&#x6B64;&#x5904;&#x8BA1;&#x7B97;&#x5E73;&#x5747;&#x8DDD;&#x79BB;
        temp=traindata(i,:);
        for j=i+1:n         % &#x8BA1;&#x7B97;&#x5176;&#x5230;&#x6240;&#x6709;traindata&#x7684;&#x8DDD;&#x79BB;&#xFF0C;&#x5E76;&#x6392;&#x5E8F;
            a=[temp;traindata(j,:)];
            if distype==1
                dis=pdist(a,'cityblock');
            else
               dis=pdist(a,'euclidean');
            end
            M=M+dis;
        end
    end
    M=2*M/((n-1)*n);
end

3.2分类阶段

给定一个测试样本f，我们将其特征数据向量与所有的di进行距离计算，选出其中最小的k个距离值，并求该k个距离值的平均值记为m。

那么基于m与M的比较，我们可以判断测试样本的分类结果。其中我们基于基于λ进行模型松紧的细粒度调整。
T e s t r e s u l t = { l e g i t i m a t e u s e r , m ≤ λ × M a t t a c k e r , m > λ × M Testresult = \begin{cases} legitimate \ user, & m \leq \lambda \times M \ attacker, & m > \lambda \times M \end{cases}T e s t r e s u l t ={l e g i t i m a t e u s e r ,a t t a c k e r ,m ≤λ×M m >λ×M

function [ positive_num ] = oneclass_KNN_test( traindata,testdata,k,M,ratio,distype)
% testing process
% this function returns the positive number of testdata.

% It takes 6 input arguments
% which are traindata,testdata,k,threshold,ratio,distype.

% k means the parameter of kNN, threshold means the Denisty calculated from
% training process, ratio is the tradeoff between FNR and FPR
% distype is the cityblock distance(1) or the euclidean distance(2)
    [n,~]=size(traindata);
    [n2,~]=size(testdata);
    dis=ones(1,n); %&#x7528;&#x4E8E;&#x8BA1;&#x7B97;&#x6BCF;&#x4E00;&#x6B21;&#x7684;&#x8DDD;&#x79BB;
    accnum=0;
    for i=1:n2 %&#x5BF9;&#x4E8E;n2&#x4E2A;testdata&#x6570;&#x636E;&#x884C;&#x8FDB;&#x884C;&#x8BA4;&#x8BC1;&#x6D4B;&#x8BD5;
        temp=testdata(i,:);
        for j=1:n         % &#x8BA1;&#x7B97;&#x5176;&#x5230;&#x6240;&#x6709;traindata&#x7684;&#x8DDD;&#x79BB;&#xFF0C;&#x5E76;&#x6392;&#x5E8F;
            a=[temp;traindata(j,:)];
            if distype==1
                    dis(j)=pdist(a,'cityblock');
            else
                    dis(j)=pdist(a,'euclidean');
            end
        end
        dis=sort(dis);
        ithreshold=0;
        for p=1:k           % &#x5BF9;&#x4E8E;p&#x4E2A;&#x8DDD;&#x79BB;&#x8BA1;&#x7B97;&#x5176;&#x5747;&#x503C;
            ithreshold=ithreshold+dis(p);
        end
        ithreshold=ithreshold/p;
        if(ithreshold<m*ratio)% 如果k均值小于阈值，则认为是合法值 accnum="accnum+1;" end positive_num="accnum;" < code></m*ratio)%>

这里traindata和testdata的数据格式如下

traindatafeature1feature2feature3line11.15.12.2line21.04.02.2line31.26.22.0

M = d 12 + d 23 + d 13 C 3 2 M=\frac{d12+d23+d13}{C_{3}^{2}}M =C 3 2 d 1 2 +d 2 3 +d 1 3

基于M以及给定的模型松紧参数λ（比如λ = 1.1），以及计算的测试样本距离m，我们可以对一个测试样本向量进行分类

testdatafeature1feature2feature3testresultline11.05.12.2positiveline21.92.03.2negativeline32.04.11.1negative

4.总结

我们基于MATLAB实现了one-class kNN分类器，解决了现有单分类分类器比如SVDD模型松紧不能细粒度调整的问题，并给出了实现代码。

博客系本人原创，如果有转载，请注明出处，如有错误欢迎评论指正，谢谢！

Original: https://blog.csdn.net/qq_31460511/article/details/115422141
Author: NJU_dislab_XC
Title: one-class(单分类) kNN(K-Nearest Neighbor)算法Matlab实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/666815/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

[附源码]计算机毕业设计的手机电商网站Springboot程序

项目运行环境配置： Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX （Webstorm也行）+ Eclispe（IntelliJ IDEA,Ecli…

人工智能 2023年7月29日
0073
3D人脸模型Flame —-《Learning a model of facial shape and expression from 4D scans》论文讲解及代码注释

前文在阅读论文前，首先我们要有一定的知识储备，包括人脸建模，表情制作，旋转转换等，才能方便我们的论文理解，所以首先我会讲解一些关键的知识点。 Flame模型的作用? Flame是…

人工智能 2023年6月25日
0064
[论文阅读]PIT

Permutation Invariant Training of Deep Models for Speaker-Independent Multi-Talker Speech …

人工智能 2023年5月25日
0068
论文导读 | 基于注意力机制对齐增强预训练语言模型

这篇文章通过提出了一种注意力机制对齐的方法，为预训练语言模型在 fine-tuning阶段引入了多源分词信息外部知识，从而提升了预训练语言模型在各个子任务上的效果。本文收录于 20…

人工智能 2023年6月10日
0089
中的邻域大小如何影响算法性能

问题：邻域大小对算法性能的影响邻域大小是指在算法中用于计算相似度或距离的数据点的数量。它在许多机器学习算法中扮演着重要的角色，包括聚类、分类和回归等领域。本文将深入探讨邻域大小对…

人工智能 2024年1月2日
0038
jupyter notebook 打开指定路径文件

最近做作业，需要用到jupyter notebook，但是每次我们进去的时候打开的都是默认路径，怎么切换到指定的路径，是一个问题。我对CSDN上已存在的几种方法进行对比，找到了最…

人工智能 2023年7月5日
00113
C语言日记 34 析构函数

上一节的：例8-9构造函数重载。（其实应该放到 C语言日记 33 构造函数，但析构函数可以讲的内容太少了）源程序： #include using namespace std; …

人工智能 2023年6月29日
0074
使用js写一个播放语音提示的功能

在java web认证在开发中，当客户请求数据更新时，它将在页面上弹出。 [En] In development, when the customer requests a da…

人工智能 2023年5月27日
0088
JS中，a标签里的javascript:；和 javascript:void(0)还有##

目录 1. javascript:;【常用】点击链接之后不会刷新页面，不会跳转链接，也不会传递参数 2. javascript:void(0) 【少用】点击链接后不会刷新页面，不会…

人工智能 2023年7月29日
0058
Python面向对象编程

文章目录类与对象 * 定义简单类 – 创建只包含对象的方法创建对象方法中的self参数 – 初始化方法在初始化方法内部定义属性改造初始化方法 ——…

人工智能 2023年7月5日
0079
Java并发编程学习12-任务取消（上）

任务取消（上）《任务取消》由于篇幅较多，拆分了两篇来介绍各种实现取消和中断的机制，以及如何编写任务和服务，使它们能对取消请求做出响应。如何理解任务是可取消的？如果外部代码能…

人工智能 2023年6月28日
0087
YOLO算法之YOLOv5

目录一、什么是YOLOv5？二、YOLO目标检测技术发展史 * 1、发展历程一览 2、各版本差异三、YOLOv5网络结构和组件一、什么是YOLOv5？参考学习：了解YO…

人工智能 2023年7月30日
0058
VAEGAN：理解 VAE 与 GAN【图像生成】

标准VAE(Variational Autoencoder)的原理：在autoencoder模型中，我们加入一个编码器，它能帮我们把图片编码成向量。然后解码器能够把这些向量恢复成…

人工智能 2023年7月28日
0093
Zebec Chain有望成为公链赛道新兴生力军，地平线计划持续进击

前言 Zebec 在此前推出了流支付公链Zebec Chain，并面向市场推出了地平线计划，Zepoch节点短时出售突破500，并且Zebec 拿出1000万美元对生态节点以及早期…

人工智能 2023年6月28日
0068
pandas数据分析之数据重塑透视(stack、unstack、melt、pivot)

在数据分析的过程中，分析师常常希望通过多个维度多种方式来观察分析数据，重塑和透视是常用的手段。数据的重塑简单说就是对原数据进行变形，为什么需要变形，因为当前数据的展示形式不是我们期…

人工智能 2023年7月17日
00140
chatGPT写的一篇动态环境下的视觉slam论文

今天尝试了一下chatGPT，虽然没有什么创新点，但是对各种概念的描写还是没问题的。 Abstract: Simultaneous localization and mapping…

人工智能 2023年7月31日
0061

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

one-class(单分类) kNN(K-Nearest Neighbor)算法Matlab实现

one-class(单分类) kNN(K-Nearest Neighbor)算法Matlab实现

1.首先是单分类分类器的介绍

1.1二分类问题

; 1.2单分类问题（one-class）

2.常用单分类SVM的缺点

2.1 SVDD简介

2.2 SVDD缺点

3.基于KNN的单分类分类器实现

3.1训练阶段

3.2分类阶段

4.总结

大家都在看