机器学习：多分类

2023年7月1日上午12:21 • 人工智能 • 阅读 66

1，多分类形式化

1.1，分类问题

给定训练样本集合，其中独立同分布，。多分类问题的目标是基于数据，从假说集合中选择一个假说，以使得期望误差：

最小。
对于二分类问题，可以以零为界限进行分类，大于零则划分为正样本，小于零则划分为负样本。对于多分类问题，二分类分类方法则无法进行判断，因此我们定义评分函数进行判断。
在多类设置中，根据评分函数定义假设：。与点关联的标签是导致最大分数的标签，该分数定义了以下映射：到：

其中，其中每个都是一种类别，通过遍历所有的与待预测值通过评分函数进行计算得分，得分最高的即为的多分类结果。

1.2，多分类SVMs

机器学习：支持向量机（SVM）_燕双嘤-CSDN博客1，算法描述支持向量机（SVM）是用来解决分类问题的。作为数据挖掘领域中一项非常重要的任务，分类目前在商业上应用最多（比如分析型CRM里面的客户分类模型、客户流失模型、客户盈利等，其本质上都属于分类问题）。而分类的目的则是构造一个分类函数或分类模型，该模型能吧数据库中的数据项映射到给定类别中的某一个，从而可以用来预测未知类别。先考虑最简单的情况，比如豌豆和米粒，用筛子很快可以分离它们，小颗粒漏下去，大颗粒保留。用函数来表示就是当直径d大于某个值D，就判定其为豌豆，小于D就是米粒。在数轴上就是D左边https://shao12138.blog.csdn.net/article/details/121164645 ; 定义多分类SVM算法（SVMs）的优化问题是：

其中为到的映射函数，为当前分类正确的系数矩阵，
为除 之外的任意一个，为偏差，
为样本数，为分类数。

证明：

令，，评分函数有无数种。

令，即：

1.3，对偶问题

机器学习：支持向量机（SVM）_燕双嘤-CSDN博客1，算法描述支持向量机（SVM）是用来解决分类问题的。作为数据挖掘领域中一项非常重要的任务，分类目前在商业上应用最多（比如分析型CRM里面的客户分类模型、客户流失模型、客户盈利等，其本质上都属于分类问题）。而分类的目的则是构造一个分类函数或分类模型，该模型能吧数据库中的数据项映射到给定类别中的某一个，从而可以用来预测未知类别。先考虑最简单的情况，比如豌豆和米粒，用筛子很快可以分离它们，小颗粒漏下去，大颗粒保留。用函数来表示就是当直径d大于某个值D，就判定其为豌豆，小于D就是米粒。在数轴上就是D左边https://shao12138.blog.csdn.net/article/details/121164645 ;

定义拉格朗日函数

令对求偏导为0可得：

带入拉格朗日函数， 可以消除，再消去得到对偶问题：

即：
假设是上面凸二次规划问题的最优解，则，求导后得到。

2，二分类解决多分类

2.1，两种多分类策略

One-versus-All： 每次将一个类别作为正类，其余类别作为负类。此时共有（N个分类器）。在测试的时候若仅有一个分类器预测为正类，则对应的类别标记为最终的分类结果。
【例】当有4个类别的时候，每次把其中一个类别作为正类别，其余作为负类别，共有4种组合，对于这4中组合进行分类器的训练，我们可以得到4个分类器。对于测试样本，放进4个分类器进行预测，仅有一个分类器预测为正类，于是取这个分类器的结果作为预测结果，分类器2预测的结果是类别2，于是这个样本便属于类别2 。

One-versus-One： 假如某个分类中有N个类别，我们将这N个类别进行两两配对（两两配对后转化为二分类问题）。那么我们可以得到，即。
【例】当有4个类别的时候，首先把类别两两组合（6种组合）。组合完之后，其中一个类别作为正类，另一个作为负类（这个正负只是相对而言，目的是转化为二分类）。然后对每个二分类器进行训练。可以得到6个二分类器。然后把测试样本在6个二分类器上面进行预测。

容易看出，OvA只需训练N个分类器，而OvO需训练N(N – 1)/2个分类器，因此，OvO的存储开销和测试时间开销通常比OvA更大。但在训练时，OvA的每个分类器均使用全部训练样例，而OvO的每个分类器仅用到两个类的样例，因此，在类别很多时，OvO的训练时间开销通常比OvA更小。至于预测性能，则取决于具体的数据分布，在多数情形下OvA准确度比OvO要低，比如10000样本集，分给OvA的100个分类器，每个得到100个样本，对于1:99的分类器，正样本仅有100，负样本有9900，样本极不平衡，训练误差较大。
综上：

OvO的优点是，在类别很多时，训练时间要比OvA少，误差小。缺点是，分类器个数多。
*OvA的优点是，分类器个数少，存储开销和测试时间比OvO短。缺点是，类别很多时，训练时间长，误差大。

2.2，不平衡数据处理

数据不平衡是指数据集中各类样本数量不均衡的情况。常用不平衡处理方法有采样和代价敏感学习。

*采样：欠采样、过采样和综合采样的方法。
代价敏感学习：代价敏感学习是指为不同类别的样本提供不同的权重，从而让机器学习模型进行学习的一种方法。*
比如风控或者入侵检测，这两类任务都具有严重的数据不平衡问题，可以在算法学习的时候，为少类样本设置更高的学习权重，从而让算法更加专注于少类样本的分类情况，提高对少类样本分类的查全率，但是也会将很多多类样本分类为少类样本，降低少类样本分类的查准率。**

2.3，多分类器

其中第一列为多分类的类别，第一行为多个分类器，可以是SVM，PAL等。
每一行不能线性相关，即不能相互表示；每一列不能全是0或1。
OvO和OvA是多分类器的一种特例。
我们根据每个二分类器的分类结果，对比矩阵中的形式的分类，进行确认。
通常采用：汉明距离（不同+1，相同+0）。

2.4，如何学习

学习的算法类似于刚才在多类支持向量机中讨论的思想，其公式如下：

其中，表示在多个二分器中得到的01序列，
表示在矩阵中的汉明距离。
求解方法： 结构化预测
上述问题可以写成：

进而

故开始问题等价于：

由于max max不好求，我们可以转换为指数形式再求对数：

其中，为损失函数，取0-1损失函数(zero-one loss)。

Original: https://blog.csdn.net/qq_42192693/article/details/121383795
Author: 燕双嘤
Title: 机器学习：多分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/662354/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【yolo5】目标检测数据集制作

目录 1.先验知识 2. VOC和COCO数据集： 2.1 VOC形式及其数据结构XML特点（好像可以使用py库中工具直接进行清洗） 2.1.1 VOC数据集的组织结构如下所示 2…

人工智能 2023年7月10日
0076
常见的归一化方式介绍与实现

数据归一化（数据标准化）概念：数据标准化（归一化）是处理数据挖掘的一项基本工作，不同的评价指标往往具有不同的量纲（举例：对于房价评价时，楼房面积、房价、楼层等信息。举例2：对于个…

人工智能 2023年7月17日
0078
Scikit-learn库中，回归性能评估所用的score函数含义详解

一.LinearRegression().score方法关于LinearRegression().score(self, X, y, sample_weight=None)方法，…

人工智能 2023年6月16日
00129
ResNet网络残差块的作用

ResNet简单介绍 ResNet是15年提出的经典网络了。在ResNet提出之前，人们发现当模型层数提升到一定程度后，再增加层数就不再能提升模型效果了——这就导致深度学习网络看似…

人工智能 2023年6月16日
0060
一图学Python

网上有这样一张图片，信息量很大，通常会被配上标题”一张图让你学会Python“：这张图流传甚广，但我没有找到明确的出处，图片上附带了 UliPad 的作者…

人工智能 2023年6月4日
0041
合宙AIR32F103CBT6刷回CMSIS-DAP固件以及刷ST-LINK V2-1固件方法

合宙AIR32F103CBT6刷回CMSIS DAP固件和DAP升级固件以及刷ST-LINK V2-1固件方法 📌官方介绍文档: https://wiki.luatos.com/c…

人工智能 2023年7月27日
0065
什么是知识图谱

1.1 什么是知识图谱知识图谱是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法[1]。知识图谱由节点和边组成。节点可以是实体，如一个人、一本书等，或是抽象的概念，如…

人工智能 2023年6月1日
0094
大数据分析如何帮助企业成长

您是否知道，95%的企业表示管理非结构化数据对他们的业务来说是个问题？不幸的是，我们今天生成的所有数据都是非结构化的。因此，分析数据既困难又昂贵，这解释了为什么它是大多数公司的主…

人工智能 2023年6月11日
0081
NeRF数据集准备–毕设记录

小白学习记录毕业设计《基于图像的农作物植株三维重建》涉及用深度学习进行三维重建，由于长春疫情影响无法拍摄农作物植株照片，因此只能用blender渲染合成数据集进行训练。三维模型…

人工智能 2023年6月16日
0099
终于有人把SaaS讲明白了

导读：如果把云计算简单想象成一台大电脑，那么IaaS是直接给你一台裸机，PaaS是安装好操作系统和基础运行环境再给你，而SaaS则很像网吧，你要玩的游戏已经装好在电脑里面，点击图标…

人工智能 2023年6月24日
0065
TensorFlow深度学习！构建神经网络预测股票！

💡 作者：韩信子@ShowMeAI📘 深度学习实战系列：https://www.showmeai.tech/tutorials/42📘 TensorFlow 实战系列：https:…

人工智能 2023年6月25日
0094
pandas 处理csv的列数据

目的：做一个很简单的功能，计算显示hit列数字之和，即80=20+20+25+15. datetime host hit volume 0 2018/7/24 weibo.com…

人工智能 2023年7月7日
00110
Matlab实现图像频率域滤波增强

本文章实现在Matlab环境下实现频率域增强算法，并应用设计的算法实现对图像的增强。一.目的二.内容三.实现 1.了解图像的频域特性；2.理解图像频率域滤波的基本原理；3.掌…

人工智能 2023年6月22日
0067
RBF神经网络-高斯核函数

文章目录一、RBF神经网络介绍 * 1.1高斯函数代码实例高斯核函数中的Gamma 一、RBF神经网络介绍从对函数的逼近功能而言，神经网络可分为全局逼近和局部逼近。局部逼近…

人工智能 2023年5月28日
0081
cuda与torch的安装匹配

此博客主要用于记录个人的问题解决。如果能帮到路过的朋友那再好不过啦。我在某网站的评论所分享的链接下载的torch，似乎是阿里的源。是1.10.1的torch。 pip show…

人工智能 2023年7月26日
0059
You Only Look Once: Unified, Real-Time Object Detection（Yolov1）论文详细解读

目录前言 1. 简介 2. 思想设计 3. 模型设计 * 3.1 网络 3.2 训练 3.3 预测 4. 实验结果前言研究目标检测相关的论文，将其文章梳理总结如下对应的ppt…

人工智能 2023年7月10日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31