多标签多分类相关

2023年6月4日下午2:42 • 人工智能 • 阅读 85

一、单标签多分类

单标签二分类这种问题是我们最常见的算法问题，主要是指label 标签的取值只有两种，并且算法中只有一个需要预测的label标签；

直白来讲就是每个实例的可能类别只有两种(A or B)；此时的分类算法其实是在构建一个分类线将数据划分为两个类别。

常见的算法：Logistic、SVM、KNN、决策树等

1、单标签多分类问题其实是指待预测的label标签只有一个，但是 label标签的取值可能有多种情况；直白来讲就是每个实例的可能

类别有K种(t1,t2,…tk,k≥3)；

2、常见算法：Softmax、SVM、KNN、决策树(集成学习 —-RF(Bagging)、Boosting(Adaboost、GBDT)；XGBo

3、是一个多分类的问题，我们可以将这个待求解的问题转换为二分类算法的延伸，即将多分类任务拆分为若干个二分类任务求解，

具体的策略如下：

• One-Versus-One(ovo)：一对一

• One-Versus-All / One-Versus-the-Rest(ova/ovr)：一对多

• Error Correcting Output codes(纠错码机制)：多对多

• 原理：将K个类别中的两两类别数据进行组合，然后使用组合后的数据训练出来一个模型，从而产生K(K-1)/2个分类器，将这些分类器的结果进行融合，并将分类器的预测结果使用多数投票的方式输出最终的预测结果值。

1、ovr与softmax的区别：

① softmax 每一次训练模型用的是整个训练数据中的某一类别的数据，从而的该类别的权重系数，通过测试集计算各个类型权

重的预测值，取最大的预测值(或者概率)的类型作为预测类型。

② ovr 每一次是代入所有的训练集数据来训练子模型，取出结果为正例的类

别(多个正例取最大值)。

原理：将模型构建应用分为两个阶段：编码阶段和解码阶段；编码阶段中对K个类别中进行M次划分，每次划分将一部分数据分为正类，一部分数据分为反类，每次划分都构建出来一个模型，模型的结果是在空间中对于每个类别都定义了一个点；解码阶段中使用训练出来的模型对测试样例进行预测，将预测样本对应的点和类别之间的点求距离，选择距离最近的类别作为最终的预测类别。

二、多标签多分类

1、多标签多分类这类问题的解决方案可以分为两大类：

1) 转换策略(Problem Transformation Methods)；

• Binary Relevance(first-order) ——— y标签之间相互独立

• Classifier Chains(high-order) ——— y标签之间相互依赖(链式)

• Calibrated Label Ranking(second-order) ——— 了解

2) 算法适应(Algorithm Adaptation)。

• ML-kNN

• ML-DT

1、转换策略思想：将多标签多分类问题转化为多个单标签二分类(通过哑编码转换 >>>>>>> -1 ， +1 )的子模型,将这些子模型的结果合并。

转化为多个单标签二分类
Binary Relevance 与 Classifier Chains区别
ML-kNN的思想：对于每一个实例来讲，先获取距离它最近的k个实例，然后使用这些实例的标签集合，通过最大后验概率(MAP)来

断这个实例的预测标签集合的值。

最大后验概率估计(MAP)贝叶斯估计与最大似然估计(MLE)区别？

答：最大后验概率(MAP)贝叶斯估计：其实就是在最大似然估计(MLE，样本划分目标属性Y的概率不是处处相等)中加入了这个要估计量的先验概率分布(即样本划分目标属性Y的概率不是处处相等)。

三、API的使用

1、单标签多分类

2、多标签多分类

Original: https://www.cnblogs.com/cs-markdown10086/p/14774163.html
Author: NEU_ShuaiCheng
Title: 多标签多分类相关

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/568514/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

中文NER的那些事儿2. 多任务，对抗迁移学习详解&代码实现

第一章我们简单了解了NER任务和基线模型Bert-Bilstm-CRF基线模型详解&代码实现，这一章按解决问题的方法来划分，我们聊聊多任务学习，和对抗迁移学习是如何优化实体…

人工智能 2023年6月4日
0073
Python向已有Excel工作表sheet写入数据框dataframe

使用Python向已有Excel工作表sheet写入数据框dataframe数据项目场景：通常使用SQL、Python处理完数据后会将需要导出的数据输出成CSV格式，然后必要时…

人工智能 2023年7月8日
00133
png背景变黑原理解析

最近有个项目，在加载同事提供的png图像后，发现图像显示全黑，一开始排查流程，使用自己的png测试却正常。于是有了这次的探索记录。随手百度出来，很多人有这个疑问，但是大部分人的解…

人工智能 2023年7月20日
00248
Pytorch 风格迁移（Style transfer）

Pytorch 风格迁移 0. 环境介绍环境使用 Kaggle 里免费建立的 Notebook 教程使用李沐老师的动手学深度学习网站和视频讲解小技巧：当遇到函数看不懂的时…

人工智能 2023年7月21日
0066
用pytorch实现神经网络

章节设置：一、实现自带数据并自定义神经网络进行训练二、使用自带的模型进行训练以及测试三、用自己定义神经网络全局设定，指定了设备事实证明，即使是1650这样的显卡也会比cpu运行…

人工智能 2023年7月20日
0069
门店销售数据分析

本文以优衣库门店销售数据为例，利用数据分析工作经验及业务理解对门店销售数据进行数据分析展示。结论先行-数据分析报告结论： 1.用户更加偏向于在周末的时间段内进行消费，周末的日平均…

人工智能 2023年6月19日
0092
改进粒子速度和位置更新公式的粒子群优化算法

文章目录一、理论基础 * 1、相关工作 – 1.1 标准粒子群优化算法 1.2 粒子速度更新公式的改进 1.3 粒子位置更新公式的改进 2、改进算法 – …

人工智能 2023年6月26日
00101
Apriori算法详细和例题演示

想获取PPT加Q1271370903 数据挖掘频繁项集挖掘方法 1.引入 ; 1.2关联规则的基本概念（1）关联规则挖掘用来发现大量数据中项集之间有趣的关联联系。如果两项或多项属…

人工智能 2023年6月19日
0080
分布式数据库TiDB介绍

TiDB 是一款定位于在线事务处理 / 在线分析处理（ HTAP: Hybrid Transactional/Analytical Processing）的融合型数据库产品，实现了…

人工智能 2023年6月26日
0065
OpenCV（25）轮廓检测（轮廓提取、属性、近似轮廓、外接矩形和外接圆）

目录一、轮廓检测基础理论 1、轮廓概述 2、API介绍 1、cv.findContours函数（查找轮廓） 2、cv.drawContours函数（画出轮廓）检测轮廓并画出：（…

人工智能 2023年6月18日
0080
图像分类超详细的pytorch实现

1、定义各种参数下面举例三种常见的参数 batch_size = 8 learning_rate = 1e-4 epoches = 100 2、利用官方的数据加载指定训练、验证…

人工智能 2023年7月22日
0043
数据仓库建设原则规范

一、数据模型架构原则 1. 数仓分层原则优秀可靠的数仓体系,往往需要清晰的数据分层结构,即要保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路过长。那么问题来了,一直在讲数仓要…

人工智能 2023年7月17日
0062
数据可视化与matplotlib

数据可视化概述：什么是数据可视化：数据可视化是借助图形化的手段将一组数据以图形的形式表示，并利用数据分析和开发工具发现其中未知信息的数据处理过程。常见的数据可视化方式：1.折线图…

人工智能 2023年7月17日
0047
[Pyecharts]数据可视化大屏展示

【Pyecharts】大屏展示-练习前言 * 1.条件： 2.代码及展示 – 时间序列曲线图时间轮播 24小时轮播 1：2：3 拥堵路段词云图拥堵榜、通畅榜水球…

人工智能 2023年7月15日
0066
参数估计的均方误差（MSE），偏置（Bias）与方差（Variance）分解，无偏估计

均方误差，偏置和方差都是统计学中非常重要的概念。对于机器学习来说，MSE一般是计算两个东西的MSE，一个是参数估计的MSE，一个是模型预测的MSE。我主要关注的是参数估计的MSE…

人工智能 2023年6月15日
00144
Pytorch中‘内存共享’和‘内存连续’特性总结

文章目录前言 1、前置基础知识 * 1.1.Tensor的结构 1.2.内存共享和内存连续API介绍 2、内存连续性 * 2.1.维度变换操作(transpose, permut…

人工智能 2023年7月22日
00102

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

多标签多分类相关

一、单标签多分类

二、多标签多分类

三、API的使用

大家都在看