多标签分类与多任务学习

2023年7月2日上午10:48 • 人工智能 • 阅读 45

多标签分类与视觉属性预测

0. 问题概述

对于标签分类问题，表示事物本身可以分为多个类别，但是对于每一个样本存在至少一个类别，例如分类猫、狗、植物、动物。一个样本是猫的同时，又属于动物。因此就不能再像以往的模型一样，输出用 softmax激活函数激活，因为我们最终的输出标签可能同时有很多的类，例如鸟类有羽毛和啄。

1. 搭建模型

通常对多标签任务可以采取两种网络模型，一种是直接输出一个全连接层分支，最后一层输出的神经元数应与标签数量相同，使用 Sigmoid函数激活，将数值映射在 0~1之间。不像 Softmax函数，最后一层输出层数值之和并不等于1，而是全部都介于0与1之间，这样我们便可以设置一个阈值，当某类输出层数值大于这个阈值，则判断该标签为Positive，反之为Negative。模型如下图所示：

假设我们的图像属性类别为C ∈ { c 1 , c 2 , . . . , c N } C \in {c_1,c_2,…,c_N}C ∈{c 1 ,c 2 ,…,c N }，N N N个标签类。最后一层的输出为f ∈ R b a t c h × N f \in \mathbb{R}^{batch \times N}f ∈R b a t c h ×N，经过 Sigmoid函数激活输出的值在 0-1之间，则判断属性时只要设置阈值t h r e s h thresh t h r e s h，大于阈值表示该标签存在，否则不存在：
c i = { 1 f i ≥ t h r e s h 0 f i < t h r e s h c_i = \left{\begin{matrix} 1 & f_i \geq thresh \ 0 & f_i < thresh \end{matrix}\right.c i ={1 0 f i ≥t h r e s h f i <t h r e s h

; 2. 损失函数与标签数据平衡

由于最后的激活函数是 Sigmoid函数，因此我们需要用二分类的损失函数：Binary Cross Entropy。假设预测为x x x，标签为y y y，x x x为经过激活函数 Sigmoid的结果。则我们可以构建损失函数：

l ( x n , y n ) = − ω n [ y n ⋅ log ⁡ x n + ( 1 − y n ) ⋅ log ⁡ ( 1 − x n ) ] l(x_n,y_n)=-\omega_n \begin{bmatrix} y_n\cdot \log x_n +(1-y_n) \cdot \log(1-x_n) \end{bmatrix}l (x n ,y n )=−ωn [y n ⋅lo g x n +(1 −y n )⋅lo g (1 −x n )]

我们会考虑到，不同的标签会存在正样本与负样本失衡的情况，例如300张图像中，红色翅膀属性有100，蓝色翅膀属性有200，正负样本不均匀，因此需要我们调节正负样本比例，但是数据不好扩增，因此我们可以修改损失函数：

l n , c = − ω n , c [ p c y n , c ⋅ log ⁡ x n , c + ( 1 − y n , c ) ⋅ log ⁡ ( 1 − x n , c ) ] l_{n,c}=-\omega_{n,c} \begin{bmatrix}p_c y_{n,c}\cdot \log x_{n,c} +(1-y_{n,c}) \cdot \log(1-x_{n,c})\end{bmatrix}l n ,c =−ωn ,c [p c y n ,c ⋅lo g x n ,c +(1 −y n ,c )⋅lo g (1 −x n ,c )]

其中ω \omega ω为调节不同属性的重要性，例如我希望模型更倾向于红色翅膀属性预测的正确性，可以在该类下调大比例。p p p为调节正负样本均衡的参数，例如在红色翅膀属性下，有100个正例，400个负例，则在该属性下的p p p我们可以设置为：400 100 = 4 \frac{400}{100}=4 1 0 0 4 0 0 =4。在 Pytorch框架中函数 torch.nn.BCEWithLogitsLoss实现了该功能，其中ω \omega ω对应超参w e i g h t weight w e i g h t，p p p对应超参 pos_weight。更多细节见BCEWithLogitsLoss。

3. 视觉属性预测

基于深度学习的视觉属性通常预测方法包括 多标签分类与 多任务学习，在TPAMI 2018一篇文章中提到：

Attribute learning problem can be formulated in the multi-task learning framework, where each task corresponds to learning one semantic attribute.

属性学习问题可以在多任务学习框架中形成，每个任务对应学习一个语义属性。

即可以在最后一层连接多个softmax二分类层或者用Sigmoid激活向量做多属性预测，通常其也会加入原物体类别信息，这样是防止偏见性。例如海豹在海水中，蓝色并不能作为海豹的属性，加入人为先验会更好一些，当然也可以直接进行属性预测。

在论文MAAD-Face: A Massively Annotated Attribute Dataset for Face Images中提供了人脸属性的标注，数据集来源于VGGFace2，在该数据集上训练了一个人脸属性模型，具体便是采用 多任务学习的方法。Backbone便采用了Resnet50，最后的特征共享，并行输出多个全连接层。例如性别一栏，人只有男女之分，因此我不需要对男女进行二分类，而是直接分类性别，非男即女。种族也是，只有黄种人，白种人和黑种人，这个分支只输出3类。而人的胡子却不一样，有的人会同时有山羊胡和痄腮胡等，因此需要多个二分网络，最终将多个任务的交叉熵loss直接求和即可。这里值得提及一下pytorch的多输出网络方便的实现方法，以及多任务交叉熵Loss的写法，首先大概展示下网络的架构，与论文Multi-task deep neural network for multi-label learning中一个架构相似，如下图(a)所示：

下方代码主要部分是函数 _make_multi_output，这里需要注意的是 nn.ModuleList，因为循环中没有顺序，所以不能用 nn.Sequential。如果不加 nn.ModuleList而只用列表存储，则在 model.cuda时不会将列表中的模型参数放入GPU，因为列表不会被识别为pytorch的方法。

class ResNet(nn.Module):

    def __init__(self, block, layers, attribute_classes):
        self.inplanes = 64
        super(ResNet, self).__init__()

        self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3,
                               bias=False)
        self.bn1 = nn.BatchNorm2d(64)
        self.relu = nn.ReLU(inplace=True)
        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
        self.layer1 = self._make_layer(block, 64, layers[0])
        self.layer2 = self._make_layer(block, 128, layers[1], stride=2)
        self.layer3 = self._make_layer(block, 256, layers[2], stride=2)
        self.layer4 = self._make_layer(block, 512, layers[3], stride=2)
        self.avgpool = nn.AvgPool2d(7, stride=1)

        self.layers = self._make_multi_output(block, attribute_classes)

        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')
            elif isinstance(m, nn.BatchNorm2d):
                nn.init.constant_(m.weight, 0.001)
                nn.init.constant_(m.bias, 0)

    def _make_layer(self, block, planes, blocks, stride=1):
        downsample = None
        if stride != 1 or self.inplanes != planes * block.expansion:
            downsample = nn.Sequential(
                nn.Conv2d(self.inplanes, planes * block.expansion,
                          kernel_size=1, stride=stride, bias=False),
                nn.BatchNorm2d(planes * block.expansion),
            )

        layers = []
        layers.append(block(self.inplanes, planes, stride, downsample))
        self.inplanes = planes * block.expansion
        for i in range(1, blocks):
            layers.append(block(self.inplanes, planes))

        return nn.Sequential(*layers)

    def _make_multi_output(self,block,attribute_classes):
"""
        Created by Ruoyu Chen on 07/15/2021
"""
        layers = []
        for i in range(attribute_classes):
            layers.append(nn.Linear(512*block.expansion, 2))

        return nn.ModuleList(layers)

    def forward(self, x):
        x = self.conv1(x)
        x = self.bn1(x)
        x = self.relu(x)
        x = self.maxpool(x)

        x = self.layer1(x)
        x = self.layer2(x)
        x = self.layer3(x)
        x = self.layer4(x)

        x = self.avgpool(x)
        x = x.view(x.size(0), -1)

        outs = []
        for layer in self.layers:
            outs.append(layer(x))

        return outs

损失函数需要注意的是outs和labels的shape：

class MultiBranchLabelLoss(nn.Module):
    def __init__(self):
        super(MultiBranchLabelLoss, self).__init__()
        self.criterion = nn.CrossEntropyLoss()
    def forward(self, outs, labels):
"""
        outs: List[Torch_size(batch,2)]
        labels: Torch_size(batch, attributes)
"""
        loss = 0
        for out,label in zip(outs,labels.t()):

            criterion_loss = self.criterion(out, label)
            loss += criterion_loss

        return loss

4. 物体检测的属性数据集

最早的关于物体检测中的属性分布，原网站https://vision.cs.uiuc.edu/attributes/，基于Pasc VOC2008标注，2009年的一篇文章。

最新根据CVPR2021的一篇文章Learning To Predict Visual Attributes in the Wild的统计，有如下的最新的物体检测相关属性数据集：

; 5. 多任务学习

Multitask Learning: A Knowledge-Based Source of Inductive Bias

; 6. 根据多标签学习训练Pasc VOC2008属性

首先，根据pasc voc2008数据集，下载：https://www.kaggle.com/sulaimannadeem/pascal-voc-2008

代码及结果请见我的github：https://github.com/RuoyuChen10/Multi-label-on-VOC2008-attributes

Original: https://blog.csdn.net/Exploer_TRY/article/details/118910514
Author: CExploer
Title: 多标签分类与多任务学习

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/665282/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

100个Python实战项目（九）制作贪吃蛇游戏（评论抽奖送书）

💂 个人网站:【海拥】【摸鱼小游戏】【开发文档导航】 🤟 风趣幽默的人工智能学习网站：👉人工智能 💅 想寻找共同学习交流的小伙伴，请点击【全栈技术交流群】 *💬 免费且实用…

人工智能 2023年7月5日
0047
On the Integration of Self-Attention and Convolution

论文链接：https://arxiv.org/pdf/2111.14556.pdf本文首先证明了k×k的传统卷积可以分解为k 2 k^2 k 2个单独的1×1卷积。然后，将self…

人工智能 2023年5月28日
0082
yolox目标检测实现人脸识别换搞笑图

今天介绍的是一个使用yolox目标检测算法，实现换人脸的过程。首先是换人脸视频的准备，我们可以找一些比较的热门视频作为素材，比如”华强买瓜”。使用视频抽…

人工智能 2023年7月11日
0063
连夜看了30多篇改进YOLO的中文核心期刊我似乎发现了一个能发论文的规律

这篇博文只适合想快速发期刊且基础不是太好的同学看看找找灵感🌟，如果想发的是Sci或者顶会看我这篇博文意义不大,以下也仅仅代表我个人看法👍。 🌟想了解YOLO系列算法更多进阶教程欢迎…

人工智能 2023年6月15日
0068
Apollo_Lattice palnner

Lattice与Piecewise方法明显的不同，Lattice是沿参考线分解，横向运动（l,l’,l”），纵向运动（s,s’,s”…

人工智能 2023年6月2日
0098
编辑距离与字符错误率CER

在语音识别场景中，字符错误率（Character Error Rate，CER）是衡量语音识别效果的一个重要指标。下文将介绍CER的原理，并且给出python实现的代码。说到CE…

人工智能 2023年5月23日
0074
cuda11.0版本的pytorch安装教程

目录官网安装添加源安装安装pytorch 测试是否安装成功判断是否是cuda版本官网安装 pytorch官网：pytorch官网复制这一段命令，改成自己需要的版本。或…

人工智能 2023年7月20日
00114
扩散模型原理和pytorch代码实现初学资料汇总

1.扩散模型和分数匹配模型的资源和论文的汇总 https://github.com/heejkoo/Awesome-Diffusion-Models 是一个github网站 2. …

人工智能 2023年6月22日
0070
ONNX模型tensor shapes inference和Flops统计工具

基本应用 onnx提供的shape_inference的结果经常不完整, 比如这个ssd-12.onnx(models/ssd-12.onnx at main · onnx/mod…

人工智能 2023年6月26日
0080
1 使用matplotlib的python数据可视化——简单图表的绘制（线形图、柱形图、饼图、条形图、散点图和子图）

目录一、使用plot()绘制直线图 1. 代码实例：绘制直线图二、使用plot()绘制折线图 1. 代码实例1：绘制折线图 2. 代码实例2：绘制折线+曲线三、使用bar()…

人工智能 2023年7月16日
0067
Python深拷贝与浅拷贝区别

可变类型如list、dict等类型，改变容器内的值，容器地址不变。不可变类型如元组、字符串，原则上不可改变值。如果要改变对象的值，是将对象指向的地址改变了浅拷贝对于可变对…

人工智能 2023年6月12日
0079
RuntimeError_ Input type (torch.FloatTensor) and weight type (torch.cuda.FloatTensor)

方案一：检查网络和数据是否都在GPU上 RuntimeError:输入类型(torch.FloatTensor)和权重类型(torch.cuda.FloatTensor)应该相同，…

人工智能 2023年6月16日
0078
pytorch 中 squeeze 和unsqueeze函数

1. torch.squeeze() 函数 : 作用：移除指定或所有维数为1的维度，从而得到维度减少的张量解释一下： x=torch.zeros(5,1,1,1) print(x…

人工智能 2023年7月23日
0040
【深度学习基础知识 – 41】深度学习快速入门学习资料

快开学了，给实验室师弟师妹们推荐一些深度学习快速入门的学习资料：书籍《统计学习方法》- 李航。入门首选书籍，深入浅出，易于理解。《机器学习实战》，又称蜥蜴书，地位等同于《C+…

人工智能 2023年5月30日
0070
基于MATLAB的边缘检测算法实现

MATLAB边缘检测一、目的：熟悉边缘检测原理，并运用matlab软件实现图像的canny边缘检测，体会canny边缘检测的优缺点。二、内容：编写matlab程序，实现对l…

人工智能 2023年7月18日
0081
③【Maven】创建Maven工程，解读核心配置。

个人简介：Java领域新星创作者；阿里云技术博主、星级博主、专家博主；正在Java学习的路上摸爬滚打，记录学习的过程~个人主页：.29.的博客学习社区：进去逛一逛~ 创建Maven…

人工智能 2023年7月31日
0052

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30