【多任务学习】Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics

2023年6月16日上午9:16 • 人工智能 • 阅读 56

·阅读摘要：
本文提出针对CV领域的多任务模型，设置一个可以学习损失权重的损失层，可以提高模型精度。
·参考文献：
[1] Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics

个人理解：我们使用传统的多任务时，损失函数一般都是各个任务的损失相加，最多会为每个任务的损失前添加权重系数。但是这样的超参数是很难去调参的，代价大，而且很难去调到一个最好的状态。最好的方式应该是交给深度学习。

论文最重要的部分在损失函数的设置与推导。这对我们优化自己的多任务学习模型有指导意义。

[1] Homoscedastic uncertainty as task-dependent uncertainty (同方差不确定性)

作者的数学模型通过贝叶斯模型建立。作者首先提出贝叶斯建模中存在两类不确定性：

· 认知不确定性（Epistemic uncertainty）：由于缺少训练数据而引起的不确定性
· 偶然不确定性（Aleatoric uncertainty）：由于训练数据无法解释信息而引起的不确定性

而对于偶然不确定性，又分为如下两个子类：

· 数据依赖地（Data-dependant）或异方差（Heteroscedastic）不确定性
· 任务依赖地（Task-dependant）或同方差（Homoscedastic）不确定性

多任务中，任务不确定性捕获任务间相关置信度，反应回归或分类任务的内在不确定性。

【注】本篇论文的假设，是基于同方差不确定性的。关于同方差不确定性和异方差不确定性的通俗解释，可以参考知乎问题：https://www.zhihu.com/question/278182454/answer/398539763

[2] Multi-task likelihoods (多任务似然)

基于极大似然估计，假设 f W \mathbf{f}^{\mathbf{W}}f W为网络输出，W W W为该项输出的权重，则对于回归任务有：
p ( y ∣ f W ( x ) ) = N ( f W ( x ) , σ 2 ) p(y∣\mathbf{f}^{\mathbf{W}}(x))=N(\mathbf{f}^{\mathbf{W}}(x),σ^2 )p (y ∣f W (x ))=N (f W (x ),σ2 )
对于分类任务有：
p ( y ∣ f W ( x ) ) = S o f t m a x ( f W ( x ) ) p(y∣\mathbf{f}^{\mathbf{W}} (x))=Softmax(\mathbf{f}^{\mathbf{W}} (x))p (y ∣f W (x ))=S o f t m a x (f W (x ))
多任务的概率：
p ( y 1 , … , y K ∣ f W ( x ) ) = p ( y 1 ∣ f W ( x ) ) … p ( y K ∣ f W ( x ) ) p(y_1,…,y_K ∣\mathbf{f}^{\mathbf{W}}(x))=p(y_1 ∣\mathbf{f}^{\mathbf{W}} (x))…p(y_K ∣\mathbf{f}^{\mathbf{W}} (x))p (y 1 ,…,y K ∣f W (x ))=p (y 1 ∣f W (x ))…p (y K ∣f W (x ))
例如对于回归任务来说，极大似然估计转化为最小化负对数：
l o g p ( y ∣ f W ( x ) ) ∝ − 1 2 σ 2 ∥ ∥ y − f W ( x ) ∥ ∥ 2 − l o g σ log{p(y∣\mathbf{f}^{\mathbf{W}}(x))}∝− \frac{1}{2σ^2} {∥∥ y−\mathbf{f}^{\mathbf{W}} (x) ∥∥}^2 −log\sigma l o g p (y ∣f W (x ))∝−2 σ2 1 ∥∥y −f W (x )∥∥2 −l o g σ
其中 σ \sigma σ 表示测量噪声的方差。

双任务:

假设是两个回归任务，那么概率如下：

p ( y 1 , y 2 ∣ f W ( x ) ) = p ( y 1 ∣ f W ( x ) ) ⋅ p ( y 2 ∣ f W ( x ) ) = N ( y 1 ; f W ( x ) , σ 1 2 ) ⋅ N ( y 2 ; f W ( x ) , σ 2 2 ) p(y_1 ,y_2 ∣\mathbf{f}^{\mathbf{W}} (x)) =p(y_1 ∣\mathbf{f}^{\mathbf{W}} (x))⋅p(y_2 ∣\mathbf{f}^{\mathbf{W}} (x))=N(y_1;\mathbf{f}^{\mathbf{W}} (x),σ_1^2 )⋅N(y_2 ;\mathbf{f}^{\mathbf{W}} (x),σ_2^2 )p (y 1 ,y 2 ∣f W (x ))=p (y 1 ∣f W (x ))⋅p (y 2 ∣f W (x ))=N (y 1 ;f W (x ),σ1 2 )⋅N (y 2 ;f W (x ),σ2 2 )

为了优化我们的 Loss 函数 L ( W , σ 1 , σ 2 ) \mathcal{L}\left(\mathbf{W}, \sigma_{1}, \sigma_{2}\right)L (W ,σ1 ,σ2 )，取最小化负对数：

= − l o g p ( y 1 , y 2 ∣ f W ( x ) ) =−logp(y_1,y_2 ∣\mathbf{f}^{\mathbf{W}} (x))=−l o g p (y 1 ,y 2 ∣f W (x ))

∝ 1 2 σ 1 2 ∥ y 1 − f W ( x ) ∥ 2 + 1 2 σ 2 2 ∥ y 2 − f W ( x ) ∥ 2 + l o g σ 1 σ 2 ∝ {\frac{1}{2σ_1^2} }∥y_1−\mathbf{f}^{\mathbf{W}} (x) ∥^2 + \frac{1}{2σ_2^2} ∥ y_2 −\mathbf{f}^{\mathbf{W}} (x) ∥^2 +logσ_1 σ_2 ∝2 σ1 2 1 ∥y 1 −f W (x )∥2 +2 σ2 2 1 ∥y 2 −f W (x )∥2 +l o g σ1 σ2

= 1 2 σ 1 2 L 1 ( W ) + 1 2 σ 2 2 L 2 ( W ) + l o g σ 1 σ 2 = \frac{1}{2σ_1^2} L_1 (W)+ \frac{1}{2σ_2^2} L_2 (W)+logσ_1σ_2=2 σ1 2 1 L 1 (W )+2 σ2 2 1 L 2 (W )+l o g σ1 σ2

假设是一个回归任务和一个分类任务，仍然可以推导出上述结论：

= 1 2 σ 1 2 L 1 ( W ) + 1 2 σ 2 2 L 2 ( W ) + l o g σ 1 σ 2 = \frac{1}{2σ_1^2} L_1 (W)+ \frac{1}{2σ_2^2} L_2 (W)+logσ_1σ_2=2 σ1 2 1 L 1 (W )+2 σ2 2 1 L 2 (W )+l o g σ1 σ2

所以，根据整个多任务问题的联合 Loss 形式，那么我们需要优化的参数不仅有 W W W 还有 σ 1 \sigma_{1}σ1 和 σ 2 \sigma_{2}σ2 。

各个公式的证明

【多任务学习】Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics

; pytorch版代码实现

首先要明确，损失函数中的参数不仅有 W W W 还有 σ 1 \sigma_{1}σ1 和 σ 2 \sigma_{2}σ2 都是需要经过反向传播来学习的。

代码如下：


import math

import pylab
import numpy as np

import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader

def gen_data(N):
    X = np.random.randn(N, 1)
    w1 = 2.

    b1 = 8.

    sigma1 = 1e1
    Y1 = X.dot(w1) + b1 + sigma1 * np.random.randn(N, 1)
    w2 = 3
    b2 = 3.

    sigma2 = 1e0
    Y2 = X.dot(w2) + b2 + sigma2 * np.random.randn(N, 1)
    return X, Y1, Y2

class TrainData(Dataset):

    def __init__(self, feature_num, X, Y1, Y2):

        self.feature_num = feature_num

        self.X = torch.tensor(X, dtype=torch.float32)
        self.Y1 = torch.tensor(Y1, dtype=torch.float32)
        self.Y2 = torch.tensor(Y2, dtype=torch.float32)

    def __len__(self):
        return self.feature_num

    def __getitem__(self, idx):
        return self.X[idx,:], self.Y1[idx,:], self.Y2[idx,:]

class MultiTaskLossWrapper(nn.Module):
    def __init__(self, task_num, model):
        super(MultiTaskLossWrapper, self).__init__()
        self.model = model
        self.task_num = task_num
        self.log_vars = nn.Parameter(torch.zeros((task_num)))

    def forward(self, input, targets):

        outputs = self.model(input)

        precision1 = torch.exp(-self.log_vars[0])
        loss = torch.sum(precision1 * (targets[0] - outputs[0]) ** 2. + self.log_vars[0], -1)

        precision2 = torch.exp(-self.log_vars[1])
        loss += torch.sum(precision2 * (targets[1] - outputs[1]) ** 2. + self.log_vars[1], -1)

        loss = torch.mean(loss)

        return loss, self.log_vars.data.tolist()

class MTLModel(torch.nn.Module):
    def __init__(self, n_hidden, n_output):
        super(MTLModel, self).__init__()

        self.net1 = nn.Sequential(nn.Linear(1, n_hidden), nn.ReLU(), nn.Linear(n_hidden, n_output))
        self.net2 = nn.Sequential(nn.Linear(1, n_hidden), nn.ReLU(), nn.Linear(n_hidden, n_output))

    def forward(self, x):
        return [self.net1(x), self.net2(x)]
np.random.seed(0)

feature_num = 100
nb_epoch = 2000
batch_size = 20
hidden_dim = 1024

X, Y1, Y2 = gen_data(feature_num)
pylab.figure(figsize=(3, 1.5))
pylab.scatter(X[:, 0], Y1[:, 0])
pylab.scatter(X[:, 0], Y2[:, 0])
pylab.show()

train_data = TrainData(feature_num, X, Y1, Y2)
train_data_loader = DataLoader(train_data, shuffle=True, batch_size=batch_size)

model = MTLModel(hidden_dim, 1)

mtl = MultiTaskLossWrapper(2, model)
mtl

optimizer = torch.optim.Adam(mtl.parameters(), lr=0.001, eps=1e-07)

loss_list = []
for t in range(nb_epoch):
    cumulative_loss = 0

    for X, Y1, Y2 in train_data_loader:

        loss, log_vars = mtl(X, [Y1, Y2])

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        cumulative_loss += loss.item()

    loss_list.append(cumulative_loss/batch_size)
pylab.plot(loss_list)
pylab.show()

print(log_vars)
[4.2984442710876465, -0.2037072628736496]

print([math.exp(log_var) ** 0.5 for log_var in log_vars])
[8.578183137529612, 0.9031617364804738]

【注】假设 L o s s = a ∗ L 1 ( W ) + b ∗ L 2 ( W ) Loss = a * L_1(W) + b * L_2(W)L o s s =a ∗L 1 (W )+b ∗L 2 (W )，我们这样简单的学习参数a a a和b b b是不行的，这样Loss会越来越小，永无止境。我们需要设置L o s s Loss L o s s有正则项，使得它有最小值，这样学习才对。

Original: https://blog.csdn.net/qq_43592352/article/details/124715562
Author: 征途黯然.
Title: 【多任务学习】Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/622969/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

《自然语言处理：基于预训练模型的方法》读书笔记：第1章绪论

目录第1章绪论 1.1 自然语言处理的概念 1.2 自然语言处理的难点 1.2.1 抽象性 1.2.2 组合性 1.2.3 歧义性 1.2.4 进化性 1.2.5 非规范性 1…

人工智能 2023年5月28日
0074
openCV+dlib实现给蒙娜丽莎换脸

opencv+dlib实现给蒙娜丽莎换脸本案例利用opencv+dlib实现了给蒙娜丽莎换脸。换脸实现的基本原理：使用dlib的shape_predictor_68_face…

人工智能 2023年7月19日
0047
YOLOV2网络模型

目录资料网络模型原理网络框架相对于yoloV1的改进 Batch Norm High Resolution Classifier Convolutional With An…

人工智能 2023年7月22日
0087
pytorch–＞optimizer.zero_grad()、loss.backward()、optimizer.step()和scheduler.step()

优化器就是需要根据网络反向传播的梯度信息来更新网络的参数，以起到降低loss函数值的作用。一般来说，以下三个函数的使用顺序如下： # compute gradient and do…

人工智能 2023年7月24日
0049
基于朴素贝叶斯的新闻分类

一般来说，文本分类模型需要提前标注好类别的语料作为训练集，属于有监督的学习，核心问题是选择合适的分类算法，构建分类模型。本文利用 TF-IDF 对短文本数据进行特征提取和朴素贝叶斯…

人工智能 2023年7月2日
0039
Javaweb：HTTP协议与Web服务端开发环境（二）

二、Tomacat服务器 2.1 服务器相关概念 2.1.1 服务器技术 • 在开发B/S架构的应用时，需要有服务器端技术的支撑，目前，比较常用的服务器端技术主要有CGI、ASP、…

人工智能 2023年6月29日
0084
Leetcode 1.两数之和

Leetcode之两数之和一、Leetcode之两数之和三种解法，其他实现可以参考leetcode解答 1.暴力法 2.二分法 3. 哈希给定num，在对应数组中找到对应的两…

人工智能 2023年6月4日
0056
【PyTorch深度学习项目实战100例】—— 使用文心大模型ERNIE-ViLG生成图片 | 第1例

大家好，我是阿光。本专栏整理了《PyTorch深度学习项目实战100例》，内包含了各种不同的深度学习项目，包含项目原理以及源码，每一个项目实例都附带有完整的代码+数据集。正在更…

人工智能 2023年7月27日
0054
【算法】高精度加、减、乘、除（C++实现）

一、高精度当然在java中，进行高精度的加法、减法、乘法、除法运算的时候，可以通过java.math包中提供的BigInteger类提供的的方法来进行计算：加法：a.add(b…

人工智能 2023年6月30日
0074
Transformer模型入门详解及代码实现

目录前言一.什么是Transformer 二.Encoder的组成 1.输入部分 2.注意力机制 2.1注意力机制的含义 2.2在TRM中的实现 3.前馈神经网络 3.1 前馈…

人工智能 2023年6月17日
0095
yolox

好久没做目标检测，之前一直在做分割问题，目前体验下来目标检测在算法上要求貌似更高一点。所以计划研究下yolo系列最新出的yolox。yolox相对于之前的yolo系列在速度上有了比…

人工智能 2023年5月31日
0083
【AI论文精粹】学习解释图像分类器；脑信号的应用；多模态神经脚本知识模型；可微点过程

标题：Bounded logit attention：学习解释图像分类器时间：2021.5.31 作者：Thomas Baumhauer, Djordje Slijepcevic…

人工智能 2023年5月25日
0059
机器学习中的隐变量/潜变量和隐藏空间/潜在空间

机器学习中的隐变量/潜变量和隐藏空间/潜在空间 * – 1.什么是隐变量？ – 1.什么是潜在空间（Latent Space）？ – 2.机器学…

人工智能 2023年7月27日
0060
【Pytorch学习】Pytorch安装遇到的错误及解决方法

在Anaconda环境和Pycharm软件的基础上安装Pytorch深度学习框架。一.创建pytorch虚拟房间首先打开 Anaconda Prompt,通过conda创建名为…

人工智能 2023年7月21日
0079
数据挖掘——第三章：数据预处理

文章目录 1. 数据存在的问题 * 1.1 原始数据存在的问题 1.2 数据质量要求 1.3 预处理主要任务 2. 数据清洗 * 2.1 空缺值处理 2.2 噪声处理 3. 数据集…

人工智能 2023年7月16日
00156
利用瑞芯微3399Pro推理yoloV5s目标检测模型：踩坑笔记

1.参考： yolov5和rknn模型的问题_走错路的程序员的博客-CSDN博客_rknn YOLOv5s部署在瑞芯微电子RK3399Pro中使用NPU进行加速推理_Deepsdu…

人工智能 2023年5月26日
0063

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【多任务学习】Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics

大家都在看