【多任务学习-Multitask Learning概述】

2023年5月28日上午8:50 • 人工智能 • 阅读 64

多任务学习-Multitask Learning概述

1.单任务学习VS多任务学习
*
多任务学习的提出
多任务学习和单任务学习对比
2.多任务学习
*
共享表示shared representation：
多任务学习的优点
那么如何衡量两个任务是否相关呢？
当任务之间相关性弱
多任务MLP特点总结
多任务学习与其他学习算法之间的关系
多任务学习应用

1.单任务学习VS多任务学习

1.单任务学习
一次只学习一个任务（task），大部分的机器学习任务都属于单任务学习。
2.多任务学习
把多个相关（related）的任务放在一起学习，同时学习多个任务。

多任务学习的提出

问题提出：
现在大多数机器学习任务都是单任务学习。 对于复杂的问题，也可以分解为简单且相互独立的子问题来单独解决，然后再合并结果，得到最初复杂问题的结果。这样做看似合理，其实是不好的的，因为现实世界中很多问题不能分解为一个一个独立的子问题，即使可以分解，各个子问题之间也是相互关联的，通过一些共享因素或共享表示（share representation）联系在一起。 把现实问题当做一个个独立的单任务处理，忽略了问题之间所富含的丰富的关联信息。
解决方法：
多任务学习就是为了解决这个问题而诞生的。把多个相关（related）的任务（task）放在一起学习。这样做会很有效的解决问题，多个任务之间共享一些因素，它们可以在学习过程中，共享它们所学到的信息。 相关联的多任务学习比单任务学习能取得更好的泛化（generalization）效果。

多任务学习和单任务学习对比

从图1中可以发现，单任务学习时，各个任务之间的模型空间（Trained Model）是相互独立的（图1上）。多任务学习时，多个任务之间的模型空间（Trained Model）是共享的（图1下）。

; 2.多任务学习

多任务学习（Multitask learning）定义：基于共享表示（shared representation），把多个相关的任务放在一起学习的一种机器学习方法。

多任务学习涉及多个相关的任务同时并行学习，在神经网络中同时反向传播，多个任务通过浅层的 共享表示（shared representation）来互相帮助学习，提升泛化效果。简单来说：多任务学习把多个相关的任务放在一起学习（注意，一定要是相关的任务），学习过程中通过一个在浅层的共享表示来互相分享、互相补充学习到的领域相关的信息，互相促进学习，提升泛化的效果。

共享表示shared representation：

共享表示的目的是为了 提高泛化（improving generalization），图2中给出了多任务学习最简单的共享方式，多个任务在浅层共享参数。MTL中共享表示有两种方式：

（1）、 基于参数的共享（也叫硬约束）（Parameter based）：比如基于神经网络的MTL
【多任务学习-Multitask Learning概述】

（2）、 基于软约束的共享（regularization based）：比如 均值，联合特征（Joint feature）学习（创建一个常见的特征集合or矩阵）。 每个任务都有自己的模型，自己的参数。我们对模型参数的距离进行正则化来保障参数的相似

两种常见共享表示的比较：
基于软约束的多任务学习方法， 该方法不要求底部的参数完全一样，而是对不同任务底部的参数进行正则化。相对于硬参数约束的多任务深度学习模型，软约束的多任务学习模型的约束更加宽松，当任务关系不是特别紧密的时候，有可能学习得到更好的结果

如何参数共享？
从机器学习的角度来看，我们将多任务学习视为一种 归纳迁移。归纳迁移通过引入 归纳偏置来改进模型，使得模型更倾向于某些假设。举例来说，常见的一种 归纳偏置是L1正则化，它使得模型更偏向于那些稀疏的解。在多任务学习场景中， 归纳偏置是由辅助任务来提供的，这会导致模型更倾向于那些可以同时解释多个任务的解。
我们可以记得的是L1正则化是对参数之和上的约束，强制除少数几个外的其他所有参数为0。
通过正则化我们选取所要在不同人任务模型之间共享的参数。 块稀疏正则化相对复杂不展开先简单了解。

块稀疏正则化
为了更好的将这些方法联系起来，我们首先介绍了一些符号的含义。我们有T个任务，每个任务t，对应的模型记为，模型参数记为，维度为d维。我们用列向量来表示参数。将这些列向量堆起来形成一个矩阵。矩阵A的第i行对应每个模型的第i个特征，第j列对应任务j的模型参数。

现有的许多方法都对模型参数做出稀疏性假设。文献[8]认为所有模型共享参数的一个小集合。从任务参数矩阵A的角度来看，这就意味着除了少数几行外全部是0，与之对应的只有少数特征是可以在不同任务间共享的。为了强制做到这一点，在多任务学习中强制加L1正则化项。我们可以记得的是L1正则化是对参数之和上的约束，强制除少数几个外的其他所有参数为0。L1正则化又被称为LASSO（Least Absolute Shrinkage and Selection Operator）。

对于单一任务场景，L1正则化的计算仅依赖于单个任务t中的模型参数。对于多任务场景，L1正则化的计算是基于任务参数矩阵A，首先对每行（对应每个任务的第i个特征）计算正则化，产生列向量，然后计算这个向量的L1正则化，从而强迫b中大部分项为0。

我们可以使用不同的正则化，取决于我们想要对每行设置什么样的约束。一般来说，我们将之称为混合正则化（mix norm）约束正则化。由于这样做导致A的整行为0，故可称之为块稀疏性正则化（Block-Sparsity Regularization）。文献[9]使用正则化，而Argyriou使用正则化。后者又被称为group lasso，首次提出是在文献[10]中。Argyriou等人于2007年的时候证明了优化非凸的group lasso可以通过对任务参数矩阵A进行迹正则化（trace norm）约束转化为凸优化问题。也就是，强制矩阵A是低秩的，其中的每一个列向量都位于一个低维度的子空间。文献[11]为了进一步在多任务学习中使用group lasso来建立上界约束。

块稀疏正则化在直觉上是非常受欢迎的，它的受欢迎程度与它依赖于任务间参数共享程度是一样的。文献[12]证明了当任务间特征不重叠时，正则化可能会比单纯的元素层面的正则化效果更糟。因此，文献[13]提出了将块稀疏正则化与元素稀疏正则化结合以改进块稀疏模型。他们将任务参数矩阵A分解为矩阵B与S，其中A=B+S。然后，对B使用强制的块稀疏正则化，对S使用lasso来进行元素稀疏正则化。文献[14]提出了一个分布式版本的group lasso正则化。

如何实现软约束？
其中是平均参数向量。该惩罚项强制一些任务向量的聚类靠近其均值，用来控制。
它寻求使得所有模型接近均值模型。

; 多任务学习的优点

（1）、 提高泛化能力，多人相关任务放在一起学习，有相关的部分，但也有不相关的部分。当学习一个任务（Main task）时，与该任务不相关的部分，在学习过程中相当于是适当的噪声，因此， 引入噪声可以提高学习的泛化（generalization）效果。

（2）、 防止陷入局部最优，单任务学习时，梯度的反向传播倾向于陷入局部极小值。多任务学习中不同任务的局部极小值处于不同的位置，通过相互作用，可以帮助隐含层逃离局部极小值。

（3）、 提高学习速率和效果，添加的任务可以改变权值更新的动态特性，可能使网络更适合多任务学习。

（4）、 防止过拟合，多个任务在浅层共享表示，可能削弱了网络的能力，降低网络过拟合，提升了泛化效果。

（5）、 学习能力提升，某些特征可能在主任务不好学习，但在辅助任务上好学习。可以通过辅助任务来学习这些特征

（6）、 偏置机制。多任务学习更倾向于学习到一类模型。由于一个对足够多的训练任务都表现很好的假设空间，对来自于同一环境的新任务也会表现很好，所以这样有助于模型展示出对新任务的泛化能力[7]。

那么如何衡量两个任务是否相关呢？

一些理论研究：

使用相同的特征做决策
相关的任务共享同一个最优假设空间（having the same inductive bias)
F-related: 如果两个任务的数据是通过一个固定分布经过一些变换得到
分类边界（parameter vectors）接近

任务是否相似不是非0即1的，越相似的任务，收益越大。

当任务之间相关性弱

当任务之间相关性较弱，使用上述方法可能导致negative transfer（也就是负向效果）。在此情景下，我们假设某些任务之间是相关的，但是某些任务之间是相关性较差。可以通过引入 任务集合来约束模型（第二种常见的共享表示）。 可以通过动态的约束不同任务的参数向量和降低他们的方差。限制不同模型趋向于不同的各自任务参数向量。

前面提到的某些特征在某些任务不好学，提出主任务和辅助任务概念，（NLP中主任务为情感预测，辅助任务为inputs是否包含积极或消极的词；）。 辅助任务应该在一定程度上与主任务相关，利于主任务的学习。

多任务MLP特点总结

紧凑分布均匀的label的辅助任务更好
主任务训练曲线更快平稳，辅助任务慢
不同任务尺度不一样，任务最优学习率可能不同
某个任务的输出可以作为某些任务的输入
某些任务的迭代周期不同，可能需要 异步训练？（后验信息；特征选择，特征衍生任务等）
整体loss函数可能被某些任务主导，需要整个周期对参数进行动态调整
*「一个loss函数的多任务」：很多任务中把loss加到一起回传，实质优化的是一个loss函数, 但过程是多个任务，loss相加是多任务学习的一种正则策略

多任务学习与其他学习算法之间的关系

多任务学习（Multitask learning）是迁移学习算法的一种，迁移学习之前介绍过。定义一个一个源领域source domain和一个目标领域（target domain），在source domain学习，并把学习到的知识迁移到target domain，提升target domain的学习效果（performance）。 归纳迁移

多标签学习（Multilabel learning）是多任务学习中的一种，建模多个label之间的相关性，同时对多个label进行建模，多个类别之间共享相同的数据/特征。

多类别学习（Multiclass learning）是多标签学习任务中的一种，对多个相互独立的类别（classes）进行建模。这几个学习之间的关系如图5所示：

; 多任务学习应用

现实生活中有很多适合多任务学习的场景，以下举例说明
(1).自然语言处理相关的研究，比如把词性标注、句子句法成分划分、命名实体识别、语义角色标注等任务放在一起研究。
(2).人脸识别中，人脸的属性的研究、人脸识别、人脸年龄预测等任务也可以通过多任务学习进行解决。
(3).图像分类，不同光照下、拍摄角度、拍摄背景下等分类任务的研究，也可以在多任务研究的框架下完成。除了上述举例的三种不同应用之外，现实生活中还有很多类似的多任务学习的例子。
https://blog.csdn.net/qq_32782771/article/details/90517443?

Original: https://blog.csdn.net/m0_56689123/article/details/121754988
Author: 江海寄余生1011
Title: 【多任务学习-Multitask Learning概述】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530658/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

快速上手：图聚类入门 Graph Clustering

硕士研究工作基本告一段落了，静候佳音中～其实一直想总结一下图节点聚类的一些工作，算是一个逗号吧。个人总结，若有错误欢迎指正。本文从问题定义入手，再到近几年的工作，最后进行横向对…

人工智能 2023年5月31日
0064
VMware虚拟机无法运行Gazebo，Gazebo闪退打不开，报错[Err] [REST.cc:205] Error in REST request的一种解决办法

前言在VMware上使用ROS Gazebo的时候，碰到了Gazebo打不开或者打开就闪退的情况，也没有任何报错，初始化页面运行一秒之后就会退出的问题。经过在Gazebo论坛上和…

人工智能 2023年6月2日
00104
opencv与vs的版本

想要使用vs2017最好是用opencv3.4.0版本以上 opencv2.4.13对应vc11 vc12，也就是vs2012和vs2013 opencv2.4.3对应vs2010…

人工智能 2023年7月19日
0090
数据分析：分层模型分析—RFM

文章目录一、RFM·分层模型二、分层原理三、分析指标实践分析：根据b站”科学科普”分区的视频数据，模仿RFM模型，搭建IFL模型，划分该分区up主的…

人工智能 2023年7月15日
0060
体验ChatGpt

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0047
Cartographer建图和纯定位

（一）cartographer在ros下安装参考：要求： 64-bit, modern CPU (e.g. 3rd generation i7) 16 GB RAM Ubuntu…

人工智能 2023年6月2日
0087
【原创】人工客服会话日志挖掘论文调研

在人工客服服务日志中抽取问答对，配置到机器人知识库中 QA matching：以question为出发点，即假设question已经确定，从上下文(主要是上文)中找到该questi…

人工智能 2023年7月17日
0050
Excel数据分析

什么是数据数据是能够被看到、听到、感知到并记录下来被用于科学研究、技术设计、查证、決策等的数值。数据的变异性：数据会跟随时间、地点、生产生活以及客观规律发生变化。数据的规律性…

人工智能 2023年7月15日
0079
【OpenCv】图像分割——聚类算法

文章目录 1 原理 2 API 3 图像分割 4 代码解释 1 原理 KMeans算法概述 KMeans算法的作者是MacQueen， KMeans的算法是对数据进行分类的算法，采…

人工智能 2023年5月31日
0077
pytorch获取全部权重参数、每一层权重参数

pytorch获取全部权重参数、每一层权重参数首先需要安装torchsummary在相应的虚拟环境下pip install torchsummary 1、打印每层参数信息：sum…

人工智能 2023年7月21日
0058
PyQt5弹出窗口–QInputDialog, QMessageBox, QFileDialog

文章目录前言一、QInputDialog–弹出输入对话框 * 1. 输入整数 2. 输入小数 3. 输入文本 4. 输入多行文本 5. 输入选项注意示例二、Q…

人工智能 2023年7月4日
0058
殊途同归的两种角度理解岭回归(内含有sklearn例子)

在学习统计学专业课《回归分析技术》时学过岭回归，学机器学习时也涉及到岭回归，但是两个角度的思想方法略有不同，但最后的结果却是殊途同归的，最近准备统计学考研的复试时，对比了两种思路，…

人工智能 2023年6月17日
00101
python多条直线拟合_线性回归训练数据拟合过程及Python LinearRegression 代码实现

对于机器学习来说，最简单的模型就是线性回归，线性回归往往作为机器学习的入门模型来学习，线性回归，顾名思义就是数据集合的分布可以用一条直线（二维）或者一个平面（三维）或者更多维度的线…

人工智能 2023年6月18日
0056
speechSynthesis没有声音

本片文章首先针对的问题是[前端使用speechSynthesis合成声音，但是无法播放出声音的问题解决方案]，目前所知道的出现问题的前提条件如下：1、电脑系统为win72、浏览器不…

人工智能 2023年5月25日
0065
RNA 12. SCI 文章中肿瘤免疫浸润计算方法之 CIBERSORT

免疫浸润也是近几年肿瘤研究的一个重要方向。通过表达数据即可推算出这个整体样本中究竟有哪些免疫细胞。下面我们就基于数据库数据来看下整个流程分析！前言我们介绍了CIBERSORT，…

人工智能 2023年6月15日
0075
数据增强之Mosaic数据增强的优点、Mixup,Cutout,CutMix的区别

一、Mosaic data augmentation Mosaic数据增强方法是YOLOV4论文中提出来的，主要思想是将四张图片进行随机裁剪，再拼接到一张图上作为训练数据。这样做…

人工智能 2023年5月26日
00114

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30