《Universal Language Model Fine-tuning for Text Classification》论文笔记

2023年5月30日下午9:15 • 人工智能 • 阅读 70

摘要

基于Pretrain-Finetune与语言模型的优点，作者提出 ULMFiT 迁移学习方法，降低深度学习模型对标注数据集的依赖，以及提升模型表现。 ULMFiT 包含三个主要步骤，第一，在大规模通用数据集上训练语言模型，第二，将预训练模型在目标领域数据集上进行Fine-Tuning，使预训练模型继续学习目标数据集的特征，最后在目标数据集合上FineTune 目标 分类器。

Multi-Task Learning

多任务学习是指”使同一模型同时进行多个任务，同时进行的任务可以在同一数据集，也可以在多个相关数据集上进行。”，GPT2证明，在进行分类任务时，同时进行语言模型任务，可以提升分类任务的效果。需要注意的是，在多任务学习中， 不同任务的损失权重比是一个超参数。

ULMFiT

LM具有严格的数学理论支撑、几乎无限量的数据集可使用、结构便于迁移等优良性质，但注意LM本质只是一种”目标函数”，多种模型结构都可以进行LM学习任务，在本文中采用的是3层LSTM结构。ULMFiT概要图如下所示：

《Universal Language Model Fine-tuning for Text Classification》论文笔记

; 通用领域LM预训练

该过程的目的是使”模型学习通用知识，降低模型对下游任务的数据依赖”。

目标任务LM FineTune

使模型学习目标任务上的数据分布特征，以提高目标任务上分类任务的效果。在FineTune中，引入了两个新技术”Discriminative fine-tuning”， “Slanted triangular learning rates”。

Discriminative fine-tuning

本质就是对模型结构的不同部分，采取不同的学习率，一般对较高的网络层采取较高的学习率，较低层采取较低的学习率。这样设计的目的与”使用Word2Vec 预训练向量”的思想比较相似，尽量保持低层次网络结构的知识不变。 实现的手段就是对模型可学习参数进行分组。

Slanted triangular learning rates

在 Discriminative fine-tuning 中，相邻两个网络层之间的学习率具有L R l − 1 = L R l / x ; x > 1 LR_{l-1} = LR_l / x; x > 1 L R l −1 =L R l /x ;x >1，将网络顶层的学习率看作基准，底层网络学习率依次降低。而在 STLR 中，顶层这个学习率的基准是不断变化的，变化趋势为”先线性增高，后线性降低”，呈一个斜三角形状。

; 目标分类器 FineTune

在预训练模型结构顶层，再新增两个基础子块与Softmax，基础子块包含”BN， Dropout， ReLU”。基础块的输入是预训练模型最后一层的输出，由于采用的是3层LSTM，因此基础块的输入为：
h c = [ h T , m a x p o o l ( h 1 − T ) , m e a n p o o l ( h 1 − T ) ] h_c = [h_T, maxpool(h_{1- T}), meanpool(h_{1-T})]h c =[h T ,m a x p o o l (h 1 −T ),m e a n p o o l (h 1 −T )]

FineTune目标分类器是整个过程中最重要的环节，太过激进的FineTune，会导致LM任务学习到的知识被遗忘，太谨慎的FineTune会导致模型收敛很慢，因此在”Discriminative fine-tuning” 与 “Slanted triangular learning rates”的基础上，作者又提出”Gradual unfreezing”。

Gradual unfreezing

本质就是”从上往下的解冻网络层，调整非冻结层的可学习参数”。与”Discriminative fine-tuning”的思想与目的较相似。

BPTT for Text Classification

对长文本的一种处理技巧，将长文本切分成若干段，以batch为单位，处理相邻的后续batch时，模型初始化为前一batch的计算状态，在计算的过程中需要收集梯度信息，感觉实现难度挺大的。

实验结果

说明 FineTune LM 过程确实能降低模型对下游任务的数据依赖与提升模型表现。supervised 与 semi-supervised 分别表示FineTune LM时，仅使用目标任务的标注样本、即使用标注样本也使用非标注样本。也就是说semi-supervised 在FineTune LM 时，使用了更大规模的领域数据集。

Full表示对网络所有参数进行FineTune，而不采用”Gradual unfreezing”，结果表明 Discriminative fine-tuning 与 Slanted triangular learning rates 在FineTune LM 时，有助于效果提升。

说明”Gradual unfreezing” 与 Discriminative fine-tuning ，Slanted triangular learning rates 在 FineTune 分类器上有相互补充的作用。

说明 Discriminative fine-tuning 与 Gradual unfreezing 这种学习率设计机制，能够有效防止预训练模型遗忘掉LM任务中学习到的知识。

Original: https://blog.csdn.net/weixin_44815943/article/details/123870564
Author: 凯子要面包
Title: 《Universal Language Model Fine-tuning for Text Classification》论文笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/545163/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

机器学习实战——房价预测完整案例（建议收藏慢慢品）

文章目录 1. 获取数据 * 1.1 查看数据结构 2. 划分测试集 3. 可视化获取更多信息 4. 寻找相关性 5. 属性组合 6. 数据处理 * 6.1 数据清洗 6.2 处理…

人工智能 2023年7月3日
0096
知识图谱task02

一.搭建知识图谱下载基于医疗领域知识图谱的问答系统 git clone https://github.com/zhihao-chen/QASystemOnMedicalGraph…

人工智能 2023年6月10日
0086
R 实现线性判别分析教程

本文介绍线性判别分析概念，并通过示例介绍R的实现过程。介绍线性判别分析模型线性判别分析用于基于一组变量把响应变量分为俩类或更多的算法。但线性判别算法对数据有一些要求：响应变量…

人工智能 2023年7月17日
0061
新能源汽车电池健康状态及能耗分析

项目背景随着电池技术进步和产业化推广，我国新能源汽车产业已进入蓬勃发展的快车道，各级政府先后发布政策持续支持新能源汽车技术和产业发展，全球车企对新能源汽车发展和应用也都充满热情，…

人工智能 2023年7月15日
0064
如何衡量物品之间的相似度

如何衡量物品之间的相似度在计算机科学和机器学习领域，衡量物品之间的相似度是一个常见且重要的问题。它在推荐系统、搜索引擎、图像识别等领域中都有广泛的应用。本文将介绍一种常用的方法：…

人工智能 2024年1月2日
0060
3090服务器构建docker

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

人工智能 2023年6月4日
00111
# gazebo 仿真

gazebo 仿真 1. 给 base_link 添加惯性，碰撞以及 gazebo 属性在路径xqrobot_description/urdf/xacro ⽂件夹下新建⽂件夹 g…

人工智能 2023年6月2日
00103
ubuntu开启远程访问

1.确定是否安装ssh服务 ps -e | grep ssh (base) hlly@hl:~$ ps -e | grep ssh5458 ? 00:00:00 sshd5576 …

人工智能 2023年6月30日
0099
【机器视觉案例】(14) 手部识别，手势演示PPT，附python完整代码

各位同学好，今天和大家分享一下如何使用 opencv+Mediapipe通过手势识别来演示PPT，先放张图看效果。当只有大拇指翘起时，向左翻页；当只有小拇指翘起时，向右翻页；当食…

人工智能 2023年6月19日
0094
论文阅读|基于领域知识图谱的多文档摘要生成与应用

论文地址：基于领域知识图谱的多文档摘要生成与应用 ; 先验知识 1.多文档摘要技术：（理解：类似于每篇文章的摘要、关键词，方便通过标签筛选是否是你需要的内容）利用计算机将同一主题下…

人工智能 2023年6月1日
0095
深度学习常见网络结构和设计思路总结（期末复习）

前言该文的主要原因是深度学习期末开卷考试，因此整理了NN，CNN，RNN，GAN各个网络模型原理和相关知识。并且对如何设计一个神经网络提出相关讨论，以及神经网络中损失函数，优化…

人工智能 2023年7月14日
0072
cv2.bitwise_and（）图像的与运算

定义 dst=cv2.bitwise_and（src1,src2[,mask]]）用法实现按位与运算 dst表示与输入值具有同样大小的array输出值。 src1表示第一个ar…

人工智能 2023年6月18日
0076
Lesson 8.1&Lesson 8.2 决策树的核心思想与建模流程&CART分类树的建模流程与sklearn评估器参数详解

Lesson 8.1 决策树的核心思想与建模流程从本节课开始，我们将介绍经典机器学习领域中最重要的一类有监督学习算法——树模型（决策树）。可此前的聚类算法类似，树模型也同样不是…

人工智能 2023年7月3日
0077
【回归预测-lssvm】基于粒子群算法优化最小二乘支持向量机lssvm实现数据回归预测附matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，matlab项目合作可私信。🍎个人主页：Matlab科研工作室🍊个人信条：格物致知。更多Matlab仿真内容点击👇…

人工智能 2023年6月28日
0066
【深度学习】(10) 自定义学习率衰减策略（指数、分段、余弦），附TensorFlow完整代码

大家好，今天和大家分享一下如何使用 TensorFlow自定义指数学习率下降、阶梯学习率下降、余弦学习率下降方法，并使用 Mnist数据集验证自定义的学习率下降策略。创建…

人工智能 2023年5月23日
0083
Windows使用opencv训练模型过程记录（提供样本）

首先按照这个指引安装好所需要的工具： Windows环境下训练OpenCV分类器 Windows环境下训练OpenCV分类器_@陌阡的博客-CSDN博客 Python + pip …

人工智能 2023年7月19日
0057

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31