学习笔记-Bert及其变体调参经验

2023年7月28日下午8:48 • 人工智能 • 阅读 109

Bert调参：

1、bert的微调可以将参数设置为：

bach size ：设置为16或者32
learning rate（Adam）：5e-5、3e-5、2e-5（比较小的学习率）
num of epochs：2，3，4

2、Bert的微调比较容易，可以设置验证集，进行一定范围的Grid Search

3、可以在Bert后面接一些层，比如CRF层、Linear层、BiLSTM层

4、为了确保后接层学习的好，可以对后接层设置额外的、较大的学习率

Bert变体

Ro B ERTa:

RoBERTa即预训练方法的鲁棒优化：

1、模型训练时间更长，Batch Size更大，训练数据更多。

2、删除了NSP任务，作者经过实验，发现NSP任务没啥卵用，删除了以后反而效果提升了一些。

3、使用动态MASK：

Bert预训练时，是静态MASK，即在预训练前统一进行随机MASK，导致多个epoch都使用同样的MASK；
RoBERTa是在每次输入时输入MASK，确保每个epoch都使用不同的MASK

ALBERT：

ALBERT即轻量级BERT，主要解决BERT太耗资源

1、对Embendding层的参数矩阵（｜V｜｜H｜，｜V｜为词库大小，｜H｜为隐藏层大小）进行分解，减少了一部分参数VH——–>VE+EH，并带来效果的一些下降。

2、共享所有transformer参数，即12个transformer都有相同的attention参数、或相同的FNN参数、或相同的所有参数。主要参数减少就是靠这个操作，可以减少十几倍的参数，可以减少到12M。

3、为了缓解参数减少带来的效果下降，ALBERT使用SOP（sentence order pridiction）替代了NSP任务

二分类任务：NSP任务和SOP任务的正样本一样，都是同文章相邻两句话，负样本NSP时不同文章两句话，SOP是正样本顺序对调。

尽管参数减少可以训练更快，但在推理阶段并没有提升多少速度，因为12个transformer还得一层一层计算。

BERT-WWM：

基于全词的mask的bert预训练，减少了词汇信息对学习语言模型的干扰，增强了MLM的上下文预测能力。

BERT-wwm-ext，在wwm的基础上使用了更多数据。

ERNIE：

将MASK扩展到短语和实体级别

SpanBERT：

SpanBert进行MLM时，随机MASK一小段文本，以一定的概率采样一段span长度，然后随机采样起始位置进行mask然后输出去预测他

MACBERT：

依然是改进MLM时的mask方式

1、首先分词，基于词粒度的n-gram进行mask，1～4ngram概率分别是40%，30%，20%，10%

2、不使用[MASK]token进行mask，对15%输入单词进行masking时：80%替换为同义词，10%随机词，10%保留原始词。

ELECTRA ：

electra借鉴了对抗网络GAN部分思想，不实用MLM，而是DTR任务（Replaced Token Detaction）

模型有两部分组成，分别是Gennerator和Discriminator，两个都是transformer的encoding结构，只是size不同。

生成器：

一个小的MLM，size时判别器的1/4
随机选取15%的token，替代为[MASK]token
使用Generator去训练模型，使得模型预测被MASK的部分，会预测错
如图，the和cooked被随机选为masked，经过Gennerator变成the和ate

判别器：

对Gennerator预测的结果，分辨其是original还是replaced
对于没有个token，Discriminator都会进行一个二分类
如图：ate被认为是replaced，其他为original

ELECTRA主要解决BERT的两大问题：

1、BERT的MLM并不高效，只有15%的token对参数更新有效，其余并不参与梯度更新

2、与训练和fine-tuning并不匹配，因为fine-tuning并没有mask的token

electra的微调只需要使用判别器；

实践中，electra的效果不如RoBERTa等，但是其小模型tiny效果比较好，在高性能、资源有限的场景下可以尝试。

Original: https://blog.csdn.net/weixin_44358484/article/details/124927644
Author: 吉庆@数据安全
Title: 学习笔记-Bert及其变体调参经验

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/721120/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【flexbox弹性布局学习指南】CSS热门布局方案

; 【flexbox弹性布局学习指南】CSS热门布局方案文章目录【flexbox弹性布局学习指南】CSS热门布局方案 * 一、弹性布局的诞生背景二、基础知识和术语三、弹性盒…

人工智能 2023年6月29日
0086
文献阅读笔记-CSC-数据集-A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check

A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check 文献阅读笔记论文相关信息：…

人工智能 2023年5月27日
0084
OpenHarmony轻量系统开发【14】使用语音控制鸿蒙小车

摘要：本文简单介绍如何使用语音控制鸿蒙小车适合群体：适用于润和Hi3861开发板文中所有代码仓库：https://gitee.com/qidiyun/hihope-3861-s…

人工智能 2023年5月25日
00103
修改COCO评价指标 maxDets=[10,15,20]

默认的COCO评价指标 maxDets=[1,10,100] 该指标的意思是分别保留测试集的每张图上置信度排名第1、前10、前100个预测框，根据这些预测框和真实框进行比对，来计…

人工智能 2023年7月13日
0059
睡眠音频分割及识别问题(四)–YAMNet简介

简介 YAMNet模型是在 AudioSet 数据集（一个大型音频、视频数据集）上训练的音频事件分类器。模型输入该模型接收包含任意长度波形的float32一维张量或 NumPy…

人工智能 2023年5月25日
0080
LintCode 511: Swap Two Nodes in Linked List (链表好题)

511 · Swap Two Nodes in Linked ListAlgorithmsMedium DescriptionGiven a linked list and two…

人工智能 2023年6月28日
0062
Pytorch读取照片的三种方式（包括但不限于）

1.安装方式 conda install pillow 2.举例 from PIL import Image import numpy as np path=’../dataset…

人工智能 2023年7月27日
0066
LD3320语音识别模块分析

LD3320语音识别模块分析 LD3320是非特定人语音识别芯片，即语音声控芯片。最多可以识别50条预先内置的指令。识别原理  声音分帧：声音是一种波，常见的mp3等格式都是压…

人工智能 2023年5月27日
0086
最优化-无约束最优化方法总结

目录：最速下降法（Steepest Descent Method）和梯度下降法（Gradient Descent Method）是不同的两个方法，最速下降法要找到泰勒一阶展开式…

人工智能 2023年6月4日
00121
Neo4j安装图算法（附参考链接+我遇到的错误）

首先说明，我下载的是 Neo4j-community-4.3.7，下载的图算法的jar包是 GDS1.7.2版本。 (1)Neo4j v3.5前使用的是Neo4j Graph Al…

人工智能 2023年6月1日
00124
Pandas知识点超全总结

Pandas知识点超全总结一、数据结构 * 1、Series – 1.创建 2.切片、修改 3.其他属性 2、DataFrame – 1.创建 2.切片 …

人工智能 2023年7月7日
0057
在GPU上训练PyTorch代码

文章目录 PyTorch操作 tensor在不同设备上的操作网络的不同设备上 PyTorch操作 Py Torch允许我们在程序内部进行计算时，无缝地将数据移动到GPU。当我们使…

人工智能 2023年7月13日
0085
【论文阅读】零样本目标检测：鲁棒的区域特征合成器用于目标检测

随着 CNN和 Transformer等深度学习技术的快速发展，目标检测研究领域取得了讯飞的进步。尽管现有方法实现的检测性能看起来很有希望和令人鼓舞，但在实际场景中应用它们存在一个…

人工智能 2023年7月10日
0067
ENVI遥感图像几何精校正

一、实验名称：图像几何精校正二、实验目的： Image to Map进行几何校正和Image to Image进行图像自动配准。三、实验内容和要求： 1.对taian-drg…

人工智能 2023年6月17日
0089
手把手教你：基于粒子群优化算法（PSO）优化卷积神经网络（CNN）的文本分类

系列文章手把手教你：人脸识别考勤系统文章目录系列文章项目简介一、粒子群算法（PSO）简介二、项目展示二、环境需求 * 环境安装实例三、重要功能模块介绍 * 1.数据…

人工智能 2023年5月26日
00101
pytorch 中 squeeze 和unsqueeze函数

1. torch.squeeze() 函数 : 作用：移除指定或所有维数为1的维度，从而得到维度减少的张量解释一下： x=torch.zeros(5,1,1,1) print(x…

人工智能 2023年7月23日
0048

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

学习笔记-Bert及其变体调参经验

Ro B ERTa:

大家都在看