经典论文阅读（7）——ALBERT

2023年5月28日上午10:39 • 人工智能 • 阅读 114

在对自然语言表示进行预训练时，增加模型大小通常可以提高下游任务的性能。然而，在某些情况下，由于GPU/TPU内存的限制和更长的训练时间，进一步增加模型变得更加困难。ALBERT提出了两种参数减少技术，以降低内存消耗，提高BERT的训练速度，并且利用了一种自我监督的loss对句子连贯性构建。第一个是分解的embedding参数化。通过将大的词汇表嵌入矩阵分解为两个小的矩阵，将隐藏层的大小与词汇表嵌入的大小分开。这种分离使得在不显著增加词汇表嵌入的参数大小的情况下更容易增加隐藏大小。第二种技术是跨层参数共享。

模型架构

ALBERT的框架类似于BERT，用了一个连接GLEU激活函数的transformer encoder。ALBERT相较于BERT有三个主要贡献：

分解embedding参数

在BERT和后续的Roberta、XLNET中的wordpiece的embedding大小和隐藏层的大小相等，这并不是最优的。原因如下：

从建模的角度看，wordpiece的embedding需要学习与上下文无关的表征，而隐藏层需要学习与上下文相关的表征，可以将wordpiece的embedding大小E从隐藏层大小H中分离出来，这可以让我们更有效的利用所有模型参数。

从实践的角度看，自然语言处理通常需要比较大的词汇量V，若E=H，则H的增加将会增大embedding矩阵的大小，即V*E。这会容易导致生成有上亿参数的模型，而在大多数参数在训练时只进行了稀疏的更新。

因此，我们在ALBERT中将一个embedding参数分解为两个小的矩阵，即不直接将one-hot向量映射到H大小的隐藏空间中去，而是先将它映射到低维E大小的embedding空间，再映射到隐藏空间中。

跨层参数共享

共享参数的方法有很多种，例如，仅跨层共享前馈网络(FFN)参数，或仅共享注意参数。ALBERT的默认决定是跨层共享所有参数。

句子间相干损失

我们推断，NSP效率低下的主要原因是相较于MLM它的难度较低。NSP将主题预测和连贯预测两个单一任务合并在一起，然而，主题预测相较于连贯预测更容易学习，也有更多的与MLM loss学到的重叠了。

对于ALBERT，提出了句子词序预测SOP，避免了主题预测，而是专注于句子间连贯性的建模。SOP loss使用与BERT(来自同一文档的两个连续段)相同的技术作为积极的例子，而使用相同的两个连续段作为消极的例子，但顺序互换了。这迫使该模型学习更细粒度的关于话语层次的连贯性属性的区别。

模型设置

ALBERT-large比BERT-large少了约18倍的参数，18M vs 334M。H=2048的ALBERT-xlarge仅有60M的参数，H=4096的ALBERT-xxlarge仅有233M的参数，是BERT-large参数量的70%。

实验

在BOOKCORPUS和English Wikipedia中与BERT设置相同，最大输入长度设置为512。与BERT相同，使用的词汇量是30000，与XLNET一样用SentencePiece分词。我们用n-gram masking生成MLM任务所需的掩码输入，每个n-gram掩码的长度随机生成，设置n最大为3。所有的模型更新都使用4096的batch大小和学习率为0.00176的LAMB优化器。

ALBERT-xxlarge相较于BERT-large的提升有：SQuAD v1.1 (+1.9%), SQuAD v2.0 (+3.1%), MNLI (+1.4%), SST-2 (+2.2%), and RACE (+8.4%)。

由于通信量和计算量更少，与相应的BERT模型相比，ALBERT有更高的数据吞吐量。与BERT-large相比，ALBERT-large的速度快1.7倍，而ALBERT-xxlarge由于更大的结构慢3倍。

分解embedding参数：在非共享条件（BERT风格）下，更大的embedding大小表现的更好。在共享条件下（ALBERT风格）下，embedding大小为128表现的最好。
跨层参数共享：比较了全共享策略(ALBERT-style)、非共享策略(BERT-style)和只共享注意参数(但不共享模糊神经网络参数)或只共享FFN参数(但不共享注意参数)的中间策略。全共享策略会降低模型性能，但E=128的表现没有E=768时严重。除此之外，大部分性能下降似乎来自于FFN层参数共享，共享注意参数在E=128时没有下降，E=768时略微下降。
句子词序预测：NSP loss对SOP任务没有任何区分能力，也即只对主题转移进行建模。SOP loss可以解决NSP问题，且SOP在多句编码的下游任务中提升了性能。

经过大致相同的训练时间，ALBERT-xxlarge明显优于BERT-large。虽然ALBERT-xxlarge比BERT-large具有更少的参数并得到更好的结果，但由于其更大的结构，计算成本更高。

Original: https://blog.csdn.net/fmf1287/article/details/122184809
Author: fmf1287
Title: 经典论文阅读（7）——ALBERT

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531023/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Matlab：Matlab编程语言应用之二维绘图可视化(基础知识点&基本函数&绘图基础&增强控制)的使用方法简介、案例实现(绘制sin函数&同画板多图像&同窗口多画板&&坐标轴&极坐标&离散数据等)

Matlab：Matlab编程语言应用之二维绘图可视化(基础知识点&基本函数&绘图基础&增强控制)的使用方法简介、案例实现(绘制sin函数&同画板多…

人工智能 2023年6月20日
0089
机器学习：K-means算法基本原理及其变种

目录 1.1、K-means起源 1.2、K-means的意义 1.3、K-means的思想 1.4、K-means的算法流程 1.5、K-means的算法优缺点 2.1、轮廓系数…

人工智能 2023年5月31日
0089
OpenCV画框函数rectangle的使用

OPenCV版本：4.4 IDE：VS2019 功能描述绘制一个简单的、粗的或填充边界的矩形。函数cv:：rectangle绘制一个矩形轮廓或一个填充矩形，其两个相对的角是pt1…

人工智能 2023年7月27日
0066
2020-2021学年——图像图形编程实践实验3_图像拉普拉斯锐化

图像拉普拉斯锐化实验目的学习如何用锐化处理技术来加强图像的目标边界和图像细节；对图像进行梯度算子、拉普拉斯算子计算，使图像的某些特征（如边缘、轮廓等）得以进一步的增强及突出。…

人工智能 2023年6月22日
0073
spss系列——一元线性回归的分析与预测实例

spss系列——一元线性回归的分析与预测实例散点图回归系数线性回归模型 * 区间估计系数显著性检验残差散点图预测感谢小伙伴们的浏览~~下期见喽本文主要利用某商店记录…

人工智能 2023年6月18日
00110
java深度学习车牌识别open-lpr

网上很少关于java版本的车牌识别，于是本人决定将自己的项目开放出来共大家使用和研究，项目纯采用java语言实现，底层深度学习采用djl框架实现，前段时间我开源过一个java+op…

人工智能 2023年6月16日
00105
基于R语言的回归分析实现

目录 1.一元线性模型 1.1绘制散点图 1.2回归参数的估计 1.3回归方程的显著性检验 1.4线性模型常用函数 2.软件实现 2.1绘制散点图 2.2计算回归 2.3做预测 2…

人工智能 2023年6月19日
00103
一文速学-Pandas处理DataFrame稀疏数据及维度不匹配数据详解

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月5日
0060
迁移Conda环境到另一台设备上

设备B网络不佳，之前装过Anaconda，最近要新建Conda环境一直装不上，换清华源也不行因此我要通过内网或者U盘方式直接将设备A上的一个Conda环境迁移到设备B上环境文件…

人工智能 2023年7月23日
00114
用自己训练的AI玩王者荣耀是什么体验？

一、前言大家好，我是 Jack 。「王者荣耀」想必大家就算没有玩过，也都听过。腾讯 AI Lab 开发的策略协作型”绝悟”，最强 AI 分分教你做人。…

人工智能 2023年5月28日
0096
【20210926】【机器/深度学习】基于 make_blobs 函数库，详解几种 K-Means 算法优化方案，及模型评估

K-Means 算法的主要缺点：算法性能受类别个数 k 值、初始点值、异常点值影响很大。本文针对以上 k-means 算法主要缺点，详解 k-means 算法优化方案。一、mak…

人工智能 2023年6月2日
00153
【图像处理】图像离散小波变换（Discrete Wavelet Transform）及python代码实现

Motivation 看到有论文用到了图像的Haar Discrete Wavelet Transform（HDWT），前面也听老师提到过用小波变换做去噪、超分的文章，于是借着这个…

人工智能 2023年7月26日
0069
婴儿哭声分类识别实现（准确率99.3%）（深度学习、迁移学习、音频分类、tensorflow）

一、项目概述本文是婴儿哭声分类识别系统化的主体部分，主要解决智能音频分类的问题。基于此目标，本文查找了大量资料，并做了大量实验，最后获得了一个婴儿哭声分类识别准确率相对较高的深度…

人工智能 2023年6月17日
0094
水质检测系统（Python图像识别）

目标：有五种水质的图片，水质等级分1~5级，根据这些图片，构建一个分类系统，对新数据进行分类。注：数据集中每个图片的命名方式都为’水质级别_序号’ 思路…

人工智能 2023年6月21日
0089
手撕 CNN 经典网络之 VGGNet（PyTorch实战篇）

大家好，我是红色石头！在上一篇文章：详细介绍了 VGGNet 的网络结构，今天我们将使用 PyTorch 来复现VGGNet网络，并用VGGNet模型来解决一个经典的Kaggl…

人工智能 2023年6月16日
0099
SUPERPOINT-SLAM

error: #error C++14 or later compatible compiler is required to use PyTorch. 4 | #error C+…

人工智能 2023年7月14日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

经典论文阅读（7）——ALBERT

大家都在看