I-BERT: Integer-only BERT Quantization 论文学习

2023年7月14日上午9:25 • 人工智能 • 阅读 78

论文链接：
https://proceedings.mlr.press/v139/kim21d.html

摘要

基于转换器的模型，如BERT和RoBERTa，已经在许多自然语言处理任务中取得了最先进的结果。然而，它们的内存占用、推理延迟和功耗对于边缘甚至数据中心的有效推理都是禁止的。虽然量化是一个可行的解决方案，但以前基于Transformer的量化工作在推理中使用浮点算法，不能有效地利用仅整数的逻辑单元，如最近的Turing Tensor Cores，或传统的仅整数ARM处理器。在这项工作中，我们提出了I-BERT，一种新的基于Transformer的模型的量化方案，它量化了仅整数算法的整个推理。基于非线性操作的轻量级仅整数近似方法，如GELU、Softmax和层归一化，I-BERT执行端到端仅整数的BERT推理，而无需进行任何浮点计算。我们使用RoBERTaBase/Large对GLUE下游任务评估我们的方法。我们表明，对于这两种情况，I-BERT与全精度基线相比，实现了相似（且略高于此）的精度。此外，我们对I-BERT的初步实现显示，与FP32推理相比，在T4GPU系统上的INT8推理加速了2.4−4.0×。该框架已经在PyTorch中开发，并是开源的(Kim，2021)。

引言

在这项工作中，我们建议使用I-BERT来解决这些挑战。I-BERT采用了一系列新的基于整数量化的方案。特别，我们的贡献是：

我们提出了新的核来实现高效和精确的GELU和Softmax的仅整数计算。特别地，我们用轻量级的二阶多项式来近似GELU和Softmax，这可以用仅为整数的算术来计算。我们利用不同的技术来提高近似误差，GELU的最大误差为1.8×10−2，Softmax为1.9×10−3。详见3.4和3.5。
对于LayerNorm，我们通过利用一个已知的平方根整数计算算法来执行仅整数计算(克兰德尔&Pomerance，2006)。详见3.6
我们使用这些近似的GELU，Softmax，和LayerNorm来设计仅整数的量化基于Transformer的模型。具体来说，我们用INT8乘法和INT32积累来处理嵌入和矩阵乘法(MatMul)。然后根据INT32上的累积结果计算以下非线性操作(GELU、Softmax和LayerNorm)，然后将其返回回INT8。我们用整数表示整个计算图中的所有参数和激活，并且我们从不将它们转换为浮点数。示意图说明见图1（右）。
我们将I-BERT应用于RoBERTa-Base/Large，并评估了它们在GLUE(Wangetal.，2018)下游任务上的准确性。与全精度基线相比，I-BERT基线取得了相似的结果。具体来说，在RoBERTa-Base和RoBERTaLarge的GLUE下游任务上，I-BERT分别比基线高出0.3和0.5。请参见”选项卡。2在4.1中的细节。
我们使用TensorRT(NVIDIA，2018)部署INT8BERT模型，并只使用整数内核进行非线性操作。我们证明，与FP32推理相比，INT8推理实现了高达4×的加速。请参见”选项卡。3在4.2中的细节。

; 3. 方法

3.1.基本量化方法

量化

I-BERT: Integer-only BERT Quantization 论文学习

反量化：

; 3.2.具有仅限整数算法的非线性函数

纯整数量化的关键是用整数算法执行所有运算，而不使用任何浮点计算。与线性操作(例如MatMul)或分段线性操作(例如ReLU)不同，这对于非线性操作(例如GELU、Softmax和LayerNorm)来说并不简单。这是因为之前的工作中的仅整数量化算法(Jacobetal.，2018；Yao等人，2020)依赖于算子的线性性质。例如，对于线性MatMul操作的MatMul(Sq)等价于S·MatMul(q)。这个性质允许我们将整数MatMul应用于量化的输入q，然后将比例因子S相乘，得到与将浮点MatMul应用于去量化的输入Sq相同的结果。重要的是，这个属性不适用于非线性操作，例如，GELU(Sq)！=S·GELU(q)。一个简单的解决方案是计算这些操作的结果，并将它们存储在一个查找表中(Laietal.，2018)。然而，这种方法部署在芯片内存有限的芯片上可能会产生开销，并将产生与查找表执行速度成正比的瓶颈。另一种解决方案是将激活进行去量化，并将其转换为浮点运算，然后用单精度逻辑计算这些非线性操作(Bhandare等人，2019年；Zafrir等人，2019年)。然而，这种方法并不只是集成的，也不能在不支持浮点运算的专门高效硬件上使用，例如，ARMCortex-M(ARM，2020)。
为了解决这一挑战，我们近似的非线性激活函数，GELU和Softmax，与多项式，可以用仅整数算术计算。计算多项式只包括加法和乘法，这可以用整数算法来完成。因此，如果我们能找到对这些操作的良好的多项式近似，那么我们就可以用仅使用整数的算术来执行整个推理。例如，一个表示为a(x+b)2+c的二阶多项式可以用仅整数算法有效地计算出来，如Alg.1所示

3.3.非线性函数的多项式逼近

关于用多项式近似一个函数有大量的工作(Stewart，1996)。我们使用一类插值多项式，其中我们给出了一组n+1个不同数据点{(x0，f0)，…，…，(xn，fn)}，我们试图找到一个最多n的多项式，在这些点上的函数值完全匹配。众所周知，存在一个唯一的多项式的次数最多为n，它通过所有的数据点(Waring，1779)。我们用L来表示这个多项式，定义为：

有趣的是，对于我们的问题，我们有两个旋钮来改变，以找到最好的多项式近似。由于我们知道实际的目标函数，并且可以查询任何输入的精确值，所以我们可以选择插值点(xi，fi)作为函数上的任何点。第二个旋钮是选择多项式的次数。当选择一个高阶多项式会导致更小的误差(见附录B)时，在这方面有两个问题。首先，高阶多项式具有更高的计算量和内存开销。其次，用低精度的仅整数算法来计算它们是具有挑战性的，因为当将整数值相乘时可能会发生溢出。对于每一个乘法，我们都需要使用双精度，以避免溢出。因此，挑战是找到一个好的低阶多项式，可以非常接近于在Transformers中使用的非线性函数。这就是我们接下来讨论的，对于GELU和Softmax，分别在3.4和3.5中，我们证明了只使用一个二阶多项式可以得到一个接近的近似。

; 3.4.仅整数的GELU

GELU可以看作 dropout的思想和relu的结合，(在keras和torch的transformer实现的代码里都是直接用relu+dropout而没有使用gelu) ，主要是为激活函数引入了随机性使得模型训练过程更加鲁棒

本人对此激活函数不感兴趣，感兴趣的可参考原文，此处只贴一个算法：

3.5.仅整数softmax

用整数算法来近似的Softmax层是相当具有挑战性的，因为在Softmax中使用的指数函数是无界的，并且变化迅速。因此，先前的Transformer量化技术(Bhandare等人，2019年；Zafrir等人，2019年)使用浮点算法处理这一层。之前的一些工作提出了用插值来查找表（施劳道夫，1999），但与之前一样，我们避免查找表，并努力实现一个基于纯算术的近似。此外，虽然(Hauser&Purdy，2001)提出了指数函数的多项式逼近方法，但它使用了显著的高度多项式，并且只适用于有限的有限域。
与GELU类似，我们不能使用高阶多项式，但即使使用这样的多项式也不能近似Softmax中的指数函数。然而，我们可以通过限制Softmax的近似范围来解决这个问题。首先，为了稳定我们减去输入数值最大值：

其中，xmax=maxi(xi)。请注意，现在对指数函数的所有输入，即˜xi=xi−xmax，都变成了非正的。我们可以将任何非正实数˜x分解为˜x=(−ln2)z+p，其中商z是一个非负整数，其余的p是在(−ln2,0]中的一个实数。那么，˜x的指数可以写成：
I-BERT: Integer-only BERT Quantization 论文学习

其中>>是移位操作。因此，我们只需要在p∈(−ln2,0]的紧致区间中近似出指数函数。与所有实数的域相比，这是一个要小得多的范围。有趣的是，这种方法的一种变体在e Itanium 2 machine
from HP使用了(Detrey&deDinechin，2005；Thomas等人，2004)，但用一个查找表来评估exp§。
我们使用一个二阶多项式来近似在这个范围内的指数函数。为了找到多项式的系数，我们在(−ln2,0]的区间内最小化到指数函数的l2距离。这就导致了以下近似值：

用等式中的指数项代替Eq.12用这个多项式得到的结果是i-exp：

其中，z=[−˜x/ln2]和p=˜x+zln2。这可以用整数算法来计算。算法3描述了使用i-exp的软最大功能的仅整数计算。图2（右）绘制了i-exp的结果，它与指数函数几乎相同。我们发现这两个函数之间的最大差距只有1.9×10−3。考虑到单位区间的8位量化引入了1/256=3.9×10−3的量化误差，我们的近似误差相对可以忽略不计，可以纳入量化误差中。

; 3.6.仅整数LayerNorm

LayerNorm通常用于Transformers中，涉及一些非线性操作，如除法、平方和平方根。此操作用于跨通道维度规范化输入激活。标准化过程描述如下：

这里，µ和σ是输入跨通道维度的平均值和标准差。这里的一个微妙挑战是，NLP任务的输入统计信息（即µ和σ）变化迅速，这些值需要在运行期间动态计算。虽然计算µ很简单，但计算σ需要平方根函数。
通过(Crandall，2006)中提出的迭代算法，可以用仅整数算法有效地计算平方根函数，如Alg所述。 4.给定任意非负整数输入n，该算法基于牛顿法迭代搜索[n^(1/2)]的精确值，只需要整数运算。该算法在计算上是轻量级的，因为对于任何INT32输入，它最多可以在4次迭代中收敛，并且每次迭代只包含一个整数除法、一个整数加法和一个位移操作。而LayerNorm中的其他非线性运算，如除法和平方运算，则直接用整数算法计算。
I-BERT: Integer-only BERT Quantization 论文学习

4.结果

在本节中，我们首先使用通用语言理解评估(Wangetal.，2018)(GLUE)基准测试（4.1）来衡量I-BERT的准确性。然后，我们再讨论使用直接硬件部署的I-BERT的延迟加速，并将其与纯FP32模型（4.2）进行比较。最后，我们进行消融研究以展示我们的整数近似方法（4.3）的有效性。

4.1.用GLUE基准准确性评价

; 4.2.延迟评估

4.3.消融研究

; 5.结论

我们提出了一种新的只有整数的变压器I-BERT量化方案，其中整个推理都是用纯整数算法进行的。I-BERT的关键元素是非线性操作的近似方法，如GELU、Softmax和LayerNorm，它们使它们能够通过整数计算进行近似。我们在RoBERTa-Base/大型模型上对I-BERT进行了实证评估，其中我们的量化方法将平均GLUE评分提高了0.3/0.5分。此外，我们直接部署了量化模型，并测量了端到端推断延迟，表明与浮点基线相比，I-BERT在 TeslaT4 GPU上可以实现高达4.00×的加速。作为未来工作的一部分，我们也可以考虑使用我们的近似值来提高训练速度。例如，人们可以考虑在训练期间用i-GELU替换GELU。此外，还需要进一步的研究来评估i-GELU与GELU相比的性能效益。

Original: https://blog.csdn.net/qq_31993233/article/details/123866663
Author: 冰激凌很菜
Title: I-BERT: Integer-only BERT Quantization 论文学习

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/691765/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

图像分割之–mmsegmentation使用

1、构建环境参考mmsegmentation使用说明：创建虚拟环境 conda create -n mmsegmentation python=3.8 进入虚拟环境 conda…

人工智能 2023年7月21日
0071
零基础学kubernetes（k8s）必看教程，带你10分钟快速实战入门k8s

一、前言作为一个工作十余年，拥有比较丰富的计算机网络运维、主机运维、云计算平台运维、自动化运维开发经验的老鸟，我来说说我当初刚接触Kubernetes时的一些感受以及学习技巧。 …

人工智能 2023年6月19日
0087
Sherlock之Instructions指令介绍（Sherlock Version: 7.2.5.1 64-bit）

指令集总览 1、General 1)、Comment:: 注释指令。 2)、Image Window: 创建新的图像窗口。 True: 取像之后更新图像窗口显示；False: 有新…

人工智能 2023年6月4日
0083
TensorFlow不重新编译源码使用C/C++ API推理

如果开发C++代码，链接pip安装的Tensorflow安装目录下面的so，会报如下错误：E tensorflow/core/common_runtime/session.cc:6…

人工智能 2023年5月25日
0094
YOLOv5训练coco128数据集流程

一、安装pytorch 1、创建虚拟环境使用Anaconda安装，建议先创建一个虚拟环境。启动Anaconda Prompt，在命令行输入： conda create -name…

人工智能 2023年6月17日
0097
图的基本概念和几个术语

系列文章目录文章目录系列文章目录一、图的定义 * 有向图 & 无向图完全图的相关无向图的连通、连通图及连通分量 & 有向图的强连通、强连通图、强连通分量 …

人工智能 2023年6月10日
0083
I/O接口

I/O接口 1.定义I/O接口：又称I/O控制器（I/O Controller）、设备控制器，负责协调主机与外部设备之间的数据传输。2.作用• 数据缓冲：通过数据缓冲寄存器（DBR…

人工智能 2023年6月27日
0099
LDA隐狄利克雷分配

LDA隐狄利克雷分配因为组会汇报系统学习了一下LDA，顺便将自己的讲稿记录在博客上。 1. 主题模型主题模型是一种能够在大量文档中挖掘抽象主题的统计模型。它能够将复杂的非结构化…

人工智能 2023年7月16日
0076
DataFrame

help(pd.concat) Help on function concat in module pandas.tools.merge: help(pd.concat)Help …

人工智能 2023年6月2日
0084
ImageNet 数据集准备（用于分类）

ImageNet数据集较大，解压前有136G(train)+6.3G(val)；解压后有140G(train)+6.4G(val)，并且较常用于图像分割，所以要快速导入ImageN…

人工智能 2023年6月30日
0070
机器学习笔记之学习率（learning rate）与过拟合（overfitting）

这次的笔记，之所以把学习率和过拟合放在一起讲，是因为，Msc阶段的几个挂掉的入职面试（投的实习，有的直接变成了校招的比如hw和zx,还有ali），问了相关的问题，结果回答地不好，所…

人工智能 2023年5月25日
0065
IDC发布AI训练数据市场分析最新报告

近日，全球领先的专业市场调查机构IDC，分析了企业在人工智能应用开发的建设现状及在数据服务方面的挑战和需求，并发布调研报告称：澳鹏Appen作为一家全球领先的AI训练数据服务提供…

人工智能 2023年6月11日
00108
【学怵研究】计算机视觉CV方向的研究生第一篇论文该怎么写(水)？

目录投哪个刊？论文语料库论文表达相似论文参考 Latex 模板双屏协同 🤤科研第一步便是水一篇学术乐色🚮🚰 投哪个刊？ CCF-A？CCF-B？CCF-C？结合自身实力与…

人工智能 2023年5月26日
00106
Anaconda环境配置（一）

@Anaconda环境配置（一） Anaconda环境配置 Anaconda安装完后要进行环境配置，环境配置就是安装虚拟环境，让程序可以在这个环境中运行！就是给程序代码一个家，让…

人工智能 2023年5月24日
00106
9种常用的数据分析方法

找到合适的数据分析方法，轻松运用数据分析解决实际工作问题，提升核心竞争力。目录一、漏斗分析法二、对比分析法 0、对比分析的价值场景 1.时间维度对比 2.空间对比 3.计划对…

人工智能 2023年6月11日
00158
抽丝剥茧——让多元化集团数字化管控变得简单

近日，小米进军汽车行业引来一片热议，这也突显出一个趋势：越来越多的企业通过多元化扩张谋求发展。然而，多元化给企业带来的不仅仅是规模增长，还有大量管理难题，一旦处理不好，将成为企业的…

人工智能 2023年7月17日
0044

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31