BERT参数量计算

2023年5月28日下午2:40 • 大数据 • 阅读 94

目前，预训练模型在NLP领域占据核心地位。预训练模型的参数量是庞大的，例如BERT(base)的参数量是110M，BERT(large)的参数量是330M。为了深入认识，我决定思考一下BERT参数量是如何计算的。

首先我们知道，BERT是基于transformer结构的预训练模型。在BERT论文中提到了有关BERT的信息：

Parameters in BERT（base）Numberword list30522layer12hidden size768max length512multi head attention12inner size3702

BERT主要分为四部分：

Sum/110Minput embedding

multi head attention

feed forward network

normalization

那这样加起来的结果就是108854784，约等于110M。
有关具体运算的细节我之后再补充，按照transformer的decoder计算即可。

Original: https://blog.csdn.net/weixin_44047857/article/details/122073317
Author: alkaid_sjtu
Title: BERT参数量计算

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/532093/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

2021 数据库内卷化进行时 ING

2020年终于过去了,2021 年来了,我们都期望2021年能好过一些, 实际上数据库在2021年估计是一个内卷 ING 的时刻. 到底什么是内卷,我们先解释一下,内卷:一般用于形…

大数据 2023年5月26日
0073
本科-人工智能模拟卷

人工智能模拟卷一、选择题 1 、 1997 年 5 月，著名的”人机大战”，最终计算机以 3.5 比 2.5 的总比分将世界国际象棋棋王卡斯帕罗夫击败，这…

大数据 2023年5月25日
0062
8086汇编语言入门之HelloWorld

文章目录一.学习汇编的目的二.汇编仿真软件工具推荐三.了解基本指令段四.汇编的执行【调用debug命令】绪论：汇编语言是一门面向机器编…

大数据 2023年5月24日
00132
pandas DataFrame读写数据库：Oracle、sqlite3

IDE: spyder（anaconda）数据库： oracle pandas不仅可以从本地文件读取数据，也可以从数据库中直接读取。从Oracle读： 1. 首先导入需要的包： …

大数据 2023年11月12日
0055
泛型ArrayList转数组

泛型ArrayList转数组原创 xiyangyang81102022-05-26 17:16:34©著作权文章标签 java 文章分类 Hadoop 大数据 ©著作权归作者所…

大数据 2023年5月26日
0072
hive面试题

大数据 2023年11月14日
0036
Android实现对SQLite数据库增删改查(学生管理系统项目)

SQLite数据库的使用上效果：一、介绍二、大致流程 * 1.通过继承SQLiteOpenHelper抽象类，完成对数据库的创建 2.进行Sqlite数据增删改查操作 3.S…

大数据 2023年11月10日
0031
hive01–hive的安装及配置

hive是基于Hadoop集群的，所以在安装hive之前需要先安装hadoop。如果hadoop没有安装的请参考：hadoop01–Hadoop伪分布式集群搭建_码到成…

大数据 2023年11月12日
0049
Windows版Redis3.0和5.0安装教程

大数据 2023年11月14日
0037
大数据学习笔记——————-(28)

第28章 HIVEQL HIVEQL(HIVEQuery Language:Hive查询语言 )是一种查询语言，该语言为Hive处理并分析 Metastore的结构数据。 28.1…

大数据 2023年5月26日
0070
5分钟NLP：Text-To-Text Transfer Transformer (T5)统一的文本到文本任务模型

本文将解释如下术语：T5，C4，Unified Text-to-Text Tasks 迁移学习在NLP中的有效性来自对具有自监督任务的丰富无标记的文本数据进行预训练的模型，例如语言…

大数据 2023年5月28日
0073
orc文件的读写及整合hive

还是先说下背景。为啥想到学习orc文件的读写呢？我们create table的时候stored as orc就好了呀，读写有什么作用呢？ 1.使用datax hdfsreade…

大数据 2023年11月13日
0038
BERT详解:bert文本分类怎么做的

bert是怎么进行预训练和微调的？首先是用海量的数据预训练，数据可以是没有标签，在训练的时候就一个任务：就是随机mask部分字，然后用周围的字预测mask的字。这就是预训练的的过…

大数据 2023年5月28日
0073
C++箴言：理解typename的两个含义

template 答案：没什么不同。在声明一个 template type parameter（模板类型参数）的时候，class 和 typename 意味着完全相同的东西。一些程…

大数据 2023年6月3日
0062
有哪些实用的电脑软件值得推荐？

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

大数据 2023年6月2日
0056
物联网专业课程设计：温室监控系统——移动终端篇（LineChart、SQLite、socket套接字）（包含源码）

这个程序是本科课程设计写的程序，因为最近在复习java和C#，故把以前的东西拿出来看看，顺便写个博客。此程序的功能描述：通过手机端可以直接观察到温室的各项实时参数，并且可以通过曲…

大数据 2023年11月10日
0044

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

BERT参数量计算

大家都在看