（5）一文懂“NLP Bert-base” 模型参数量计算

2023年5月28日上午9:05 • 人工智能 • 阅读 105

Bert 的模型由多层双向的Transformer编码器组成，由12层组成，768隐藏单元，12个head，总参数量110M，约1.15亿参数量。

1、词向量参数（embedding）

词向量包括三个部分的编码： 词向量参数，位置向量参数，句子类型参数。

词汇量的大小vocab_size=30522

隐藏层hidden_size=768 （即词向量维度d_model=768）

文本输入最长大小max_position_embeddings=512

词向量参数token embedding=30522*768

位置向量参数position embedding=512*768

句子类型参数Segment embedding=2*768（2个句子，0和1区分上下句子）

故，embedding总参数 =(30522+512+2)768 = 23,835,648 = 22.7MB*

2、multi-heads参数（Multi-Heads Attention）

单头与多头注意力结构如下：

假设输入X(x, 768)，则Q=XW(Q)=(x, 64)，K=XW(K)=(x, 64)，V=XW(v)=(x, 64)

QK(T)=(x, x)， V=（x, 64）

Z=softmax(QK(T)/8)*V=(x, 64)，12头concat又进行了线性变换（下图为8头Transformer示例）

Z(concat)=（x, 64*12）

故W(O) = (768, 768)，最终Z=(x, 768)，与输入保持一致

权重矩阵W(Q)/W(K)/W(V)维度为：（768, 768/12=64）

权重矩阵W(O)维度为：（768, 768）

故，12 头multi-heads的参数为：76864312 + 768768 = 2,359,296

故，12 层multi-heads的参数为：2,359,296 * 12 = 28,311,552 = 27MB

3、全连接层（FeedForward）参数

前馈网络feed forword的参数主要由2个全连接层组成，论文中全连接层的公式为：

FFN(x) = max(0, xW1 + b1)W2 + b2

其中用到了两个参数W1和W2，Bert沿用了惯用的全连接层大小设置，即4 * dmodle = 3072，因此，W1，W2分别为（768, 3072)，（3072, 768）

故，12层的全连接层参数为：12（ 2 * 768 * 3072）= 56,623,104 = 54MB*（未统计Bias）

4、LayerNorm层

LN层有gamma和beta等2个参数。在三个地方用到了layernorm层：embedding层后、multi-head attention后、feed forward后。

故，12层LN层参数为：7682 + (7682)12 + (7682)12 = 38,400 = 37.5KB*

5、结论

Base Bert的encoder用了12层，因此，最后的参数大小为：

1）词向量参数(包括layernorm) = (30522+512+2)* 768 + 768 * 2

2）12 * (Multi-Heads参数 + 全连接层参数 + layernorm参数) =

12 （(76864312 + 768768) + (768 * 3072 * 2) + (7682*2)）

Total：108808704.0 ≈ 104MB

注：本文介绍的参数仅仅是encoder的参数，基于encoder的两个任务next sentence prediction 和 MLM涉及的参数（分别是768 * 2，768 * 768，总共约0.5M）并未加入，此外涉及的bias由于参数很少，本文也并未加入。

参考：https://blog.csdn.net/weixin_43922901/article/details/102602557

Original: https://blog.csdn.net/huangminqiang201209/article/details/119639001
Author: embed_huang
Title: （5）一文懂“NLP Bert-base” 模型参数量计算

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530707/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

TensorFlow如何进行张量的创建和操作

引言 TensorFlow是一个广泛使用的机器学习框架，其中的核心是张量（Tensor）的创建和操作。张量是一个n维数组，可以表示各种数据类型。TensorFlow的核心任务是使用…

人工智能 2023年12月30日
0038
【目标检测】YOLOv5跑xView数据集/小样本检测策略实验

前言在YOLOv5的6.1版本新出了 xView.yaml数据配置文件，提供了遥感数据集xView的检测方法。此篇就使用YOLOv5来试跑xView数据集，并对一些小样本检测的策…

人工智能 2023年7月28日
00118
关于下载pytorch时，命令行import成功，但是pycharm和jupyter显示“No module named torch”问题

最近在下载pytorch的时候真的一堆问题，在anaconda下载完pytorch后，激活后在python环境下可以import torch，但是在pycharm还有jupyter…

人工智能 2023年7月21日
0063
【笔记】傅里叶变换学习笔记

傅里叶变换参考资料 https://zhuanlan.zhihu.com/p/19763358https://zhuanlan.zhihu.com/p/110026009http…

人工智能 2023年6月4日
00109
ROS知识：点云文件.pcd格式

目录一、点云文件格式 PCD (Point Cloud Data) 二、为何采用新得文件格式三、PCD版本四、文件头部格式五、数据存储格式六、其它优势 Example 一…

人工智能 2023年6月2日
0085
【Unity】Audio Source组件——用代码动态控制音效的播放、暂停

1.代码控制播放、暂停、停止给游戏物体添加Audio Source组件把音频文件拖入Audio Source组件的AudioCilp中创建一个脚本并挂载 using System…

人工智能 2023年7月31日
00439
【OpenCV 例程200篇】63. 图像锐化之 Laplacian 算子

【OpenCV 例程200篇】63. 图像锐化之 Laplacian 算子欢迎关注『OpenCV 例程200篇』系列，持续更新中欢迎关注『Python小白的OpenCV学习课』…

人工智能 2023年6月17日
0072
【NLP基础理论】10 上下文表示（Contextual Representation）

注： Unimelb Comp90042 NLP笔记相关tutorial代码链接本文除去COMP90042笔记之外还参考了李宏毅的视频和其他链接（在文中已标出）。上下文表示目…

人工智能 2023年5月28日
0072
蓝牙耳机哪个牌子好?蓝牙耳机排行榜2022

随着近年来蓝牙耳机的迅速崛起，种类繁多的蓝牙耳机层出不穷，蓝牙耳机的使用率也越来越高。然而，很多人并不具备数字化购买的基础，在选择时也是一头雾水。今天，我将与大家分享哪款蓝牙耳机的…

人工智能 2023年5月25日
0080
NLP-Beginner 任务四：基于LSTM+CRF的序列标注+pytorch

NLP-Beginner 任务四：基于LSTM+CRF的序列标注+pytorch 传送门一. 介绍 * 1.1 任务简介 1.2 数据集 1.3 原数据解释二. 特征提取——W…

人工智能 2023年5月31日
0081
随机森林算法及贝叶斯优化调参Python实践

随机森林算法 1.1. 集成模型简介集成学习模型使用一系列弱学习器（也称为基础模型或基模型）进行学习，并将各个弱学习器的结果进行整合，从而获得比单个学习器更好的学习效果。集成学…

人工智能 2023年7月5日
0095
【python教程入门学习】Pandas是什么

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月17日
0052
Self-Attention详解

文章目录 Sequence数据的处理 * Sequence Labeling（输入和输出的大小一样） Self-Attention内部机理 * 如何求解b？ Multi-head …

人工智能 2023年6月25日
0091
回归模型的score得分为负_如何评价模型的好坏？

学习目标：数据拆分：训练数据集&测试数据集评价分类结果：精准度、混淆矩阵、精准率、召回率、F1 Score、ROC曲线，AUC值等评价回归结果：MSE、RMSE、MA…

人工智能 2023年6月18日
0091
训练集和验证集的划分是AI算法中常见的细节问题之一。合理划分训练集和验证集可以避免过拟合问题，提高模型的泛化能力

问题说明在AI算法中，训练集和验证集的划分是一个关键细节问题。合理划分训练集和验证集可以避免过拟合问题并提高模型的泛化能力。本文将详细介绍训练集和验证集划分的原理、算法和代码实现…

人工智能 2024年1月6日
0064
多项式回归原理及手工实现

上一篇对于Y = 2 x 1 − 3 x 2 + 4 x 3 − 5 Y=2x_1-3x_2+4x_3-5 Y =2 x 1 −3 x 2 +4 x 3 −5函数进行了拟合，…

人工智能 2023年6月18日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

（5）一文懂“NLP Bert-base” 模型参数量计算

大家都在看