BERT参数量计算

目前,预训练模型在NLP领域占据核心地位。预训练模型的参数量是庞大的,例如BERT(base)的参数量是110M,BERT(large)的参数量是330M。为了深入认识,我决定思考一下BERT参数量是如何计算的。

首先我们知道,BERT是基于transformer结构的预训练模型。在BERT论文中提到了有关BERT的信息:

Parameters in BERT(base)Numberword list30522layer12hidden size768max length512multi head attention12inner size3702

BERT主要分为四部分:

Sum/110Minput embedding

multi head attention

feed forward network

normalization

那这样加起来的结果就是108854784,约等于110M。
有关具体运算的细节我之后再补充,按照transformer的decoder计算即可。

Original: https://blog.csdn.net/weixin_44047857/article/details/122073317
Author: alkaid_sjtu
Title: BERT参数量计算

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/532093/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球