BERT学习

bert通过对语料进行无监督学习,该模型自动学习各种信息。

一:模型简介

1、结构:

bert是个有12层encoder组成的结构,只有encoder,没有decoder。

encoder的结构,来自transformer:

BERT学习

2、无监督语料MLM-AR/AE

AR:自回归模型(通过概率推导);AE:自编码模型(通过掩码)。

AR:P(我爱吃饭) = P(我)P(爱|我)P(吃|我爱)P(饭|我爱吃)

AE:P(我爱吃饭|我爱mask饭) = P(mask=吃|我爱饭)

bert采用AE。即,通过从mask周围的文本进行学习,使得mask文本无线接近原词汇。但mask模型,是假定其每个mask的词是独立同分布。

bert:0.15的概率采用mask。但在mask的内容里:10%不动+10%替换其他+80%替换mask

#function:create_masked_lm_predictions
#file:create_pretraining_data.py

masked_token = NONE

if rng.random() < 0.8:
    masked_token = "[mask]"
else :
    if rng.random() < 0.5:
        masked_token = token[index]#不变
    else :
        masked_token = vocab_words[rng.randint( 0 , len (vocab_words) - 1)#随机替换

二:适用分析

1、微博情感分析步骤

通用预料训练LM(pretrain)-google bert

相同领域训练LM(Domain transfer)-大量微博数据训练bert

建议:动态mask。epoch对mask的训练采用动态;做n-gram mask

任务相关的小数据训练LM(Task transfer)-在微博情感文本+部分非情感文本分析bert

相关数据做微调,fine-tune

2、

cite:

Transformer各层网络结构详解!面试必备!(附代码实现) – mantch – 博客园

Original: https://blog.csdn.net/guanjian6334/article/details/122096516
Author: 0x3fffffff
Title: BERT学习

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/548117/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球