bert通过对语料进行无监督学习,该模型自动学习各种信息。
一:模型简介
1、结构:
bert是个有12层encoder组成的结构,只有encoder,没有decoder。
encoder的结构,来自transformer:
2、无监督语料MLM-AR/AE
AR:自回归模型(通过概率推导);AE:自编码模型(通过掩码)。
AR:P(我爱吃饭) = P(我)P(爱|我)P(吃|我爱)P(饭|我爱吃)
AE:P(我爱吃饭|我爱mask饭) = P(mask=吃|我爱饭)
bert采用AE。即,通过从mask周围的文本进行学习,使得mask文本无线接近原词汇。但mask模型,是假定其每个mask的词是独立同分布。
bert:0.15的概率采用mask。但在mask的内容里:10%不动+10%替换其他+80%替换mask
#function:create_masked_lm_predictions
#file:create_pretraining_data.py
masked_token = NONE
if rng.random() < 0.8:
masked_token = "[mask]"
else :
if rng.random() < 0.5:
masked_token = token[index]#不变
else :
masked_token = vocab_words[rng.randint( 0 , len (vocab_words) - 1)#随机替换
二:适用分析
1、微博情感分析步骤
通用预料训练LM(pretrain)-google bert
相同领域训练LM(Domain transfer)-大量微博数据训练bert
建议:动态mask。epoch对mask的训练采用动态;做n-gram mask
任务相关的小数据训练LM(Task transfer)-在微博情感文本+部分非情感文本分析bert
相关数据做微调,fine-tune
2、
cite:
Transformer各层网络结构详解!面试必备!(附代码实现) – mantch – 博客园
Original: https://blog.csdn.net/guanjian6334/article/details/122096516
Author: 0x3fffffff
Title: BERT学习
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/548117/
转载文章受原作者版权保护。转载请注明原作者出处!