NLP-预训练模型-2020:Electra【预训练任务RTD(ReplacedTokenDetection)替代MLM;借鉴GAN;生成器+判别器;判别器用于下游;比RoBert预训练速度大幅提升】

预训练模型(Pretrained model):一般情况下预训练模型都是大型模型,具备复杂的网络结构,众多的参数量,以及在足够大的数据集下进行训练而产生的模型.

在NLP领域,预训练模型往往是语言模型,因为语言模型的训练是无监督的,可以获得大规模语料,同时语言模型又是许多典型NLP任务的基础,如机器翻译,文本生成,阅读理解等,常见的预训练模型有BERT, GPT, roBERTa, transformer-XL等.

NLP-预训练模型-2020:Electra【预训练任务RTD(ReplacedTokenDetection)替代MLM;借鉴GAN;生成器+判别器;判别器用于下游;比RoBert预训练速度大幅提升】

; 一、Electra概述

在 2019 年 11 月份,NLP 大神 Manning 联合谷歌做的 ELECTRA 一经发布,迅速火爆整个 NLP 圈,其中 ELECTRA-small 模型参数量仅为 BERT-base 模型的 1/10,性能却依然能与 BERT、RoBERTa 等模型相媲美,得益于 ELECTRA 模型的巧妙构思 LOSS,在 2020 年 3 月份 Google 对代码做了开源。

BERT 的预训练的过程中使用了 Masked Language Model (MLM),随机选择输入句子中 15% 的单词,然后其中的 80% 的单词用 [mask] 替换,10% 保持不变,10% 随机替换。然后 BERT 会对这 15% 的单

Original: https://blog.csdn.net/u013250861/article/details/119361110
Author: u013250861
Title: NLP-预训练模型-2020:Electra【预训练任务RTD(ReplacedTokenDetection)替代MLM;借鉴GAN;生成器+判别器;判别器用于下游;比RoBert预训练速度大幅提升】

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/548417/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球