1_Pre-training & Language model

语言模型

语音识别中比较重要的两个模型为声学模型和语言模型。

1_Pre-training & Language model

其中声学模型主要是用于将输入的语音解码为相应的音节序列,而语言模型就是将音节序列识别为文本内容。

语言模型是用来计算一个句子的概率的模型,也就是判断一句话是不是人话的概率。语言模型是使用大量的文本语料库训练出来的,可利用某门语言本身的统计规律来帮助提升识别的正确率 。

; 技术难点

语言模型的性能,很大程度上取决于语料的质量和体量,和特定任务匹配的大语料是最重要的。但是实际应用中,这样的语料不易找到。

传统的ngram建模技术,对长距离的依赖处理欠佳,并且建模的参数空间过于庞大,近年来提出的神经网络语言模型技术一定程度上解决了这些问题,但缺点是训练时间长,实际应用中速度较慢。

预训练

预训练指的是,使用尽可能多的训练数据,从中提取出尽可能多的共性特征,从而让模型对特定任务的学习负担变轻。

几类预训练语言模型方法

预训练语言模型具有无监督训练属性,非常容易获取海量训练样本,并且训练好的语言模型包含很多语义语法知识,对于下游任务的效果会有非常明显的提升。

经典的预训练模型

Bert、GPT、ELMo

改进与创新

GPT系列
  • GPT-2:
  • 相比GPT增加了语料,增大了模型尺寸,但基本结构和GPT差不多。
  • GPT-2的核心思想是,任何一个有监督NLP任务,都可以看成是语言模型的一个子集,只要预训练语言模型的容量足够大,理论上就能解决任何NLP任务,语言模型在这里就是无监督的多任务学习。
  • GPT-2的核心就是提升模型的容量和数据多样性,让语言模型能够达到解决任何任务的程度。
  • GPT-3:
  • 进一步增大了模型尺寸,模型参数量是GPT-2的100倍。
  • GPT-3的核心思想在于不进行finetune(zero-shot learning)就可以对下游任务生成预测结果。其做法为将下游任务转换为一系列的文本,直接通过语言模型预测出结果。
  • 后续:
  • GPT的后续优化思路是不断提升训练语料丰富度和模型容量,使语言模型能够从大量文本中学习到各个NLP任务的解决方法。
  • 再通过zero-shot learning的方式实现不进行finetune,就可以让预训练模型直接进行下游任务预测。
Bert系列
  • RoBERTa:
  • 首先采用了dynamic mask,这样相比原来的Bert,可以达到同一个文本在不同epoch被mask掉的token不同,相当于做了一个数据增强。
  • 其次,分析了训练样本应该如何构造,发现从同一个document构造输入单句子的输入文本而非pair对,效果会有一定提升。
  • 最后,RoBERTa增大了batch size以及对BPE输入文本的分词方法进行了升级。
  • ALBERT:
  • 提出了一个轻量级的Bert模型,以此降低Bert的运行开销。
  • 将原来Bert中的NSP任务中的coherence prediction单独分离出来,克服了在原Bert中学习程度不足的问题。
  • ELECTRA:
  • 采用了GAN的思路。
  • 通过对抗学习的方式,让discriminator预测被mask掉的token能力逐渐增强,也即从文本中提取信息的能力增强。
其他创新
  • 从知识增强的角度进行优化。相比原来的Bert,ERNIE引入了如知识图谱等外部知识信息。这样的好处在于,有一些文本如果不知道某些词组代表一个实体的话,模型是很难学习的,例如一些人名、地名等。
  • 提出了新的预训练范式。比如一种为包括两个阶段:首先原文本使用某种noise function进行破坏,然后使用sequence-to-sequence模型还原原始的输入文本。

预训练模型对于NLP非常重要,未来的研究趋势也在让下游任务更加去适配预训练模型,以此来最大程度发挥预训练模型的能力

Original: https://blog.csdn.net/m0_57689584/article/details/126405831
Author: Misivoa
Title: 1_Pre-training & Language model

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/542993/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球