自然语言处理(NLP)入门——预训练模型

ELMo和GPT认识

  • ELMO模型
  • 本质: Embeddings from Language Models.

  • 解决的问题: 多义词的问题 结构图

    自然语言处理(NLP)入门——预训练模型
  • 最下层是embedding层
  • 中间是双向的LSTM
  • 最上层是词向量表征 2L+1 L —> 层数 ELMo的预训练过程
  • 第一个阶段: 预训练语言模型
  • 第二个阶段: 根据下游任务, 去动态调整word embedding的向量表示,然后将去融入到之前的向量中, 就完成了动态调整的过程
  • 每层词向量表示的意义
    • 第一层: 静态词向量
    • 第二层(第一层LSTM): 表示句法信息更多一点
    • 第三层(第二层LSTM): 表示语义信息更多一点. ELMo的待改进点:
  • 没有选取Transformer进行特征提取, 效果没有bert好.

  • 特征融合的时候没有想bert一体化的效果好, LSTM双层的融合过程, 效果不太好.

  • GPT模型

  • 本质: Transformer中的decoder部分, 然后去除了中间的attention层, 然后层数增加到了12层
  • 应用: 更擅长与自然语言的文本生成任务
  • 原理:
    • mask的使用时机: 在进行完QK乘积之后, 在softmax之前进行使用, 使用方式和Transformer中的一样
  • 预训练任务:
    • 第一阶段: 无监督的语言模型
    • 第二个阶段: 有监督的训练过程
  • GPT2模型
  • 文本处理的长度是1024
  • 生成过程也是自回归的模式
  • 最后的输出值的时候做了一些策略调整
    • 1: 使用贪心算法获取最优可能值
      +
    • 在此技术上进行调优, 进行排序输出
    • 折中办法是将排序之后的数值, 在去topk范围进行抽取, 最后输出.,
  • ; BERT, GPT, ELMo各自的优点和缺点
  • ELMo

    • 优点:根据上下文动态调整word embedding, 可以解决多义词的问题
    • 缺点: 使用向量拼接的方式融合上下文特征的能力弱于Transformer.
  • GPT

    • 优点:GPT使用了Transformer提取特征, 使得模型能力大幅提升
    • 缺点:GPT只使用了单向Decoder, 无法融合未来的信息
  • Bert
    • 优点:
    • 缺点:
  • HMM模型
  • 马尔科夫链: 状态空间从一种转态转化到另一种转态随机过程
  • 无记忆性: 下一个转态的概率分布只由当前的转态决定.

  • HMM模型中的两个重要假设

  • 齐次马尔科夫链假设:
    • 任意时刻的隐含转态只由前一时刻的隐含转态决定
  • 观测独立性假设
    • 任意时刻的观测转态只由当前时刻的隐含转态决定
  • HMM和CRF
  • 作用: 解决文本序列标注任务
  • 差异:
    • HMM中有假设, 而CRF中没有, 要求性能高的场景: HMM 效率高
    • 要求准确率高的场景: CRF.

第一定律:机器人不得伤害人类个体,或者目睹人类个体将遭受危险而袖手不管,除非这违反了机器人学第零定律。

第二定律:机器人必须服从人给予它的命令,当该命令与第零定律或者第一定律冲突时例外。

第三定律:机器人在不违反第一、第二定律的情况下要尽可能保护自己的生存

Original: https://blog.csdn.net/weixin_37935970/article/details/123833435
Author: 程序汪赵可乐
Title: 自然语言处理(NLP)入门——预训练模型

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/545299/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球