自然语言处理（NLP）入门——预训练模型

2023年5月30日下午9:48 • 人工智能 • 阅读 70

ELMo和GPT认识

ELMO模型
本质: Embeddings from Language Models.
解决的问题: 多义词的问题结构图
最下层是embedding层
中间是双向的LSTM
最上层是词向量表征 2L+1 L —> 层数 ELMo的预训练过程
第一个阶段: 预训练语言模型
第二个阶段: 根据下游任务, 去动态调整word embedding的向量表示,然后将去融入到之前的向量中, 就完成了动态调整的过程
每层词向量表示的意义
- 第一层: 静态词向量
- 第二层(第一层LSTM): 表示句法信息更多一点
- 第三层(第二层LSTM): 表示语义信息更多一点. ELMo的待改进点:
没有选取Transformer进行特征提取, 效果没有bert好.
特征融合的时候没有想bert一体化的效果好, LSTM双层的融合过程, 效果不太好.
GPT模型
本质: Transformer中的decoder部分, 然后去除了中间的attention层, 然后层数增加到了12层
应用: 更擅长与自然语言的文本生成任务
原理:
- mask的使用时机: 在进行完QK乘积之后, 在softmax之前进行使用, 使用方式和Transformer中的一样
预训练任务:
- 第一阶段: 无监督的语言模型
- 第二个阶段: 有监督的训练过程
GPT2模型
文本处理的长度是1024
生成过程也是自回归的模式
最后的输出值的时候做了一些策略调整
- 1: 使用贪心算法获取最优可能值
  +
- 在此技术上进行调优, 进行排序输出
- 折中办法是将排序之后的数值, 在去topk范围进行抽取, 最后输出.,
; BERT, GPT, ELMo各自的优点和缺点
ELMo
- 优点:根据上下文动态调整word embedding, 可以解决多义词的问题
- 缺点: 使用向量拼接的方式融合上下文特征的能力弱于Transformer.
GPT
- 优点:GPT使用了Transformer提取特征, 使得模型能力大幅提升
- 缺点:GPT只使用了单向Decoder, 无法融合未来的信息
Bert
- 优点:
- 缺点:
HMM模型
马尔科夫链: 状态空间从一种转态转化到另一种转态随机过程
无记忆性: 下一个转态的概率分布只由当前的转态决定.
HMM模型中的两个重要假设
齐次马尔科夫链假设:
- 任意时刻的隐含转态只由前一时刻的隐含转态决定
观测独立性假设
- 任意时刻的观测转态只由当前时刻的隐含转态决定
HMM和CRF
作用: 解决文本序列标注任务
差异:
- HMM中有假设, 而CRF中没有, 要求性能高的场景: HMM 效率高
- 要求准确率高的场景: CRF.

第一定律：机器人不得伤害人类个体，或者目睹人类个体将遭受危险而袖手不管，除非这违反了机器人学第零定律。

第二定律：机器人必须服从人给予它的命令，当该命令与第零定律或者第一定律冲突时例外。

第三定律：机器人在不违反第一、第二定律的情况下要尽可能保护自己的生存

Original: https://blog.csdn.net/weixin_37935970/article/details/123833435
Author: 程序汪赵可乐
Title: 自然语言处理（NLP）入门——预训练模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/545299/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

图像风格迁移 CycleGAN原理

CycleGAN是一种很方便使用的用于进行图像风格转换的模型。它的一大优势就在于不需要成对的数据集就可以进行训练。比如我们只需要随便一大堆真人图像和随便另一大堆动漫图像，就可以训练…

人工智能 2023年6月24日
0066
【Python】NumPy数组和矢量计算

目录一、NumPy的ndarray：一种多维数组对象： 1.NumPy安装： 2.检测安装是否成功：二、数组创建： 1.array创建： range的使用： arange创建数…

人工智能 2023年6月11日
0070
语音信号处理、语音特征提取

语音信号是一种短时平稳信号，变化迅速，非常复杂，携带了很多有用的信息，包括语义、个人特征等。其特征参数的准确性和唯一性将直接影响语音识别率，这也是语音识别的基础。 [En] Spe…

人工智能 2023年5月25日
00106
Python-pandas返回重复数据的index

在处理数据的时候,会出先相同的列或者行,我们需要有时候需要对其中一列或者其中一行进行操作因为数据清洗的过程会碰到多种情况下面是我碰到的一种情况既有合并的又有空列使用pandas进…

人工智能 2023年7月8日
0051
今天分享的案例是关于某电商店铺的年终销售业绩

从情境中学习数据分析，体会数据分析逻辑。今天分享的案例是关于某电商店铺的年终销售业绩的分析哦~ 在2011年的圣诞节前两周，老板希望回顾一下过去一年的销售业绩，数据来自该店铺的实际…

人工智能 2023年6月11日
0062
Halcon深度学习介绍(一)

Halcon深度学习介绍1、软件版本说明Halcon自从18版本以后，便支持深度学习，其中18、19版本训练时候要求电脑必须有GPU，并且是英伟达独立显卡才可以，检测有无GPU都可…

人工智能 2023年5月26日
0064
深度学习：GCN（图卷积神经网络）理论学习总结

目录来源作用原理 * 解释核心两种理解 – 空间域的缺点图的概念学习新特征 – 目标提出步骤图卷积分类特点常见问题缺点改进 *…

人工智能 2023年6月10日
00113
[论文][人脸识别]High-Accuracy RGB-D Face Recognition via Segmentation-Aware Face Depth Estimation and Mask-Guided Attention Network

背景：研究背景：基于 RGB-D 的人脸识别基本上以 2D 人脸识别方法为主，将与 RGB 对齐的深度图作为一个通道送入 CNN 网络，RGB-D 一个优势是增加了人脸的空间形状…

人工智能 2023年6月6日
0078
分析在智能语音对话流程

首先，分析智能语音通话流程主要模块的交互时序流程(以来电为例)。主要流程如下： [En] First, analyze the interactive timing flow of…

人工智能 2023年5月25日
0082
人工智能在电力系统中的应用前景怎么样

人工智能在电力系统中的应用现状随着人工智能技术的兴起，人工智能技术应用在电力系统的运行、控制、管理等领域。人工智能技术在电力系统中的应用不仅拓展了人工智能技术的应用范围，而且扩…

人工智能 2023年6月19日
0081
Python 矢量中值滤波

矢量中值滤波算法： 1.计算窗口中每个点到其余点的矢量距离之和Si 2.比较Si的大小，求得最小的Si 3.argmin（Si）对应的向量Xi就是这个窗口的中值 from scip…

人工智能 2023年6月20日
0052
干货分享｜一些好的数据分析、数据挖掘的网站或数据学习网站

分享一些靠谱&权威的数据分析网站一、6个数据统计分析网站 1.国家统计局 2.statista 3.前瞻数据库 4.Quest Mobile研究院艾瑞咨询 …

人工智能 2023年7月15日
0063
【上】CS229 吴恩达机器学习习题作业答案 problem sets 03 PS03（全部问题解答，欢迎各位前辈指教）

(a) 首先写出forward过程：z [ 1 ] = W [ 1 ] x + W 0 [ 1 ] h = σ ( z [ 1 ] ) z [ 2 ] = W [ 2 ] h + …

人工智能 2023年5月28日
00104
Python数据处理数据挖掘（三）：关联分析（Apriori算法）

声明：本文为学习笔记，侵权删一、几个概念关联分析：参考啤酒与尿不湿的故事，啤酒和尿不湿本身没有关系，但通过调查买啤酒的人有大概率会买尿不湿，所以啤酒+尿不湿就成了一个销售组合。…

人工智能 2023年6月19日
0087
100天精通Python（数据分析篇）——第56天：Pandas读写txt和csv文件（read_csv、to_csv）

文章目录 * – 1. read_csv：读取文本文件 – + skiprows + nrows + index_col + names – 2…

人工智能 2023年7月3日
0066
【pandas】笔记

【pandas】笔记一、什么是pandas？二、Series创建二、Series索引与值三、pandas之读取外部数据四、pandas之DataFrame 五、panda…

人工智能 2023年7月7日
0058

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

自然语言处理（NLP）入门——预训练模型

ELMo和GPT认识

大家都在看