NLP 前置知识3 —— 预训练模型

2023年5月28日上午6:46 • 人工智能 • 阅读 51

一. Pre-training & Fine – tuning 机制

1.定义

Pre-training: 在大规模数据集上学习尽可能好的通用表示

Fine-tuning : 利用学习好的通用表示初始化下游任务网络

加速收敛
减少任务相关监督数据的需求

二.预训练模型发展总概

来源：百度NLP

三.预训练模型简介

1. ELMo

Pre-training:

（1）Bi-LSTM（两层/双向(LR, RL)）

(2) 无监督训练，训练数据1B Word

(3) 只预训练language model, word embedding 是通过输入的句子实时输出

Fine- tuning

Feature -Based
Pretraining 输出语义特征，句法特征、单词特征用于下游任务
需要进行（下游）任务相关网络结构设计

缺点：

1）不完全双向预训练：前后向LSTM是分开训练的，仅在loss function阶段结合

2) 每种下游任务都要重新设计网络结构

3) pre-training阶段进学习了语言模型，无句向量学习任务

2.GPT

Pre-training:

（1）model: Transformer

(2) 训练数据1B Word &BooksCorpus(+0.8 billion)

(3) Pretraining 阶段的目标是：根据前几个字预测下一个字(自回归预训练/无马尔科夫假设)

(4) 支持大规模数据下的 自监督学习

Fine-tuning:

（1）Model-Based

优缺点：

(1) 优点：model-based，简化了任务相关网络结构的设计

(2) 缺点: 单向预训练模型/仅有词向量，无句向量

3.BERT

Pre-training:

（1）model: Transformer

(2) Auto-Encoder交互式双向语言模型建模

(3) Pre-training ：

同时训练 token-level & sentence-level task
自编码语言模型 ，15% mask概率
预测当句的下一句话

Fine-tuning:

（1）Model Based

优缺点：

(1) 优点：无交互式双向语言模型建模/ 有句向量

(2) 缺点：sub-word预测可以通过word的局部信息完成，模型缺乏全局建模的信息的动力，难以学到词、短语、实体的完整语义

4.ERINE

百度NLP神器

Pre-training:

（1）model: Transformer

(2) Auto-Encoder交互式双向语言模型建模

(3) Pre-training ：

同时训练 token-level & sentence-level task
自编码语言模型 ，15% mask概率
预测当句的下一句话（ 强迫模型通过全局信息去预测mask掉的内容）(与BERT最大的区别)

(4) ERNIE 2.0 : 更多的预训练模型，捕获更丰富的语义知识

Fine-tuning:

（1）Model Based

Original: https://blog.csdn.net/qq_43123477/article/details/123300506
Author: 温酒ss
Title: NLP 前置知识3 —— 预训练模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530271/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

neo4j 基于jdk8 的安装与密码修改

移步至官网下载社区版本 Neo4j Download Center – Neo4j Graph Database Platform java 8 neo4j 3.5 …

人工智能 2023年6月1日
0076
Python——DataFrame基础操作

DataFrame理解 DataFrame可以看做是有序排列的若干Series对象，这里的”排列”是指这些Series都有共同的索引。一、读取文件二、索…

人工智能 2023年6月2日
0060
数学建模竞赛常考四大模型总结【预测模型、分类模型、优化模型、评价模型】

预测和分类本质上没啥区别，都是找到一个合适的函数做预测/分类。所以能做预测的模型多半可以做分类。 1.1 神经网络预测条件：大量数据（题目给出大量数据时，就算题中没有要求进行数…

人工智能 2023年6月15日
0081
训练yolov5的报错问题

Exception: Dataset not found. 这个明显是数据集路径问题，你要是训练数据的话，是以你train.py文件为准，而不是yaml文件。 BrokenPipe…

人工智能 2023年7月19日
0038
JeecgBoot系列多数据源配置(PostgreSQL为例)

JeecgBoot系列多数据源配置一、jeecg-boot-module-system模块 jeecg-boot-module-system模块下，这里先看applicatio…

人工智能 2023年6月26日
00185
hashmap和hashtable区别是什么?有什么区别?

在一些java面试的过程中，经常有人会遇到这个[java面试题]hashmap和hashtable区别是什么，下面一起来看看这个面试题的答案吧。一、hashmap和hashtab…

人工智能 2023年7月29日
0050
python 数据可视化———绘制饼状图（bar）

python 数据可视化———绘制饼状图（bar）从入门到入门，快速上手饼状图前言 Pyplot 是 Matplotlib 的子库，提供了和 MATLAB 类似的绘图 API。…

人工智能 2023年7月14日
0068
深度学习框架对应的CUDA版本

前言 CUDA (Compute Unified Device Architecture)，是NVIDIA发布的一个通用并行计算平台和编程模型。基于CUDA编程可以利用GPUs的并…

人工智能 2023年5月26日
0068
深度学习中的网络退化是什么？残差网络ResNet中的恒等映射是什么？

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月18日
0063
旅行商问题(动态规划_爬山算法_遗传算法)

问题描述旅行商问题（Travelling Salesman Problem, 简记TSP，亦称货郎担问题)：设有n个城市和距离矩阵D=[dij]，其中dij表示城市i到城市j…

人工智能 2023年7月27日
0073
R分类模型

problem 1 (Logistic Regression and KNN) library(ISLR)attach(Auto) creating binary variable…

人工智能 2023年7月3日
0057
Linux之Nginx

Nginx: 1.什么是nginxNginx是一款高性能的Web服务器，最初由俄罗斯程序员Igor Sysoev开发，自2004年问世以来，凭借其高性能、高可靠、易扩展等优点，在反…

人工智能 2023年6月26日
0075
pandas基础

import pandas as pd #定义字典 mydataset={ ‘sites’:["Goodle","Runoob",&quot…

人工智能 2023年7月6日
0058
【关系抽取】深入浅出讲解实体关系抽取（介绍、常用算法）

关系抽取的背景和定义关系抽取（Relation Extraction，简称 RE）的概念是1988年在MUC大会上提出，是信息抽取的基本任务之一，目的是为了识别出文本实体中的目标…

人工智能 2023年5月27日
0081
Blockchain is Watching You: Profiling and Deanonymizing Ethereum Users

今天给大家讲解的论文是关于构建区块链用户画像的，它的中文题目是《区块链正在注视着你：对以太坊用户进行分析和去匿名化》文章目录相关概念 * 准标识符 Quasi-identifi…

人工智能 2023年7月16日
0066
python实现图书管理系统

Python基于函数模块化设计的图书管理系统函数模块，操作权限，内存调用Python函数的模块化设计可以解决现实中的问题。该过程就是抽象的问题进行函数模块化设计。图书管理系统…

人工智能 2023年7月5日
0058

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

NLP 前置知识3 —— 预训练模型

大家都在看