【Pytorch神经网络理论篇】 36 NLP中常见的任务+BERT模型+发展阶段+数据集

2023年5月30日下午8:57 • 人工智能 • 阅读 109

同学你好！本文章于2021年末编写，获得广泛的好评！

故在2022年末对本系列进行填充与更新，欢迎大家订阅最新的专栏，获取基于Pytorch1.10版本的理论代码(2023版)实现，

Pytorch深度学习·理论篇(2023版)目录地址为：

CSDN独家 | 全网首发 | Pytorch深度学习·理论篇(2023版)目录本专栏将通过系统的深度学习实例，从可解释性的角度对深度学习的原理进行讲解与分析，通过将深度学习知识与Pytorch的高效结合，帮助各位新入门的读者理解深度学习各个模板之间的关系，这些均是在Pytorch上实现的，可以有效的结合当前各位研究生的研究方向，设计人工智能的各个领域，是经过一年时间打磨的精品专栏！【Pytorch神经网络理论篇】 36 NLP中常见的任务+BERT模型+发展阶段+数据集 https://v9999.blog.csdn.net/article/details/127587345 ; 欢迎大家订阅(2023版)理论篇

以下为2021版原文~~~~

【Pytorch神经网络理论篇】 36 NLP中常见的任务+BERT模型+发展阶段+数据集

1 NLP发展阶段

深度学习在NLP上有两个阶段：基础的神经网络阶段

1.1 基础神经网络阶段

1.1.1 卷积神经网络

将语言当作图片数据，进行卷积操作。

1.1.2 循环神经网络

按照语言文本的顺序，用循环神经网络来学习一段连续文本中的语义。

1.1.3 基于注意力机制的神经网络

是一种类似于卷积思想的网络。它通过矩阵相乘，计输入向量与目的输出之间的相似度，进而完成语义的理解。

1.2 BERTology阶段

通过运用以上3种基础模型，不断地搭建出拟合能力越来越强的模型，直到最终出现了BERT模型。

1.2.1 BERT的发展

BERT模型几乎在各种任务上都优于其他模型，最终演变出多种BERT的预训练模型：

引入BERT模型中双向上下文信息的广义自回归模型XLNet；
改进BERT模型训练方式和目标的RoBERTa和SpanBERT模型；
结合多任务和知识蒸馏强化 BERT 模型的MT-DNN模型

1.2.2 关于BERT模型的疑问

试图探究BERT模型的原理及其在某些任务中表现出众的真正原因。BERT模型在其出现之后的一个时段内，成为NLP任务的主流技术思想。这种思想也称为BERT学。

2 NLP常见的任务

NLP可以细分为自然语言理解(Natural Language Understanding， NLU) 与自然语言生成(Natural Language Generation，NLG) 两种情况。

2.1 基于文章处理的任务

2.1.1 含义

主要是对文章中的全部文本进行处理，即 文本挖掘。该任务的文章为单位，模型会对文章中的全部文本进行处理，得到该篇文章的语义。当得到语义之后，便可以在模型的输出层，按照具体任务输出相应的结果。

2.1.2 基于文章处理任务的细分

序列到类别：如文本分类和情感分析。
同步序列到序列：是指为每个输入位置生成输出，如中文分词、命名实体识别和词性标注。
异步序列到序列：如机器翻译、自动摘要。

2.2 基于句子处理的任务/序列级别任务

主要包括句子分类任务（如情感分类)、句子推断任务（推断两个句子是否同义）及句子生成任务（如回答问题、图像描述）等。

2.2.1 句子分类任务及相关数据集

句子分类任务常用于评论分类、病句检查等场景，常用的数据集如下：

SST-2(Stanford Sentiment Treebank)：这是一个二分类数据集，目的是判断一个句子（句子来源于人们对一部电影的评价）的情感。
CoLA(Corpus of Linguistic Acceptability)：这是一个二分类数据集，目的是判断一个英文句子的语法是否正确。

2.2.2 句子推断任务及相关数据集

句子推断任务（又称基于句子对的分类任务）的输入是两个成对的句子，其目的是判断两个句子的意思是蕴含、矛盾的，还是中立的。常用在智能问答，智能客服及多轮对话中。常见数据集如下：

MNLI：这是GLUEDatasets数据集中的一个数据集，是一个大规模的、来源众多的数据集，目的是判断两个句子语义之间的关系。
QQP(Quora Question Pairs)：这是一个二分类数据集，目的是判断两个来自Quora的问题句子在语义上是否是等价的。
QNLI(Question Natural Language Inference)：这也是一个二分类数据集，每个样本包含两个句子(一个是问题，另一个是答案)。正向样本的答案与问题相对应，负向样本则相反。
STS-B(Semantic Textual Similarity Benchmark)：这是一个类似回归问题的数据集，给出一对句子，使用1～5的评分评价两者在语义上的相似程度。
MRPC(Microsoft Research Paraphrase Corpus)这是一个二分类数据集，句子对来源于对同一条新闻的评论，判断这一对句子在语义上是否相同。
RTE(Recognizing Textual Entailment)：这是一个二分类数据集，类似于MNLI数据集，但是数据量较少。
SWAG(Situations With Adversarial Generations)：这是一个问答数据集，给一个陈述句子和4个备选句子，判断前者与后者中的哪一个最有逻辑的连续性，相当于阅读理解问题。

2.2.3 句子生成任务及数据集

句子生成任务：属于类别（实体对象）到序列任务，如文本生成、回答问题和图像描述。

典型数据集如下：

SQuAD数据集的样本为语句对（两个句子)。其中，第一个句子是一段来自某百科的文本，第二个句子是一个问题（问题的答案包含在第一个句子中)。这样的语句对输入模型后，要求模型输出一个短句作为问题的答案。
SQuAD2.0，它整合了现有的SQuAD数据集中可回答的问题和50000多个由公众编写的难以回答的问题，其中那些难以回答的问题与可回答的问题语义相似。它弥补现有数据集中的不足。现有数据集要么只关注可回答的问题，要么使用容易识别的自动生成的不可回答的问题作为数据集。
为了在SQuAD2.0数据集中表现得更好，模型不仅要在可能的情况下回答问题，还要确定什么时候段落的上下文不支持回答。

2.3基于句子中词的处理任务

基于句子中词的处理任务又叫作token级别任务，常用于完形填空(Cloze)、预测句子中某个位置的单词（或实体词）、对句子中的词性进行标注等。

2.3.1 token级别任务与BERT模型

token级别任务也属于BERT模型预训练的任务之一，即完形填空，根据句子中的上下文token，推测出当前位置应当是什么token。

BERT模型预训练时使用了遮蔽语言模型（Masked Language Model，MLM)。该模型可以直接用于解决token级别任务，即在预训练时，将句子中的部分token用[masked]这个特殊的token进行替换，将部分单词遮掩住。该模型的输出就是预测[masked]对应位置的单词。这种训练的好处是不需要人工标注的数据，只需要通过合适的方法，对现有语料库中的句子进行随机的遮掩即可得到可以用来训练的语料，训练好的模型就可以直接使用。

2.3.2 token级别任务与序列级别任务

在某种情况下，序列级别任务也可以拆分成token级别任务来处理。

SQuAD数据集是一个基于句子处理的生成式数据集。这个数据集的特殊性在于最终的答案包含在样本的内容之中，是有范围的，而且是连续分布在内容之中的。

2.3.3 实体词识别任务及常用模型

实体词识别(Named Entity Recognition，NER)任务也称为实体识别、实体分块或实体提取任务。它是信息提取的一个子任务，旨在定位文本中的命名实体，并将命名实体进行分类，如人员、组织、位置、时间表达式、数量、货币值、百分比等。

本质：对句子中的每个token标注标签，然后判断每个token的类别，可以用于快速评估简历、优化搜索引擎算法、优化推荐系统算法等。

常见的实体词识别模型包括：

SpaCy模型是一个基于Python的命名实体识别统计系统，它可以将标签分配给连续的令牌组。SpaCy模型提供了一组默认的实体类别，这些类别包括各种命名或数字实体，如公司名称、位置、组织、产品名称等。这些默认的实体类别还可以通过训练的方式进行更新。
Stanford NER模型是一个命名实体Recognizer，用Java实现。它提供了一个默认的实体类别，如组织、人员和位置等，可支持多种语言。

Original: https://blog.csdn.net/qq_39237205/article/details/124215479
Author: LiBiGo
Title: 【Pytorch神经网络理论篇】 36 NLP中常见的任务+BERT模型+发展阶段+数据集

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/545062/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ubuntu安装opencv_contrib扩展库，附踩坑+测试

博主昨晚需要用到OpenCV的SURF接口，但是发现无法调用，因为没有头文件。于是查阅了下资料，发现这些库已经被美国买下专利，成为付费库，都在opencv_contrib中。如果你…

人工智能 2023年5月26日
00100
知识建模和本体工程学习笔记

知识建模与本体工程文章目录知识建模与本体工程 * 一、本体工程 – 1.1 Ontology & Schema 1.2 手工构建本体 1.3 复用已有本体 …

人工智能 2023年6月10日
0086
CenterNet目标检测【详解】

文章目录 * – + 1、CornerNet 和ExtremeNet + 2、CenterNet模型流程 + 3、Backbone + 4、Heatmap与Loss +…

人工智能 2023年7月12日
0072
数据处理与分析｜涵盖七大分析方法

作者：JanieLiu公众号《溜溜笔记说》本文针对性的讲讲数据分析整个流程最关键的阶段: 数据处理与分析阶段。该阶段我分成了三块：数据采集、数据处理、数据分析，都围绕着&#822…

人工智能 2023年6月11日
0076
谈谈事件相机在自动驾驶领域的应用前景

在自动驾驶发展的历程中，视觉算法的应用已经成为不可或缺的一部分。但当前的视觉算法仍然存在着一些局限性：一方面，相机容易受到光线明暗突变、逆光等影响；另一方面，相机在运行时，产生的数…

人工智能 2023年6月2日
00153
Python输出字典的键和值

【小白从小学Python、C、Java】【Python全国计算机等级考试】【Python数据分析考试必会题】● 标题与摘要Python输出字典的键和值items()方法 ● 选择题…

人工智能 2023年7月5日
00114
Tensor Flow PB文件量化到TFLITE

一般在Slim上进行完迁移训练之后我们想将它量化到TFLITE需要先将CKPT量化到PB，在将PB量化到TFLITE，这个原因是因为格式的原因，CKPT是使用多个文件存储模型不同的…

人工智能 2023年5月25日
0084
支持哪些编程语言

问题描述问题涉及的是关于支持哪些编程语言这个主题。具体而言，我们将讨论如何在Python中实现对编程语言的支持。详细介绍编程语言是计算机与人之间交流的桥梁，可以用于编写和运行…

人工智能 2023年12月31日
0046
目标检测算法 YOLOv7 学习笔记

论文题目：YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object dete…

人工智能 2023年6月17日
00108
python–中文分词与词云制作–入门笔记（附停用词库及Mac字体资源）

这里写自定义目录标题一、中文分词基本说明二、停用词库、自定义词典的使用 * （一）停用词（二）自定义词典三、词云绘制四、中文字体的使用说明 * （一）Mac 字体使用说明…

人工智能 2023年5月28日
0073
竞争性自适应重加权算法-CARS-python版

竞争性自适应重加权采样法（competitive adapative reweighted sampling， CARS）是一种结合蒙特卡洛采样与PLS模型回归系数的特征变量选择方…

人工智能 2023年6月15日
00111
Pytorch二元交叉熵损失函数种类及接口

之前学了很久的Tensorflow，最近也在研究Pytorch，对损失函数的部分做以下的总结。本文只介绍二分类的二元交叉熵损失。这里不考虑batchsize的情况。只聚焦于公式本身…

人工智能 2023年5月26日
0075
什么是架构

; 一、前言架构，又名软件架构，是有关软件整体结构与组件的抽象描述，用于指导大型软件系统各个方面的设计。架构描述语言（ADL）用于描述软件的体系架构。软件架构（software…

人工智能 2023年7月31日
0071
python实现LBP纹理提取

什么是LBP纹理特征？ LBP（Local Binary Patterns，局部二值模式）是提取局部特征作为判别依据的，一种有效的纹理描述算子，度量和提取图像局部的纹理信息。它具有…

人工智能 2023年6月18日
0060
tkinter模块高级操作（一）—— 透明按钮、透明文本框、自定义按钮及自定义文本框

【写在前面】 —— 众所周知，tkinter模块中自带的Button类是无法做到使其透明的（至少我无法做到）【tip：透明是指让背景颜色或图片穿过按钮而显示出来】 —— 找遍了Bu…

人工智能 2023年7月4日
0081
无监督语义相似度

没有成对的文本，如何计算语义相似度 bert方面的坑 bert计算出来句子之间的相似度很接近，在我的数据集上finetune之后稍微好一点点，用的是cls的输出直接作为句子的向量，…

人工智能 2023年6月5日
0086

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31