1_Pre-training & Language model

2023年5月30日下午2:04 • 人工智能 • 阅读 80

语言模型

语音识别中比较重要的两个模型为声学模型和语言模型。

其中声学模型主要是用于将输入的语音解码为相应的音节序列，而语言模型就是将音节序列识别为文本内容。

语言模型是用来计算一个句子的概率的模型，也就是判断一句话是不是人话的概率。语言模型是使用大量的文本语料库训练出来的，可利用某门语言本身的统计规律来帮助提升识别的正确率。

; 技术难点

语言模型的性能，很大程度上取决于语料的质量和体量，和特定任务匹配的大语料是最重要的。但是实际应用中，这样的语料不易找到。

传统的ngram建模技术，对长距离的依赖处理欠佳，并且建模的参数空间过于庞大，近年来提出的神经网络语言模型技术一定程度上解决了这些问题，但缺点是训练时间长，实际应用中速度较慢。

预训练

预训练指的是，使用尽可能多的训练数据，从中提取出尽可能多的共性特征，从而让模型对特定任务的学习负担变轻。

几类预训练语言模型方法

预训练语言模型具有无监督训练属性，非常容易获取海量训练样本，并且训练好的语言模型包含很多语义语法知识，对于下游任务的效果会有非常明显的提升。

经典的预训练模型

Bert、GPT、ELMo

改进与创新

GPT系列

GPT-2：
相比GPT增加了语料，增大了模型尺寸，但基本结构和GPT差不多。
GPT-2的核心思想是，任何一个有监督NLP任务，都可以看成是语言模型的一个子集，只要预训练语言模型的容量足够大，理论上就能解决任何NLP任务，语言模型在这里就是无监督的多任务学习。
GPT-2的核心就是提升模型的容量和数据多样性，让语言模型能够达到解决任何任务的程度。
GPT-3：
进一步增大了模型尺寸，模型参数量是GPT-2的100倍。
GPT-3的核心思想在于不进行finetune（zero-shot learning）就可以对下游任务生成预测结果。其做法为将下游任务转换为一系列的文本，直接通过语言模型预测出结果。
后续：
GPT的后续优化思路是不断提升训练语料丰富度和模型容量，使语言模型能够从大量文本中学习到各个NLP任务的解决方法。
再通过zero-shot learning的方式实现不进行finetune，就可以让预训练模型直接进行下游任务预测。

Bert系列

RoBERTa：
首先采用了dynamic mask，这样相比原来的Bert，可以达到同一个文本在不同epoch被mask掉的token不同，相当于做了一个数据增强。
其次，分析了训练样本应该如何构造，发现从同一个document构造输入单句子的输入文本而非pair对，效果会有一定提升。
最后，RoBERTa增大了batch size以及对BPE输入文本的分词方法进行了升级。
ALBERT：
提出了一个轻量级的Bert模型，以此降低Bert的运行开销。
将原来Bert中的NSP任务中的coherence prediction单独分离出来，克服了在原Bert中学习程度不足的问题。
ELECTRA：
采用了GAN的思路。
通过对抗学习的方式，让discriminator预测被mask掉的token能力逐渐增强，也即从文本中提取信息的能力增强。

其他创新

从知识增强的角度进行优化。相比原来的Bert，ERNIE引入了如知识图谱等外部知识信息。这样的好处在于，有一些文本如果不知道某些词组代表一个实体的话，模型是很难学习的，例如一些人名、地名等。
提出了新的预训练范式。比如一种为包括两个阶段：首先原文本使用某种noise function进行破坏，然后使用sequence-to-sequence模型还原原始的输入文本。

预训练模型对于NLP非常重要，未来的研究趋势也在让下游任务更加去适配预训练模型，以此来最大程度发挥预训练模型的能力

Original: https://blog.csdn.net/m0_57689584/article/details/126405831
Author: Misivoa
Title: 1_Pre-training & Language model

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/542993/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

anaconda装在d盘,但是工作终端为什么自己在C盘

虚拟环境默认路径：安装Anaconda在d盘，那么新建环境（比如：tensorflow环境）就默认在d盘中的Anaconda的envs中/同理，在命令行端（ Anaconda …

人工智能 2023年6月16日
0090
2021年电赛F题智能送药小车（国二）开源分享

文章目录题目任务前言（闲话）一、团队分工介绍二、题目分析、破题 * 1.要点分析 2.系统方案三、电控部分 * 1、主控拓展电路 2、步进电机驱动信号整合板 PCB设计分…

人工智能 2023年5月26日
0080
tensorflow安装步骤（CPU版本，Anaconda环境下，Windows10）

本文主要讲述了在Anaconda环境下，CPU版本tensorflow2.3.0的安装步骤，Windows10系统中Anaconda的安装步骤可以阅读此篇博客：Anaconda安装…

人工智能 2023年6月16日
0068
tensorflow基础学习-anaconda方式安装tensorflow（gpu-2.5版本）

基于tensorflow1.0+太混乱了，博主转战2.5tensorflow1.0+相应的安装过程可以见tensorflow1.15.0安装 ; 1、安装前确定版本信息 2、创建虚…

人工智能 2023年5月26日
0089
Framework是否支持分布式训练中的参数同步和通信机制

详细介绍在机器学习的分布式训练中，参数同步和通信机制是非常重要的技术，可以确保不同计算节点之间的参数保持一致。一个好的分布式训练框架应该支持这些机制，以实现高效的模型训练。算法…

人工智能 2024年1月1日
0050
朴素贝叶斯算法：对文本进行分类

文章目录一、什么是朴素贝叶斯算法？二、使用贝叶斯算法对文本进行分类 * 1、获取数据 2、划分数据集 3、特征工程(文本特征处理) 4、朴素贝叶斯预估器流程 5、模型评估 6、…

人工智能 2023年7月2日
0083
python —skleran分类示例（全流程）

本文讲解skleran分类的一般流程文章目录一、输出标签化 * 1.1使用pandas对类别进行标签化 1.2使用sklearn对类别进行标签化二、分类示例 ; 一、输出标签…

人工智能 2023年7月2日
0087
把盏言欢,款款而谈,ChatGPT结合钉钉机器人(outgoing回调)打造人工智能群聊/单聊场景,基于Python3.10

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0044
知识图谱–第三章：知识存储（1）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月28日
0070
VS编译OpenCV和OpenCV-contrib

1、下载OpenCV源码官网：Releases – OpenCV ; 2、下载OpenCV-Contrib源码 GitHub地址：opencv_contrib 为什么…

人工智能 2023年7月18日
0078
Python每日一练—–买卖股票的最佳时机Ⅲ

动态规划解法进行动态规划五部曲 ✨ 1.分析确定dp数组以及其下标的含义或状态分析这里不用dp数组，进行状态分析在第i天结束后，有下面5个状态（1）不买也不卖（2）进行了一…

人工智能 2023年6月18日
0072
【预训练语言模型】KG-BERT: BERT for Knowledge Graph Completion

【预训练语言模型】KG-BERT: BERT for Knowledge Graph Completion 核心要点：知识图谱是不全的，先前的补全方法只是考虑稀疏的结构信息，忽略…

人工智能 2023年5月28日
00102
Halcon区域形状特征-area_center、area_holes、select_shape、inner_circle和smallest_rectangle2算子

提示：文章参考了网络上其他作者的文章，以及相关书籍，如有侵权，请联系作者。前言在场景中选择物体的特征是图像测量或者识别的重要基础。区域的形状特征是非常常用的特征，在模式匹配中，…

人工智能 2023年6月22日
0077
MATALAB图像处理

一、图像反转 I=imread(‘input_image.jpg’); J=double(I); J=-J+(256-1); %图像反转线性变换 H=uin…

人工智能 2023年6月20日
0058
【持续更新】Jetson Nano 人工智能机器人开发实战案例——RosmasterX3A1

1、Jetson简介Jetson Nano是Nvidia在Jetson XAVIER NX/TX2 NX获得成功后于2019年3月上市的低配版GPU运算平台。图 1-11.1参数…

人工智能 2023年7月12日
00153
ASSIST: Towards Label Noise-Robust Dialogue State Tracking论文笔记

ASSIST: Towards Label Noise-Robust Dialogue State Tracking 面向标签噪声鲁邦性的对话状态追踪 Abstract 问题所在：…

人工智能 2023年5月28日
0069

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31