通俗易懂地理解BERT并微调

2023年5月27日下午8:49 • 人工智能 • 阅读 111

输入部分：
对于transformer来说，输入部分会进行两个操作，包括Input Embedding和Positional Encoding两部分。
Input Embedding就是将输入转为词向量，可以是随机初始化，也可以是使用word2vec。
Positional Encoding就是位置编码，用正余弦三角函数来代表它。

上面是输入部分的操作，那么输入是什么呢？

[En]

The above is the operation of the input part, so what is the input?

实际上输入由三部分组成：Input = token embedding + segment embedding + position embedding

首先看Input部分，重点关注两个部分：

正常词汇：my, dog, is, cute, he, likes, play, ##ing(这种符号是分词后的产物，不用特意关注，当做正常词看就行)
特殊词汇：[CLS], [SEP]
两种特殊词汇的产生是由于BERT的预训练任务有一个是NSP(Next Sentence Prediction)二分类任务，是去判断 两个句子之间的关系。[SEP]就是为了告诉机器，在这个符号之前的是一个句子，在这个符号之后的是另一个句子。[CLS]是用于二分类的特殊符号，在训练时会将[CLS]的输出向量接一个二分类器来做二分类任务。但请注意，[CLS]的输出向量并不能代表句子的语义信息（用CLS做无监督的文本相似度时效果很差）。bert pretrain模型直接拿来做sentence embedding效果甚至不如word embedding，CLS的embedding效果最差（也就是pooled output），把所有普通token embedding做pooling勉强能用（这也是
开源项目bert-as-service的默认做法），但也不会比word embedding更好。
Token Embeddings：对所有词汇进行正常的embedding，比如随机初始化等。
Segment Embeddings：用于区分两个句子，如上图所示，第一个句子的单词全是E A E_A E A ，第二个句子的单词全是E B E_B E B 。
Position Embeddings：这一部分和基础结构中输入部分的Positional Encoding操作是 不同的。Positional Encoding使用正余弦函数，而Position Embeddings使用的是随机初始化，让模型自己学习出来Embedding。

最开始那张图仅仅是基础结构，因为在原论文中使用的是多个encoder堆叠在一起，如BERT-BASE结构是通过12个encoder堆叠在一起。

; 预训练步骤

分为MLM(Mask Language Model)和NSP(Next Sentence Prediction)两步

MLM(Mask Language Model)

BERT在预训练时使用的是大量的无标注语料，所以预训练任务要考虑用无监督学习来做。

无监督目标函数：

AR(Auto Regressive)：自回归模型，只考虑单侧的信息，典型的就是GPT
AE(Auto Encoding)：自编码模型，从损坏的输入数据中预测重建原始数据，可以使用上下文的信息，这也是BERT使用的方法。

例如，有一句话：“我喜欢吃东西]

[En]

For example, there is a sentence: “I like to eat]

AR：P ( 我爱吃饭 ) = P ( 我 ) P ( 爱 ∣ 我 ) P ( 吃 ∣ 我爱 ) P ( 饭 ∣ 我爱吃 ) P(我爱吃饭) = P(我)P(爱|我)P(吃|我爱)P(饭|我爱吃)P (我爱吃饭)=P (我)P (爱∣我)P (吃∣我爱)P (饭∣我爱吃)

AE：mask之后：【我爱mask饭】
P ( 我爱吃饭 ∣ 我爱 m a s k 饭 ) = P ( m a s k = 吃 ∣ 我爱饭 ) P(我爱吃饭|我爱mask饭) = P(mask = 吃|我爱饭)P (我爱吃饭∣我爱m a s k 饭)=P (m a s k =吃∣我爱饭)
打破了原本文本，让他进行文本重建，模型要从周围文本中不断学习各种信息，努力地让他能够预测或无限接近mask这里应该填”吃”。
但mask模型也有缺点：
若mask后【我爱mask mask】
优化目标：P ( 我爱吃饭 ∣ 我爱 m a s k m a s k ) = P ( 吃 ∣ 我爱 ) P ( 饭 ∣ 我爱 ) P(我爱吃饭|我爱mask mask) = P(吃|我爱)P(饭|我爱)P (我爱吃饭∣我爱m a s k m a s k )=P (吃∣我爱)P (饭∣我爱)
这里”吃”和”饭”模型会认为是相互独立的，但实际上我们知道”吃”和”饭”这两个词并不是独立的，室友一定关联的。

下面将介绍mask的具体过程：
随机mask 15%的单词，但并不是这些单词都要替换成mask。这15%的单词中，选出其中80%的单词直接替换成mask，其中10%的单词原封不动，剩下10%替换成其他单词，可以看代码更好地理解一下：

for index in mask_indices:

    if random.random() < 0.8:
        masked_token = "[MASK]"
    else:

        if random.random() < 0.5:
            masked_token = tokens[index]

        else:
            masked_token = random.choice(vocab_list)

NSP

NSP样本如下：

从训练语料库中取出两个连续的段落作为正样本
从不同文档中随机创建一对段落作为负样本
缺点：主题预测（两段文本是否来自同一文档）和连贯性预测（两个段落是不是顺序关系）合并成一个单项任务。由于主题预测是非常简单的，非常容易去学习，导致NSP很容易没有效果。

下游任务微调BERT

(a)句子对分类：也可以说是文本匹配任务，把两个句子拼接起来，用CLS输出判断，如0—不相似，1—相似；
(b)单个句子分类：用CLS输出做分类；
©问答
(d)序列标注任务：把每一个Token输入，做一个softmax，看他属于哪一个。

; 如何提升BERT下游任务表现

最简单的步骤：

获取谷歌中文BERT
基于任务数据进行微调

多一点改进(四步，以微博文字情感分析为例)：

[En]

A little more improvement (four steps, take Weibo text emotion analysis as an example):

在大量通用语料上训练一个LM(Language Model，语言模型，以下简称LM)（Pretrain）；
——一般不去做，直接用中文谷歌BERT
在 相同领域上继续训练LM（Domain transfer）;
——在大量 _微博文本_上训练这个BERT
在 任务相关的小数据上继续训练LM（Task transfer）；
——在 _微博情感文本_上（有的文本不属于情感分析的范畴）
在任务相关数据上做具体任务（Fine-tune）

一般情况下，先 Domain transfer，再进行 Task transfer，最后 Fine-tune，性能是最好的。

如何在相同领域数据中进行further pre-training

动态mask：每次epoch去训练的时候mask，每次训练的mask很大概率是不一样的，而不是一直使用同一个。
n-gram mask：比如 ERNIE 和 SpanBert 都是类似于做了实体词的mask

参数：
Batch size：16，32——影响不太大
Learning rate(Adam)：5e-5，3e-5，2e-5，尽可能小一点，避免灾难性遗忘
Number of epoch：3，4
Weighted decay修改后的Adam，使用warmup，搭配线性衰减

Original: https://blog.csdn.net/Friedrichor/article/details/123768705
Author: friedrichor
Title: 通俗易懂地理解BERT并微调

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/527659/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

机器学习（三）—— 线性回归

线性回归 1. 线性回归的概念线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法 ——百度百科线性：经过模型训练，得到自变量和因变量…

人工智能 2023年6月17日
00108
React学习8（DOM的diff算法）

1.虚拟DOM中Key的作用 Key是虚拟DOM对象中的标识，当状态中的数据发生变化时，react会根据新数据生成新的虚拟 DOM,随后,react进行新虚拟Dom与旧虚拟DOM的…

人工智能 2023年7月29日
0067
参考 | 如何利用 ffmpeg/python/飞书自制字幕

参考 | 如何利用 ffmpeg/python/飞书自制字幕文章目录参考 | 如何利用 ffmpeg/python/飞书自制字幕 1. ffmpeg设置默认音频 2. py…

人工智能 2023年5月25日
00107
基于深度学习的图像配准

人的眼睛或者相机的FOV（视场）有限，所以很难将景色尽收眼底，医疗影像设备同样受限于FOV的大小，很难同时扫描整个解剖部位，这时就需要拼接算法将不同角度拍摄的部分图像拼成一幅全景图…

人工智能 2023年6月25日
0070
封装一个丝滑的聊天框组件

需求背景应公司业务要求，需要做个聊天机器人，要适应不同的业务场景，大概就跟淘宝客服类似，发送消息，机器人自动回复。话不多说，直接开撸技术栈： react（hooks写法） +…

人工智能 2023年7月30日
0050
机器学习中的数学——距离定义（一）：欧几里得距离（Euclidean Distance）

分类目录：《机器学习中的数学》总目录相关文章：· 距离定义：基础知识· 距离定义（一）：欧几里得距离（Euclidean Distance）· 距离定义（二）：曼哈顿距离（Manh…

人工智能 2023年6月23日
0078
内置googletts并且内置中文语音包

先上补丁 diff –git a/frameworks/base/core/java/android/speech/tts/TextToSpeech.java b/framewo…

人工智能 2023年5月23日
0059
视频结构化 AI 推理流程

「视频结构化」是一种 AI 落地的工程化实现，目的是把 AI 模型推理流程能够一般化。它输入视频，输出结构化数据，将结果给到业务系统去形成某些行业的解决方案。换个角度，如果你想用…

人工智能 2023年6月4日
0096
02标准建模流程:数据准备

1.1数据导入 1、数据孤岛A表在某个平台，B表在另外的平台，通过主键将A表和B表进行匹配，此时需要判断能匹配上的量级。● 量级过小（对于评分卡要求正负样本的数量不少于1500个，…

人工智能 2023年7月16日
0066
splines | 多项式回归和样条曲线回归

当变量之间存在非线性关系时，线性回归就不再适用，这时可以转而使用其他非线性模型。但是，线性回归毕竟是统计建模的基础，通过本篇的介绍，可以看到即使是非线性关系有时也可以通过变换然后使…

人工智能 2023年6月17日
0098
AAAI 2022上那些值得关注的NLP论文

©PaperWeekly 原创 · 作者 |王馨月单位 |四川大学研究方向 |自然语言处理缩略词 1.1 SimCLAD 论文标题： SimCLAD: A Simple Fr…

人工智能 2023年5月30日
0083
在多用户访问的情况下，如何处理并发请求

问题描述在多用户访问的情况下，如何处理并发请求？并发请求是指多个用户同时向服务器发送请求的情况。我们需要设计一个算法来解决这个问题，以确保并发请求可以高效地处理。算法原理我们…

人工智能 2024年1月4日
0041
Windows下安装使用ADB，简单易懂教程

下载因为adb工具是放在android sdk里platform-tools中的，所以只需要到浏览器（推荐使用Google Chroma）中搜索android sdk到官网进行下…

人工智能 2023年5月30日
00100
Python_Dataframe_去除重复数据

去除指定单列或多列中的完全重复的项通过drop_duplicates()函数实现，需要利用Pandas包。其中： 1、subset=[] 表示整个dataframe基于[]内选定…

人工智能 2023年7月14日
0080
10.绘制统计图形——箱线图

文章目录 1.应用场景——多组定量数据的分布比较 2.绘制原理 3.延伸——箱体、箱须、离群值的含义和计算方法 4.水平方向的箱线图 5.不绘制离群值的水平放置的箱线图箱线图是由…

人工智能 2023年6月19日
0067
【Python数据分析】利用Python删除EXCEL表格中指定的列数据或行数据

如何利用Python删除EXCEL表格中指定的列数据？今天与大家一起分享一下DataFrame对象的drop（）函数，drop（）函数可根据标签删除EXCEL表格中的列数据或行数据…

人工智能 2023年7月4日
00297

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

通俗易懂地理解BERT并微调

目录

MLM(Mask Language Model)

NSP

大家都在看