BERT微调finetune笔记

2023年5月28日上午10:53 • 人工智能 • 阅读 84

参考：

代码：

http://www.d2l.ai/chapter_natural-language-processing-applications/natural-language-inference-bert.html

一. 回顾Transformer

Transformer就是结合了自注意力机制的encoder-decoder网络。

图的左边是Encoder右边是Decoder

; 二. BERT是什么有什么用

1.BERT的优点

在我们熟知的图像处理方向，模型微调的技术已经十分的成熟，我们CNN在学习过程中可以提取到一些深层特征和浅层特征，浅层的CNN网络往往学习到一些边缘，形状的很低级的特征，而深层网络可以学习到更加高级的特征，这些特征在许多图像处理问题中是通用的，所以可以载入预先训练好的模型权重，根据具体问题修改输出层进行再训练就可以取得比较好的效果。

在NLP领域的模型预训练和微调，就是采用的BERT,我们可以用特定的文本处理任务训练BERT,再将训练好的BERT模型进行魔改以适应不同的任务。

BERT有如下的特点：

采用MLM对双向的Transformers进行预训练，以生成深层的双向语言表征。
预训练后，只需要添加一个额外的输出层进行fine-tune，就可以在各种各样的下游任务中取得很好的表现。在这过程中并不需要对BERT进行任务特定的结构修改。

2. BERT与Transformer的联系

我们可能都知道BERT只采用了Transformer的Encoder部分，但实际上这样的说法很容易让人产生误解，让人以为BERT只是Transformer的缩小版而已，实际上BERT模型比是Transformer大几个数量级。

下图更加直观地展示了BERT与Transformer之间的关系。

BERT将Transformer的编码器部分进行叠加。

论文中的BERT提供了简单和复杂两个模型，对应的超参数分别如下：

在上面的超参数中，L表示网络的层数（即Transformer blocks的数量），A表示Multi-Head Attention中self-Attention的数量，filter的尺寸是4H。

; 三. BERT预训练

1. 关于自监督学习Self-supervised-learning

自监督学习与监督学习的区别在于标签并不是特意标注的，而是通过训练数据集自己产生的，而BERT可以看作是一种自监督学习模型，即BERT在进行与训练的时候所用的标签其实就是来自与文本数据自身。

具体是如何做到的呢？主要是通过两个预训练任务的设计来实现的，一个是MLM(Masked Language Model),另一个是NSP(Next Sentence Prediction),这个之后再解释。

; 2. BERT输入表示

BERT的输入为每一个token对应的表征（图中的粉红色块就是token，黄色块就是token对应的表征），并且单词字典是采用WordPiece算法来进行构建的。

每一个token对应的表征组成一个编码向量（长度是512），该编码向量是3个嵌入特征的单位和，这三个词嵌入特征是：

WordPiece 嵌入： WordPiece是指将单词划分成一组有限的公共子词单元，能在单词的有效性和字符的灵活性之间取得一个折中的平衡。例如将’playing’被拆分成了’play’和’ing’；
位置嵌入（Position Embedding）：位置嵌入是指将单词的位置信息编码成特征向量，位置嵌入是向模型中引入单词位置关系的至关重要的一环。位置嵌入其实就是一种代替位置编码的方法，当初讲自注意力机制的时候，使用的是不用带参数的位置编码，并且采用的是三角函数，为的是让输入数据带有位置信息，而BERT延续了这一思想，只不过将参数全部改成了可以学习的参数。
分割嵌入（Segment Embedding）：用于区分两个句子，例如B是否是A的下文（对话场景，问答场景等）。对于句子对，第一个句子的特征值是0，第二个句子的特征值是1。

两个特殊符号 [CLS]和 [SEP]，其中 [CLS]表示该特征用于分类模型，对非分类模型，该符合可以省去。 [SEP]表示分句符号，用于断开输入语料中的两个句子。

3. BERT预训练任务

3.1 Masked Language Model（MLM）

所谓MLM是指在训练的时候随即从输入预料上mask掉一些单词，然后通过的上下文预测该单词，该任务非常像完形填空。

mask的好处，即预测一个词汇时，模型并不知道输入对应位置的词汇是否为正确的词汇（ 10% 概率），这就迫使模型更多地依赖于上下文信息去预测词汇，并且赋予了模型一定的纠错能力。

这个mask可以是特殊符号”也可以是随机选取一些乱七八糟的符号，又或者是原来正确的符号。

在BERT的实验中，15%的WordPiece Token会被随机Mask掉。在训练模型时，一个句子会被多次喂到模型中用于参数学习，但是Google并没有在每次都mask掉这些单词，而是在确定要Mask掉的单词之后，80%的时候会直接替换为[Mask]，10%的时候将其替换为其它任意单词，10%的时候会保留原始Token。

80%： my dog is hairy -> my dog is [mask]
10%： my dog is hairy -> my dog is apple
10%： my dog is hairy -> my dog is hairy

这么做的原因是如果句子中的某个Token100%都会被mask掉，那么在fine-tuning的时候模型就会有一些没有见过的单词。加入随机Token的原因是因为Transformer要保持对每个输入token的分布式表征，否则模型就会记住这个[mask]是token ‘hairy’，但是实际fine-tune的时候并没有[mask]这个符号。至于随机单词带来的负面影响，因为一个单词被随机替换掉的概率只有15%*10% =1.5%，这个负面影响其实是可以忽略不计的。

; 3.2 Next Sentence Prediction（NSP）

为了帮助理解两个⽂本序列之间的关系，BERT在预训练中考虑了⼀个⼆元分类任务——下⼀句预测。在为预训练⽣成句⼦对时，有⼀半的时间它们确实是标签为”真”的连续句⼦；在另⼀半的时间⾥，第⼆个句⼦是从语料库中随机抽取的，标记为”假”。

预测一个句子对中的两个句子是否相邻
训练样本中：
50%概率选择相邻句子对:this movie is great i like it
50%概率选择随机句子对:this movie is great hello world
将对应的输出放到一个全连接层来预测

关于NSP是否有用是存在争议的，(参见RoBERTa这篇论文)。因为选定一个句子作为前一个句子，大部分情况下随机选到的句子都不是后一个句子，也就是BERT是很容易判断出来两个句子是否相邻的。对此也有人提出了改进方法SOP，SOP更加侧重于判断两个句子的前后关系，而不是两个句子是否相邻。

Tips: BERT预训练是多任务模型的预训练，因此NSP和MLM两个任务的训练是同时进行的。

三. BERT微调fine-tune

1. 自然语言推理(Natural Language Inference)

自然语言推理研究是否有假设可以从前提推断出来，其中两者都是文本序列。换句话说，自然语言推理决定了一对文本序列之间的逻辑关系。这种关系通常分为三种类型：

蕴含（entailment）：假设可以从前提中推断出来。
矛盾（contradiction）：可以从前提中推断假设的否定。
中立（neutral）：所有其他情况。

自然语言推理也被称为识别文本蕴含任务。例如，下面的词元对将被标记为 蕴含（entailment），因为假设中的 “显示亲情” 可以从前提中的 “相互拥抱” 推断出来。

前提：两个女人互相拥抱。

假设：两个女人表现出亲情。

以下是矛盾的例子，因为 “运行编码示例” 表示 “没有睡觉” 而不是 “睡觉”。

前提：一个男人正在运行从 “潜入深度学习” 中的编码示例。

假设：那个男人在睡觉。

第三个例子显示了 * 中立性 * 关系，因为 “正在为我们表演” 这一事实既不能推断 “著名的” 也不是 “不出名”。

前提：音乐家们正在为我们表演。

假设：音乐家很有名。

2. NLI微调模型

BERT在预训练好之后就可以通过更改输出层来完成不同的任务，本节所讲的fine-tune应用是自然语言推理Natural Language Inference

本次微调所用的输出层很简单，直接在BERT输出层添加一个多层感知机。

; 3. SNLI数据集

To Be Continued !

Original: https://blog.csdn.net/K1052176873/article/details/121368013
Author: Kakaluotuo
Title: BERT微调finetune笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531073/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【神经网络】(10) Resnet18、34 残差网络复现，附python完整代码

各位同学好，今天和大家分享一下 TensorFlow 深度学习中如何搭载 Resnet18 和 Resnet34 残差神经网络，残差网络利用 shotcut 的方法成功解决了网络…

人工智能 2023年7月4日
0050
【opencv图像处理】–4. 低、高通滤波，卷积和各种算子

系列所有代码，复制粘贴即可运行。希望有能力的朋友还是拿C++运行一下。本节讨论图像的低通滤波（卷积，方盒，中值双边，高斯），高通滤波（Sobel,Scharr,Laplace,c…

人工智能 2023年6月25日
0079
基于LAC分词与gensim的词向量训练，pandas批量中文分词

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年5月31日
00102
知识图谱推理论文阅读 Learning to Walk across Time for Interpretable Temporal Knowledge Graph

来源：2021 KDD 模型代码： https://github.com/sharkmir1/T-GAP 主要贡献 1、提出了一种新的GNN编码器能够从时序知识图谱中有效地捕捉查询…

人工智能 2023年5月31日
0058
2021电赛F题智能送药小车方案分析(openMV数字识别,红线循迹,STM32HAL库freeRTOS,串级PID快速学习,小车自动返回）

2021全国大学生电子设计竞赛F题智能送药小车前提：本篇文章重在分享自己的心得与感悟，我们把最重要的部分，摄像头循迹，摄像头数字识别问题都解决了，有两种方案一种是openARTm…

人工智能 2023年7月19日
0057
多分类问题的混淆矩阵

混淆矩阵、查准率P和召回率R 参加夏令营时候遇到过混淆矩阵、查准率和召回率的计算方法的问题，今天看书又回顾到这个概念，个人觉得对这个概念还是需要有非常清醒的认识的，做个记录。二分…

人工智能 2023年7月1日
0060
FAQ 问答系统(新冠病毒/寝室)《《让电脑理解我说的话》》——更详细的了解和掌握自然语言知识（不再害怕面试~~~）=——-= 文章中含有源码分析

💋💋💋 如何让电脑听懂我说的话，或者说看懂我输入的文字，这时候自然语言处理该上台了。 🎁 背景在当下人力费用还是挺贵的，但是我们只要将所有的问题和答案放在后台或者数据库中，当需要…

人工智能 2023年7月6日
0070
lda模型实战篇

lda简介（理论部分见lda模型理论篇） 1、lda是一种无监督的贝叶斯模型:P(词 | 文档)=P（词 | 主题）P（主题 | 文档）同一主题下，某个词出现的概率，以及同一文档下…

人工智能 2023年5月30日
0073
DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning

摘要我们研究了大规模知识图中的推理问题。更具体地说，我们描述了一种新的用于学习多跳关系路径的强化学习框架:我们使用基于知识图嵌入的连续状态的基于策略的智能体，它通过抽样最有希望的…

人工智能 2023年6月1日
0070
torch.matmul() 张量相乘

如果是二维的矩阵相乘，那就跟平时咱们做的矩阵乘法一样： a = torch.tensor([[1,2], [3,4]]) a Out[31]: tensor([[1, 2], [3…

人工智能 2023年5月30日
0066
Knowledge Graph Alignment Network with Gated Multi-Hop Neighborhood Aggregation-学习笔记

在图1 中，美国是Wikidata 中科比·布莱恩特的一跳（直接）邻居。但是在DBpedia 中，它是两跳邻居。在AliNet 中，通过门控机制通过在k 跳内对其邻域信息进行控…

人工智能 2023年6月10日
0058
去雾论文Real-time Defogging of Single Image of IoTs-based Surveillance Video Based on MAP

Liu X. Real-time Defogging of Single Image of IoTs-based Surveillance Video Based on MAP[J…

人工智能 2023年7月2日
0057
self-attention和rnn计算复杂度的对比

Attention is all you need论文中的实验分析部分罗列了self-attention和rnn的复杂度对比，特此记录一下自己对二者复杂度的分析。注意：n表示序列…

人工智能 2023年5月27日
0060
声音分类及其实战（一）

目录前言音频简介 * WAV是什么？采样率、位深声音处理以及可视化 ; 前言玩过CV的都知道猫狗识别，通过输入一张猫狗图片之后经过神经网络就能知道这张图片属于猫还是狗，图…

人工智能 2023年7月2日
00109
【Transformer学习笔记】VIT解析

很久以前科学家做过一个生物实验，发现视觉神经元同样可以被训练来作听觉神经元之用。受此启发，不少计算机研究者也在寻找着机器学习领域的大一统–将CV任务和NLP任务使用相同或者类似的结…

人工智能 2023年5月28日
0078
概念解释：目标识别vs目标检测

不同人有不同说法，我已经蒙了，兄弟们。。。。说法一：识别：说明图中有哪些目标对象。检测：在识别的基础上，再给出位置和大小。说法二：（与说法一相反…）检测：说明…

人工智能 2023年7月12日
0067

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30