神经网络之BERT深度剖析

2023年5月28日上午10:31 • 人工智能 • 阅读 61

关于BERT

作者：白鹿（花名）

声明：以下介绍均以bert_base为基础进行介绍；

网络结构

从上面的架构图中可以看到, 宏观上BERT分三个主要模块.
最底层黄色标记的Embedding模块.
中间层蓝色标记的Transformer模块.
最上层绿色标记的预微调模块.

; Embedding模块:

BERT中的该模块是由三种Embedding共同组成而成, 如下图

Token Embeddings 是词嵌入张量, 以[CLS]为起始位标志,[SEP]为结束位标识，用于之后的分类任务.

Segment Embeddings 是句子分段嵌入张量, 是为了服务后续的两个句子为输入的预训练任务.

Position Embeddings 是位置编码张量, 此处注意和传统的Transformer不同, 不是三角函数计算的固定位置编码, 而是通过学习得出来的.

整个Embedding模块的输出张量就是这3个张量的直接加和结果.

双向Transformer模块:

BERT中只使用了经典Transformer架构中的Encoder部分, 完全舍弃了Decoder部分. 而两大预训练任务也集中体现在训练Transformer模块中.

Base:12

Large:24

预微调模块:

经过中间层Transformer的处理后, BERT的最后一层根据任务的不同需求而做不同的调整即可.

比如对于sequence-level的分类任务, BERT直接取第一个[CLS] token 的final hidden state, 再加一层全连接层后进行softmax来预测最终的标签.

对于不同的任务, 微调都集中在预微调模块, 几种重要的NLP微调任务架构图展示如下

从上图中可以发现, 在面对特定任务时, 只需要对预微调层进行微调, 就可以利用Transformer强大的注意力机制来模拟很多下游任务, 并得到SOTA的结果. (句子对关系判断, 单文本主题分类, 问答任务(QA), 单句贴标签(NER))

; BERT的预训练任务介绍

BERT包含两个预训练任务:
任务一: Masked LM (带mask的语言模型训练)
任务二: Next Sentence Prediction (下一句话预测任务)

任务一: Masked LM (带mask的语言模型训练)

关于传统的语言模型训练, 都是采用left-to-right, 或者left-to-right + right-to-left结合的方式, 但这种单向方式或者拼接的方式提取特征的能力有限. 为此BERT提出一个深度双向表达模型(deep bidirectional representation). 即采用MASK任务来训练模型.

1: 在原始训练文本中, 随机的抽取15%的token作为参与MASK任务的对象.

2: 在这些被选中的token中, 数据生成器并不是把它们全部变成[MASK], 而是有下列3种情况.

2.1: 在80%的概率下, 用[MASK]标记替换该token, 比如my dog is hairy -> my dog is [MASK]
2.2: 在10%的概率下, 用一个随机的单词替换token, 比如my dog is hairy -> my dog is apple
2.3: 在10%的概率下, 保持该token不变, 比如my dog is hairy -> my dog is hairy
3: 个人想法: 模型在训练的过程中, 并不知道它将要预测哪些单词? 哪些单词是原始的样子? 哪些单词被遮掩成了[MASK]? 哪些单词被替换成了其他单词? 正是在这样一种高度不确定的情况下, 反倒逼着模型快速学习该token的分布式上下文的语义, 尽最大努力学习原始语言说话的样子. 同时因为原始文本中只有15%的token参与了MASK操作, 并不会破坏原语言的表达能力和语言规则.

任务二: Next Sentence Prediction (下一句话预测任务)

在NLP中有一类重要的问题比如QA(Quention-Answer)需要模型能够很好的理解两个句子之间的关系, 从而需要在模型的训练中引入对应的任务. 在BERT中引入的就是Next Sentence Prediction任务. 采用的方式是输入句子对(A, B), 模型来预测句子B是不是句子A的真实的下一句话.

1: 所有参与任务训练的语句都被选中作为句子A.（此处其实是引入了是随机数来控制正负例的构造比例，样本量足够大的时候基本可以达到正负例样本均衡状态）
1.1: 其中50%的B是原始文本中真实跟随A的下一句话. (标记为IsNext, 代表正样本)
1.2: 其中50%的B是原始文本中随机抽取的一句话. (标记为NotNext, 代表负样本)
2: 在任务二中, BERT模型可以在测试集上取得97%-98%的准确率.

Bert细节概括

关于max_senquence_length, (句子对组合长度

Original: https://blog.csdn.net/qq_41475067/article/details/123086886
Author: 福将～白鹿
Title: 神经网络之BERT深度剖析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531005/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

为什么平方损失函数不适应于分类问题？——从概率论的角度

为什么平方损失函数不适用于分类问题？邱锡鹏教授《神经网络与深度学习》的课后习题特别经典，并且书中并没有解答，非常值得我们思考，今天的这个问题就是出自此书的第二章的习题，想来和大家…

人工智能 2023年7月3日
0042
读取音频的双通道波形并绘制波形图及语谱图

读取双通道波形并绘制波形图 import wave import matplotlib.pyplot as plt import numpy as np ""&…

人工智能 2023年5月27日
00113
利用AdaBoost元算法提高分类性能

本篇博文涵盖如下内容：组合相似的分类器来提高分类性能应用AdaBoost算法处理非均衡分类问题元算法（meta-algorithm）: 对其他算法进行组合的一种方式。最为…

人工智能 2023年7月2日
0091
网络社区划分的算法分类（2）

NP-hard问题介绍 NP困难之前要说到P问题和NP问题， P问题是在多项式时间内可以被解决的问题，而 NP问题是在多项式时间内可以被验证其正确性的问题。 NP困难（ NP-h…

人工智能 2023年7月17日
00119
解决tensorflow.python.framework.errors_impl.NotFoundError: Could not find valid device for node.

报错信息:tensorflow.python.framework.errors_impl.NotFoundError: Could not find valid device fo…

人工智能 2023年5月23日
0082
数据结构 – 决策树(分类)

数据结构 – 决策树 * – + 一决策树的介绍 + 二决策树的构造 + * – 使用决策树做预测需要以下过程： – 1.信息熵 &…

人工智能 2023年6月30日
0079
机器学习中常用的分类算法总结

分类算法分类算法和回归算法是对真实世界不同建模的方法。分类模型是认为模型的输出是离散的，例如大自然的生物被划分为不同的种类，是离散的。回归模型的输出是连续的，例如人的身高变化…

人工智能 2023年7月1日
0061
利用LSTM实现预测时间序列（股票预测）

目录 1. 作者介绍 2. tushare 简介 3. LSTM简介 * 3.1 循环神经网络 (Recurrent Neural Networks) 3.2 LSTM网络 &#8…

人工智能 2023年7月29日
0055
【Python数据分析】利用Python删除EXCEL表格中指定的列数据或行数据

如何利用Python删除EXCEL表格中指定的列数据？今天与大家一起分享一下DataFrame对象的drop（）函数，drop（）函数可根据标签删除EXCEL表格中的列数据或行数据…

人工智能 2023年7月4日
00287
Numpy读取数据，分组与拼接

import numpy as np us_file_path=’F:\\python.practice\\拜师\\数据分析课程\\数据分析资料\\day03\\code\\you…

人工智能 2023年6月11日
0049
Ubuntu中安装openCV时Cmake问题解决

1、执行Cmake的语句指令 sudo cmake -D CMAKE_BUILD_TYPE=Release -D CMAKE_INSTALL_PREFIX=/usr/local ….

人工智能 2023年6月19日
00170
计算机视觉数据集清单-附赠tensorflow模型训练和使用教程

我在这里整理了一些计算机视觉中使用到的数据集，大家可以根据需要下载。友情提示：使用右侧的目录可以帮助你快速找到你想要的数据集物体分类物体分类是计算机视觉中一项经典的任务，用户…

人工智能 2023年5月26日
0067
pandas dataframe删除空行或者空列dropna，一般删除指定行或者列drop

dropna参见https://blog.csdn.net/roamer314/article/details/84816171 df[~(df[‘col’…

人工智能 2023年7月6日
0091
机器学习（十三）无监督学习：聚类算法

文章目录 * – Log* 一、无监督学习（Unsupervised learning introduction）* – 1. 简介 – 2. …

人工智能 2023年5月31日
0085
协同过滤算法在大规模数据集中是否存在效率问题，如何解决

关于协同过滤算法在大规模数据集中的效率问题及解决方案协同过滤算法是一种用于推荐系统的常见算法，它通过分析用户的历史行为数据来预测用户对物品的偏好，并为用户推荐可能感兴趣的物品。然…

人工智能 2024年1月4日
0038
基于聚类的图像分割-Python

点击上方” 小白学视觉“，选择加” 星标“或” 置顶“ 重磅干货，第一时间送达了解图像分割当我们在做一个…

人工智能 2023年5月31日
0083

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31