【Pytorch神经网络理论篇】 39 Transformers库中的BERTology系列模型

2023年5月28日上午11:04 • 人工智能 • 阅读 102

同学你好！本文章于2021年末编写，获得广泛的好评！

故在2022年末对本系列进行填充与更新，欢迎大家订阅最新的专栏，获取基于Pytorch1.10版本的理论代码(2023版)实现，

Pytorch深度学习·理论篇(2023版)目录地址为：

CSDN独家 | 全网首发 | Pytorch深度学习·理论篇(2023版)目录本专栏将通过系统的深度学习实例，从可解释性的角度对深度学习的原理进行讲解与分析，通过将深度学习知识与Pytorch的高效结合，帮助各位新入门的读者理解深度学习各个模板之间的关系，这些均是在Pytorch上实现的，可以有效的结合当前各位研究生的研究方向，设计人工智能的各个领域，是经过一年时间打磨的精品专栏！【Pytorch神经网络理论篇】 39 Transformers库中的BERTology系列模型 https://v9999.blog.csdn.net/article/details/127587345 ; 欢迎大家订阅(2023版)理论篇

以下为2021版原文~~~~

【Pytorch神经网络理论篇】 39 Transformers库中的BERTology系列模型

如果想进一步深入研究，则需要了解Transformers库中更底层的实现，学会对具体的BERTology系列模型进行单独加载和使用。

1 Transformers库的文件结构

1.1 详解Transformers库中的预训练模型

在Transformers库中，预训练模型文件主要有3种，它们的具体作用如下：

词表文件：在训练模型时，将该文件当作一个映射表，把输入的单词转换成具体数字。（文本方式保存）
配置文件：存放模型的超参数，将源码中的模型类根据配置文件的超参数进行实例化后生成可用的模型。（文本方式保存）
权重文件：对应可用模型在内存中各个变量的值，待模型训练结束之后，将这些值保存起来。加载模型权重的过程，就是这些值”覆盖”到内存中的模型变量里，使整个模型恢复到训练后的状态。（二进制方式保存）

1.2 BERT模型的关联文件图

图3-18（a）BERT模型的基本预训练模型相关的词表文件，词表文件中是一个个具体的单词，每个单词的序号就是其对应的索引值。

图3-18（b）BERT模型的基本预训练模型相关的配置文件，配置文件则显示了其模型中的相关参数，其中部分内容如下。架构名称：BertForMaskedLM。注意力层中Dropout的丢弃率：0.1。隐藏层的激活函数：GEL∪激活函数。隐藏层中Dropout的丢弃率：0.1。

1.3 Transformers库的文件目录

目录地址
\Anaconda3\envs\python38\Lib\site-packages\transformers

1.3.1 配置代码文件

以confiquraton开头的文件，是BERTOOQy系列模型的配置代码文件。

1.3.2 模型代码文件

以modeling开头的文件，是BERTology系列模型的模型代码文件

1.3.3 词表代码文件

以tokenization开头的文件，是BERToogy系列模型的词表代码文件。

1.4 每个模型都对应以上三个文件

每个模型都对应3个代码文件，存放着关联文件的下载地址。

1.4.1 举例：BERT模型对应文件列表：

配置代码文件：configuration_bert.py。
模型代码文件：modeling_bert，py。
词表代码文件：tokenization_bert.py。

1.5 加载预训练模型

训练模型的主要部分就是模型代码文件、配置代码文件和词表代码文件这3个代码文件。对于这3个代码文件，在Transformers库里都有对应的类进行操作。

配置类（Configuration Classes)：是模型的相关参数，在配置代码文件中定义。

模型类（Model Classes)：是模型的网络结构，在模型代码文件中定义。

词表类（TOkenizer Classes)：用于输入文本的词表预处理，在词表代码文件定义。

这3个类都有from_pretrained方法，

1.5.1 调用函数简述

from_pretrained（）：可以加已经预训练好的模型或者参数。

save_pretraining（）：将模型中的提示配置文件、权重文件、词表文件保存在本地，以便可以使用from_pretraining方法对它们进行新加载。

1.5.2 自动加载

在使用时，通过向from_pretrained方法中传入指定模型的版本名称，进行自动下载，并加载到内存中。

from transformers import BertTokenizer，BertForMaskedLM

使用bert-base-uncased版本的BERT预训练模型，其中BertTokenizer类用于加载词表，BertForMaskedLM类会自动加载配置文件和模型文件。

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')#加载词表

model = BertForMaskedLM.frompretrained('bert-base-uncased')#加载模型

该代码运行后，系统会自动从指定网站加载对应的关联文件。这些文件默认会放在系统的用户目录中

1.5.3 手动加载

在源码中，找到对应的下载地址，手动加载后，再用frompretrained方法将其载入。

from transformers import BertTokenizer，BertForMaskeduM

#加载词表
tokenizer=BertTokenizer.frompretrained(r'./bert-base-uncased/bert-base-uncased-vocab.txt')
#加载模型
model=BertForMaskedLM.frompretrained('./bert-base-uncased/bert-base-uncased-pytorch_model.bin',conig='./bert-base-uncased/bert-base-uncased-conig.json')

手动加载与自动加载所使用的接口是一样的，手动加载需要指定加载文件的具体路径，而且在使用BertForMaskedLM类进行加载时，还需要指定配置文件的路径。

2 查找Transformers库中可以使用的模型

通过模型代码文件的命名，可以看到Transformers库中能够使用的模型。但这并不是具体的类名，想要找到具体的类名，可以采用以下3种方式：
（1）通过帮助文件查找有关预训练模型的介绍。
（2）在Transformers库的__init__.py文件中查找预训练模型。【相对费劲，但更为准确】
（3）使用代码方式输出Transformers库中的宏定义。

2.1 在Transformers库的init.py文件中查找预训练模型。【相对费劲，但更为准确】

2.2 使用代码方式输出Transformers库中的宏定义

from transformers import BLENDERBOT_SMALL_PRETRAINED_MODEL_ARCHIVE_LIST
print("输出全部模型：",BLENDERBOT_SMALL_PRETRAINED_MODEL_ARCHIVE_LIST)
['facebook/blenderbot_small-90M']

Original: https://blog.csdn.net/qq_39237205/article/details/124411704
Author: LiBiGo
Title: 【Pytorch神经网络理论篇】 39 Transformers库中的BERTology系列模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531123/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

不平衡数据分类网络-Pytorch试验

不平衡数据分类网络-Pytorch试验注意：本试验在参考此代码的基础上。为方便起见，之后简称A 1.1 制作不平衡数据集 (下载的为平衡数据集) 脚本：cifar10_to_pn…

人工智能 2023年7月1日
0080
神经网络预测未来人口数量

以 1953 年、1964 年、1982 年、1990 年、2000 年、2010 年和 2020 年进行过的七次全国人口普查总人数为基础，再从国家统计局网站（国家统计局>&…

人工智能 2023年7月13日
0062
【opencv学习】RANSAC算法在图像拼接中的应用实战

一：单应性变换我们得到两张图像的图像后，可以通过BFMatcher得到匹配的点，其实就是一个暴力搜索来比较最相近的特征点（128维度的向量，求向量的近似度）。通过匹配的多个关键…

人工智能 2023年6月19日
0066
OpenCV（C++）入门示例 – 传统方法目标检测

前言：本示例是本人为了帮老师带实验课现学现卖做的一个小项目，使用的方法不一定是最合适的，大家可以作为参考。运行环境：Windows + OpenCV 3.4.1 + C++，环境…

人工智能 2023年7月10日
0075
TensorFlow2 实现神经风格迁移，DIY数字油画定制照片

TensorFlow2 实现神经风格迁移，DIY数字油画定制照片 * – 前言 – 神经风格迁移 – 使用VGG提取特征 – + 图…

人工智能 2023年7月13日
0075
AI终将战胜人类？– 以Model Training 的角度看养娃与深度学习的共性

文章大纲工作方式：人的成长 -VS- 深度神经网络培养成本：AI -VS- 养娃 * 超大规模预训练模型可能摸到了强人工智能的边，但成本很高！养娃的成本也不低！其他启发，算…

人工智能 2023年6月25日
0087
centos8.2+Tesla T4搭建深度学习运行环境

人工智能 2023年5月26日
0066
目标检测中几个算法的正负样本划分策略

参考:yolov5与Faster-RCNN 训练过程正负样本和评价指标 https://blog.csdn.net/norman_sen/article/details/12197…

人工智能 2023年7月12日
0084
吴恩达的机器学习，属实牛逼

吴恩达属实牛逼大家好哇，新同学都叫我张北海，老同学都叫我老胡，其实是一个人，只是我特别喜欢章北海这个《三体》中的人物，张是错别字。最近在coursera上重温了吴恩达升级版的《…

人工智能 2023年6月4日
0085
Hough变换原理-直线检测

目录一、简介二、原理三、Python代码实现一、简介 Hough（霍夫）变换是图像处理中从图像中识别几何形状的基本方法之一。 Hough变换是将图像坐标空间变换到参数空间，…

人工智能 2023年6月17日
0076
Pytorch加载自己的图片分类数据集（torchvision.datasets.ImageFolder使用详解（数据加载器））

[‘ants’, ‘bees’] {‘ants’: 0, ‘bees’: 1} [(…

人工智能 2023年7月2日
0079
python取csv某几行_python下pandas库中读取指定行或列数据（excel或csv）

pandas中查找excel或csv表中指定信息行的数据(超详细) 关键！！！！使用loc函数来查找。话不多说，直接演示：有以下名为try.xlsx表： 1.根据index查询…

人工智能 2023年7月7日
00109
向量距离与相似度函数

1. 常见的距离计算方式 1.5 海明距离（Hamming Distance）在信息论中，两个等长字符串之间的海明距离是两个字符串对应位置的不同字符的个数。假设有两个字符串分别是…

人工智能 2023年6月4日
0070
【钉钉杯大学生大数据挑战赛】初赛B 航班数据分析与预测 Python代码实现Baseline

目录题目思路分析 1 训练集预处理 * 1.1 读取后的航班动态展示 1.2 时间信息预处理 1.3 前序航班的延误时间&到达与起飞间隔 1.4 天气 1.5 将天气匹…

人工智能 2023年7月15日
00113
基于Python实现的手写数字识别系统

资源下载地址：https://download.csdn.net/download/sheziqiong/85722434资源下载地址：https://download.csdn….

人工智能 2023年6月16日
0064
【CUDA基础练习】向量内积计算的若干种方法

先从一个简单，直观的方法来了解如何用CUDA计算向量内积。向量内积既然是将两个向量对应元素相乘的结果再求和，我们先考虑将对应元素相乘并行化，再来考虑相加。【方法一】 #inclu…

人工智能 2023年5月25日
00108

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31