hugging face 模型库的使用及加载 Bert 预训练模型

2023年5月27日下午11:46 • 人工智能 • 阅读 82

一、hugging face 模型库

Hugging face 是一个专注于 NLP 的公司，拥有一个开源的预训练模型库 Transformers ，里面囊括了非常多的模型例如 BERT、GPT、GPT2、ToBERTa、T5 等。

Hugging face 提供的 transformers 库主要用于预训练模型的载入，需要载入三个基本对象：

from transformers import BertConfig
from transformers import BertModel
from transformers import BertTokenizer

（1）BertConfig

是该库中模型配置的 class：控制模型的名称、最终输出的样式、隐藏层宽度和深度、激活函数的类别等。将Config类导出时文件格式为 json 格式。格式如下：

当然，也可以通过 config.json 来实例化 Config 类，这是一个互逆的过程。

（2）Model

也就是各种各样的模型：除了初始的 Bert、GPT 等基本模型，针对下游任务，还有其它的继承 BertPreTrainedModel 的派生类，对应不同的 Bert 任务，定义了 BertForQuestionAnswering、BertForNextSentencePrediction 以及 BertForSequenceClassification 等下游任务模型。模型导出时将生成 config.json 和 pytorch_model.bin 参数文件。前者就是 1 中的配置文件，这和我们的直觉相同，即 config 和 model 应该是紧密联系在一起的两个类。后者其实和 torch.save() 存储得到的文件是相同的，这是因为 Model 都直接或者间接继承了 Pytorch 的 Module 类。从这里可以看出，HuggingFace 在实现时很好地尊重了 Pytorch 的原生 API。

（3）Tokenizer

这是一个 将纯文本转换为编码的过程。注意，Tokenizer 并不涉及将词转化为词向量的过程，仅仅是 将纯文本分词，添加[MASK]标记、[SEP]、[CLS]标记，并转换为字典索引。Tokenizer 类导出时将分为三个文件，也就是：

利用分词器进行编码：
模型的所有分词器都是在 PreTrainedTokenizer 中实现的，分词的结果主要有以下内容：

{
input_ids: list[int],
token_type_ids: list[int] if return_token_type_ids is True (default)
attention_mask: list[int] if return_attention_mask is True (default)
overflowing_tokens: list[int] if a max_length is specified and return_overflowing_tokens is True
num_truncated_tokens: int if a max_length is specified and return_overflowing_tokens is True
special_tokens_mask: list[int] if add_special_tokens if set to True and return_special_tokens_mask is True
}

二、Bert 模型

BERT 模型的全称是：BidirectionalEncoder Representations from Transformer。从名字中可以看出， BERT 模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的 Representation，即：文本的语义表示，然后将文本的语义表示在特定NLP任务中作微调，最终应用于该NLP任务。煮个栗子，BERT模型训练文本语义表示的过程就好比我们在高中阶段学习语数英、物化生等各门基础学科，夯实基础知识；而模型在特定NLP任务中的参数微调就相当于我们在大学期间基于已有基础知识、针对所选专业作进一步强化，从而获得能够应用于实际场景的专业技能。

1、模型结构

BERT 模型是基于 Transformer 的Encoder，主要模型结构就是Transformer的堆叠。
当我们组建好Bert模型之后，只要把对应的token喂给BERT，每一层Transformer层吐出相应数量的hidden vector，一层层传递下去，直到最后输出。模型就这么简单，专治花里胡哨，这大概就是谷歌的暴力美学。

BERT模型的全称是：BidirectionalEncoder Representations from Transformer，也就是说，Transformer是组成BERT的核心模块，而Attention机制又是Transformer中最关键的部分

（1）Attention

Attention机制的中文名叫”注意力机制”，顾名思义，它的主要作用是让神经网络把”注意力”放在一部分输入上，即：区分输入的不同部分对输出的影响。这里，我们从增强字/词的语义表示这一角度来理解一下Attention机制。
我们知道，一个字/词在一篇文本中表达的意思通常与它的上下文有关。比如：光看”鹄”字，我们可能会觉得很陌生（甚至连读音是什么都不记得吧），而看到它的上下文”鸿鹄之志”后，就对它立马熟悉了起来。因此，字/词的上下文信息有助于增强其语义表示。同时，上下文中的不同字/词对增强语义表示所起的作用往往不同。比如在上面这个例子中，”鸿”字对理解”鹄”字的作用最大，而”之”字的作用则相对较小。 为了有区分地利用上下文字信息增强目标字的语义表示，就可以用到Attention机制。
Attention机制主要涉及到三个概念：Query、Key和Value。在上面增强字的语义表示这个应用场景中，目标字及其上下文的字都有各自的原始Value，Attention机制将目标字作为Query、其上下文的各个字作为Key，并将Query与各个Key的相似性作为权重，把上下文各个字的Value融入目标字的原始Value中。如下图所示，Attention机制将目标字和上下文各个字的语义向量表示作为输入，首先通过线性变换获得目标字的Query向量表示、上下文各个字的Key向量表示以及目标字与上下文各个字的原始Value表示，然后计算Query向量与各个Key向量的相似度作为权重，加权融合目标字的Value向量和各个上下文字的Value向量，作为Attention的输出，即：目标字的增强语义向量表示。

1）Self-Attention：对于输入文本，我们需要对其中的每个字分别增强语义向量表示，因此，我们分别将每个字作为Query，加权融合文本中所有字的语义信息，得到各个字的增强语义向量，如下图所示。在这种情况下，Query、Key和Value的向量表示均来自于同一输入文本，因此，该Attention机制也叫Self-Attention。
hugging face 模型库的使用及加载 Bert 预训练模型

2）Multi-head Self-Attention:为了增强Attention的多样性，文章作者进一步利用不同的Self-Attention模块获得文本中每个字在不同语义空间下的增强语义向量，并将每个字的多个增强语义向量进行线性组合，从而获得一个最终的与原始字向量长度相同的增强语义向量，如下图所示。
hugging face 模型库的使用及加载 Bert 预训练模型

（2）Transformer Encoder

在Multi-headSelf-Attention的基础上再添加一些”佐料”，就构成了大名鼎鼎的Transformer Encoder。实际上，Transformer模型还包含一个Decoder模块用于生成文本，但由于BERT模型中并未使用到Decoder模块，因此这里对其不作详述。下图展示了Transformer Encoder的内部结构，可以看到，Transformer Encoder在Multi-head Self-Attention之上又添加了三种关键操作：1）残差连接（ResidualConnection）：将模块的输入与输出直接相加，作为最后的输出。这种操作背后的一个基本考虑是：修改输入比重构整个输出更容易（”锦上添花”比”雪中送炭”容易多了！）。这样一来，可以使网络更容易训练。
2）Layer Normalization：对某一层神经网络节点作0均值1方差的标准化。3）线性转换：对每个字的增强语义向量再做两次线性变换，以增强整个模型的表达能力。这里，变换后的向量与原向量保持长度相同。

可以看到，Transformer Encoder的输入和输出在形式上还是完全相同，因此，Transformer Encoder同样可以表示为将输入文本中各个字的语义向量转换为相同长度的增强语义向量的一个黑盒。

组装好TransformerEncoder之后，再把多个Transformer Encoder一层一层地堆叠起来，BERT模型就大功告成了！

; 2、模型的输入/输出

在基于深度神经网络的NLP方法中，文本中的字/词通常都用一维向量来表示（一般称之为”词向量”）；在此基础上，神经网络会将文本中各个字或词的一维词向量作为输入，经过一系列复杂的转换后，输出一个一维词向量作为文本的语义表示。特别地，我们通常希望语义相近的字/词在特征向量空间上的距离也比较接近，如此一来，由字/词向量转换而来的文本向量也能够包含更为准确的语义信息。因此， BERT模型的主要输入是文本中各个字/词的原始词向量，该向量既可以随机初始化，也可以利用Word2Vector等算法进行预训练以作为初始值；输出是文本中各个字/词融合了全文语义信息后的向量表示，如下图所示（为方便描述且与BERT模型的当前中文版本保持一致，本文统一以字向量作为输入）：

从上图中可以看出，

BERT &#x6A21;&#x578B;&#x901A;&#x8FC7;&#x67E5;&#x8BE2;&#x5B57;&#x5411;&#x91CF;&#x8868;&#x5C06;&#x6587;&#x672C;&#x4E2D;&#x7684;&#x6BCF;&#x4E2A;&#x5B57;&#x8F6C;&#x6362;&#x4E3A;&#x4E00;&#x7EF4;&#x5411;&#x91CF;&#xFF0C;&#x4F5C;&#x4E3A;&#x6A21;&#x578B;&#x8F93;&#x5165;&#xFF1B;&#x6A21;&#x578B;&#x8F93;&#x51FA;&#x5219;&#x662F;&#x8F93;&#x5165;&#x5404;&#x5B57;&#x5BF9;&#x5E94;&#x7684;&#x878D;&#x5408;&#x5168;&#x6587;&#x8BED;&#x4E49;&#x4FE1;&#x606F;&#x540E;&#x7684;&#x5411;&#x91CF;&#x8868;&#x793A;

。此外，模型输入除了字向量，还包含另外两个部分：1）文本向量，该向量的取值在模型训练过程中自动学习，用于刻画文本的全局语义信息，并与单字/词的语义信息相融合；2）位置向量，由于出现在文本不同位置的字/词所携带的语义信息存在差异（比如：”我爱你”和”你爱我”），因此，BERT模型对不同位置的字/词分别附加一个不同的向量以作区分。最后，

BERT&#x6A21;&#x578B;&#x5C06;&#x5B57;&#x5411;&#x91CF;&#x3001;&#x6587;&#x672C;&#x5411;&#x91CF;&#x548C;&#x4F4D;&#x7F6E;&#x5411;&#x91CF;&#x7684;&#x52A0;&#x548C;&#x4F5C;&#x4E3A;&#x6A21;&#x578B;&#x8F93;&#x5165;

。

在BERT中，输入的向量是由三种不同的embedding求和而成，分别是：

1）wordpiece embedding：单词本身的向量表示。WordPiece是指将单词划分成一组有限的公共子词单元，能在单词的有效性和字符的灵活性之间取得一个折中的平衡。
2）position embedding：将单词的位置信息编码成特征向量。因为我们的网络结构没有RNN 或者LSTM，因此我们无法得到序列的位置信息，所以需要构建一个position embedding。构建position embedding有两种方法：BERT是初始化一个position embedding，然后通过训练将其学出来；而Transformer是通过制定规则来构建一个position embedding
3）segment embedding：用于区分两个句子的向量表示。这个在问答等非对称句子中是用区别的。
BERT模型的输入就是wordpiece token embedding + segment embedding + position embedding，如图所示：

三、从模型库导入 Bert 预训练模型

1、通过官网自动导入

该方式通过 hugging face 官网自动导入（此方法需要外网连接），这个方法需要从官方的 s3 数据库下载模型配置、参数等信息（代码中已配置好位置）。

首先需要安装 transformers 库，使用以下命令安装：

pip install transformers

然后导入预训练模型

from transformers import BertTokenizer,BertModel
model_name = 'hfl/chinese-roberta-wwm-ext'
config = BertConfig.from_pretrained(model_name)
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)

运行后系统会自动下载相关的模型文件并存放在电脑中。

1）使用 Windows 模型保存的路径在 C:\Users[用户名].cache\torch\transformers\ 目录下，根据模型的不同下载的东西也不相同
2）使用 Linux 模型保存的路径在 ~/.cache/torch/transformers/ 目录下

至此，预训练模型和分词工具已经载入完成，下面是一个简单的实例。

s_a, s_b = "李白拿了个锤子", "锤子？"

input_id = tokenizer.encode(s_a)
input_id = torch.tensor([input_id])
sequence_output, pooled_output = model(input_id)

inputs = tokenizer.encode_plus(s_a, text_pair=s_b, return_tensors="pt")
print(inputs.keys())

sequence_output, pooled_output = model(**inputs)

2、下载到本地再导入

该方法总体是将所需要的预训练模型、词典等文件下载至本地文件夹中 ，然后加载的时候 model_name_or_path 参数指向文件的路径即可。

（1）下载模型文件

在 hugging face 模型库 https://huggingface.co/models 里选择需要的预训练模型并下载。例如，点击手动下载 hfl/chinese-roberta-wwm-ext 模型。
如下图，可以看到模型的所有文件：

通常我们需要保存的是三个文件及一些额外的文件，第一个是配置文件；config.json。第二个是词典文件，vocab.json。第三个是预训练模型文件，如果你使用pytorch则保存pytorch_model.bin文件，如果你使用tensorflow 2，则保存tf_model.h5。
额外的文件，指的是merges.txt、special_tokens_map.json、added_tokens.json、tokenizer_config.json、sentencepiece.bpe.model等，这几类是tokenizer需要使用的文件，如果出现的话，也需要保存下来。没有的话，就不必在意。如果不确定哪些需要下，哪些不需要的话，可以把图1中类似的文件全部下载下来。

下载必须的三个文件（config.json、pytorch_model.bin、vocab.txt）以及额外的文件保存到自己新建的一个文件夹下面（注意： 这些文件名称注意必须要完全一致，不可修改）。

（2）使用本地下载的模型文件

huggingface 的 transformers 框架主要有三个类model类、config类、tokenizer类，这三个类，所有相关的类都衍生自这三个类，他们都有 from_pretained() 方法和 save_pretrained() 方法。

本例将 config.json、pytorch_model.bin、vocab.txt 以及 tokenizer 相关文件全部下载下来，文件如下：

1）from_pretrained 方法的第一个参数都是 pretrained_model_name_or_path，这个参数 设置为我们下载的文件目录即可。

from transformers import BertConfig,BertTokenizer
model_name = 'E:\Programming\PyCharm\NLP\preTrainBert\hfl\chinese-roberta-wwm-ext'
tokenizer = BertTokenizer.from_pretrained(model_name)
model_config = BertConfig.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name, config=model_config)

2）利用分词器进行编码：


tokenizer.encode("我爱你")
Out : [101, 2769, 4263, 872, 102]

input_id = tokenizer.encode_plus("我爱你", "你也爱我")
Out :
    {'input_ids': [101, 2769, 4263, 872, 102, 872, 738, 4263, 2769, 102],
     'token_type_ids': [0, 0, 0, 0, 0, 1, 1, 1, 1, 1],
     'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

3）将分词结果输入模型，得到编码：


input_ids = torch.tensor(input_id['input_ids'])
token_type_ids = torch.tensor(input_id['token_type_ids'])
attention_mask_ids=torch.tensor(input_id['attention_mask'])

model.eval()

device = 'cuda'
tokens_tensor = input_ids.to(device).unsqueeze(0)
segments_tensors = token_type_ids.to(device).unsqueeze(0)
attention_mask_ids_tensors = attention_mask_ids.to(device).unsqueeze(0)
model.to(device)

with torch.no_grad():

    outputs = model(tokens_tensor, segments_tensors, attention_mask_ids_tensors)

    encoded_layers = outputs

4）Bert 最终输出的结果为：

sequence_output, pooled_output, (hidden_states), (attentions)

bert 的输出是由四部分组成：
（1）last_hidden_state：shape是(batch_size, sequence_length, hidden_size)，hidden_size=768,它是模型最后一层输出的隐藏状态。（通常用于命名实体识别）
（2）pooler_output：shape是(batch_size, hidden_size)，这是序列的第一个token(classification token)的最后一层的隐藏状态，它是由线性层和Tanh激活函数进一步处理的。（通常用于句子分类，至于是使用这个表示，还是使用整个输入序列的隐藏状态序列的平均化或池化，视情况而定）
（3）hidden_states：这是输出的一个可选项，如果输出，需要指定config.output_hidden_states=True,它也是一个元组，它的第一个元素是embedding，其余元素是各层的输出，每个元素的形状是(batch_size, sequence_length, hidden_size)
（4）attentions：这也是输出的一个可选项，如果输出，需要指定config.output_attentions=True,它也是一个元组，它的元素是每一层的注意力权重，用于计算self-attention heads的加权平均值。

以输入序列长度为 14 为例：

Original: https://blog.csdn.net/IT__learning/article/details/120741368
Author: IT__learning
Title: hugging face 模型库的使用及加载 Bert 预训练模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528202/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

GAN生成对抗网络—-手写数据实现

目录 GAN—— 以假乱真训练流程环境数据集完整代码结果展示 GAN—— 以假…

人工智能 2023年5月25日
0060
机器学习之分类与回归的常见评价指标

在人工智能领域，机器学习的模型及效果如何需要用各种指标来评价。本文将简单介绍几种机器学习中无监督学习的常用评价指标。无监督学习主要分为两类：分类问题与回归问题。分类问题又分为二分…

人工智能 2023年6月30日
0054
基于MMRotate训练自定义数据集做旋转目标检测 2022-3-30

本文目录简述 1.MMrotate下载 2.环境安装 3.自定义数据集制作 * 3.1 roLabelImg 打标签 3.2 生成DOTA数据集格式的标签 3.3 数据集裁剪（s…

人工智能 2023年6月16日
0063
致初学者的深度学习入门系列（三）—— 深度学习目标检测篇（上）

目标定位在softmax层中不仅仅只输出分类信息，还可以输出目标的外接矩形框的角点和长宽，这样就可以转化为一个逻辑回归的问题。只要在训练集上对相应信息进行标注，以及定义合适的…

人工智能 2023年7月10日
0056
Large Scale Spectral Clustering with Landmark-Based Representation

论文：AAAI 2011 代码：Julia 基于锚点的谱聚类核心：选取一个较小的anchor集【通常为原始数据点的子集】，计算所有数据点和anchor集之间的相似度，减少相似度矩…

人工智能 2023年5月31日
0080
fine-tuning（微调）的理解

fine-tuning 介绍 * 什么情况下使用微调微调指导事项不同数据集下使用微调涉及到的其他知识 * 学习率（learning-rate）卷积神经网络的核心迁移学习与…

人工智能 2023年7月26日
0058
pytorch 搭建AlexNet 对花进行分类

目录 1. 介绍 2. 搭建AlexNet网络 3. 准备数据集 4. 训练网络 5. 预测图片 6. code 文章内容参考：霹雳吧啦Wz 的视频教程代码的讲解可以参考之前的文章…

人工智能 2023年7月3日
0077
Dax实现动态分组的统计

我们有时候需要对数据表中的客户进行打标分析（比如ABC分析），一般是根据收入范围，订单量范围等。常见的方法一般是直接在Excel表里面新建一列，利用IF函数判断该客户的标签，稍微简…

人工智能 2023年6月11日
0073
chatGPT写的一篇动态环境下的视觉slam论文

今天尝试了一下chatGPT，虽然没有什么创新点，但是对各种概念的描写还是没问题的。 Abstract: Simultaneous localization and mapping…

人工智能 2023年7月31日
0049
轨迹预测分享

一、宋浩然博士Prime分享分享链接：自动驾驶中的车辆轨迹预测 1、预测在自动驾驶中的作用预测模块在自动驾驶中起到一个承上启下的作用，上游感知模块一般采用数据驱动的方法来进行单…

人工智能 2023年6月25日
0067
什么是降低维度（Dimensionalit

问题：什么是降低维度（Dimensionality Reduction）？降低维度是指将高维数据转换为低维空间的过程，从而减少数据的特征维度。在实际应用中，高维数据可能存在许多冗…

人工智能 2024年1月1日
0024
模式识别使用Fish分类算法和感知器分类算法——数据集可视化和特征选择

一、数据集简介本次实验所选取的数据集为：CORK_STOPPERS.xls数据集，即软木塞数据集。该数据即可在《模式识别》第三版书中的链接下载，也可在我的主页内下载。下图为本…

人工智能 2023年7月17日
0082
导数求切线

对于一个连续的函数，切点处的导数等于切线斜率。我们只需要知道切点坐标和切点斜率，就能求切线方程。过( 1 , e ) (1,e)(1 ,e )作y = e x y=e^x y =…

人工智能 2023年6月30日
0048
Python爬虫

目录 Urllib🚀 * urllib基本使用一个类型和六个方法 urllib下载请求对象定制编解码 – get请求方式：urllib.parse.quote( …

人工智能 2023年6月28日
0077
数据分析方法(3)之AARRR模型

数据分析方法以往期数：数据分析方法(1)之漏斗分析AAARR模型所使用数据集和漏斗分析数据是一样的，两篇可以结合来看。数据分析方法(2)之5W2H理论文章目录 1、理论 * …

人工智能 2023年6月11日
0077
Unet系列+Resnet模型（Pytorch)

Unet系列+Resnet模型（Pytorch) 一.Unet 1.模型简介 Unet的结构如图所示，网络是一个经典的全卷积网络，模型与FCN类似没有全连接层，但是相比于FCN逐点…

人工智能 2023年6月16日
0081

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

hugging face 模型库的使用及加载 Bert 预训练模型

1、模型结构

; 2、模型的输入/输出

1、通过官网自动导入

2、下载到本地再导入

大家都在看