【Transformers】BertModel模块的输入与输出

2023年5月27日下午6:46 • 人工智能 • 阅读 266

背景

通常我们使用bert进行模型fine-tune时，大多是使用Transformer这个包，官方地址：https://huggingface.co/. 如果想使用Bert获取任务对应的动态词向量，那么这时我们就需要了解Bert模型需要的输入与输出了。如果对bert模型不了解的可以看看我之前的文章：【NLP】BERT(BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding)阅读与总结.

BertModel对象构建

想要使用Bert模型获取对应内容的动态词向量的第一步则是先构建Bert模型，现如今Bert模型也多种多样，在不同的任务中选择合适的预训练模型。对应的预训练模型可以在官网上离线下载，也可以在线下载。当然，毕竟模型那么大，我们通常使用的离线下载的模型。以bert-base-chinese为例。我们首先进入模型列表：

然后根据下面操作就可以进入bert-base-chinese预训练模型的地址了：

然后选择以下三个文件进行下载：

[En]

Then select the following three files to download:

请注意，文件的名称保持不变。顾名思义，下载的文件是对应的模型文件、配置文件、词汇表文件。

[En]

Note that the name of the file remains the same. As the name implies, the downloaded file is the corresponding model file, configuration file, glossary file.

那么模型的加载如下：

from transformers import BertModel

bert = BertModel.from_pretrained("pre_model/bert-base-chinese")
print(bert)

模型如下：

模型的输入

我们可以从官方文档中：https://huggingface.co/docs/transformers/model_doc/bert#transformers.BertModel 可以看到模型的输入：

( input_ids: typing.Optional[torch.Tensor] = None,
attention_mask: typing.Optional[torch.Tensor] = None,
token_type_ids: typing.Optional[torch.Tensor] = None,
position_ids: typing.Optional[torch.Tensor] = None,
head_mask: typing.Optional[torch.Tensor] = None,
inputs_embeds: typing.Optional[torch.Tensor] = None,
labels: typing.Optional[torch.Tensor] = None,
next_sentence_label: typing.Optional[torch.Tensor] = None,
output_attentions: typing.Optional[bool] = None,
output_hidden_states: typing.Optional[bool] = None,
return_dict: typing.Optional[bool] = None )

以下是一个核心参数。更多详情请参考官方文档：

[En]

Here is a core parameter. For more details, please see the official documentation:

input_ids (torch.LongTensor of shape (batch_size, sequence_length)) — 词汇表中输入序列标记的索引
attention_mask (torch.FloatTensor of shape (batch_size, sequence_length), optional) — 对输入数据进行mask，解决pad问题.在 [0, 1] 中选择的掩码值:1 表示未屏蔽的标记，0 表示已屏蔽的标记
token_type_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 分段标记索引以指示输入的第一和第二部分。在 [0, 1] 中选择索引:0对应一个句子A的token，1对应一个句子B的token。

模型输入我们可以自己构建，也可以利用Transformers中的分词器对象构建，操作如下：

from transformers import BertModel, BertTokenizer

bert = BertModel.from_pretrained("pre_model/bert-base-chinese")
tokenizer = BertTokenizer.from_pretrained("pre_model/bert-base-chinese")

test_sentence = "我在测试bert"
tokens = tokenizer.encode_plus(text=test_sentence)
print(tokens)

输出结果如下：

{'input_ids': [101, 2769, 1762, 3844, 6407, 8815, 8716, 102],
'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0],
'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1]}

该方法就已经对输入的句子进行了分词，需要提醒的是：这里的tokenizer分词不同以往的分词方法，使用subword算法，并且为语句的句首和句首分别添加了[CLS]、[SEG]符号，我们可以瞅瞅：

tokenizer = BertTokenizer.from_pretrained("pre_model/bert-base-chinese")
test_sentence = "我在测试bert"
tokens = tokenizer.encode_plus(text=test_sentence)
print(tokens)
print(tokenizer.convert_ids_to_tokens(tokens['input_ids']))

输入的结果如下：

{'input_ids': [101, 2769, 1762, 3844, 6407, 8815, 8716, 102],
'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0],
'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1]}
['[CLS]', '我', '在', '测', '试', 'be', '##rt', '[SEP]']

其中将 bert就分开了。

模型的输出

模型默认的输出是 BaseModelOutputWithPoolingAndCrossAttentions，官方地址：https://huggingface.co/docs/transformers/main_classes/output#transformers.modeling_outputs.BaseModelOutputWithPoolingAndCrossAttentions，如下：

( last_hidden_state: FloatTensor = None,
pooler_output: FloatTensor = None,
hidden_states: typing.Optional[typing.Tuple[torch.FloatTensor]] = None,
past_key_values: typing.Optional[typing.Tuple[typing.Tuple[torch.FloatTensor]]] = None,
attentions: typing.Optional[typing.Tuple[torch.FloatTensor]] = None,
cross_attentions: typing.Optional[typing.Tuple[torch.FloatTensor]] = None )

我们经常使用的则是：

last_hidden_state (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size)) — 模型最后一层输出的隐藏状态序列.
hidden_states (tuple(torch.FloatTensor), optional, returned when output_hidden_states=True is passed or when config.output_hidden_states=True) — 形状为（batch_size、sequence_length、hidden_size）的torch.FloatTensor 的元组（一个用于嵌入的输出，如果模型有嵌入层，+ 一个用于每一层的输出）

使用案例如下：

from transformers import BertModel, BertTokenizer

bert = BertModel.from_pretrained("pre_model/bert-base-chinese")

tokenizer = BertTokenizer.from_pretrained("pre_model/bert-base-chinese")
test_sentence = "我在测试bert"

tokens = tokenizer.encode_plus(text=test_sentence, return_tensors='pt')
model_out = bert(**tokens)
print(model_out)

结果是更多的内容，读者可以运行上面的代码来尝试。

[En]

The result is more content, the reader can run the above code to try.

总结

除了上面比较原始的预训练模型加载的类之外，针对不同类型的任务会有不同类型的Bert类，如：针对文本分类的有 AutoModelForSequenceClassification，针对NER的有： AutoModelForTokenClassification等。当然具体该如何使用还需要参考官方文档。

Original: https://blog.csdn.net/meiqi0538/article/details/124891560
Author: 科皮子菊
Title: 【Transformers】BertModel模块的输入与输出

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/527285/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【OpenCV】中的鱼眼相机及其标定

1. 鱼眼镜头特性与镜头分类普通镜头和针孔相机在数学模型上可以等价对待，都是射影变换（Perspective transform）；鱼眼镜头受到水下斯涅耳窗口现象的启发，采用不同…

人工智能 2023年7月19日
0073
Anaconda搭建环境（tensorflow+pytorch）

总结+问题汇总 Anaconda环境搭建 * 镜像源添加 tensorflow下载与测试 Pytorch以及cudnn安装 * cudnn下载和安装 – cudnn遇到…

人工智能 2023年7月23日
0090
研究生语音识别课程作业记录（三）非特定人孤立词识别

研究生语音识别课程作业记录（三）非特定人孤立词识别前言一. 任务要求二. 识别方法三. 语音数据库四. 特征参数提取五. 识别过程及分析六. 实验总结七. 小结 …

人工智能 2023年5月25日
00102
语音识别1：SpeechRecognition、Speech第三方库的安装和简单语音对话示例

一、SpeechRecognition库的安装安装：选择第三方库的下载地址，提高下载率。 [En] Installation: select the download addre…

人工智能 2023年5月25日
0090
数学建模（MATLAB）| 第一篇：回归

数学建模（MATLAB）| 第一篇：基础回归模型前言 1 一元线性回归（Unary_linear_regression） 2 多元线性回归（Multiple_linear_reg…

人工智能 2023年6月17日
0097
神经网络（NN）网络构建及模型算法介绍

概述神经网络最主要的作用是作为提取特征的工具，最终的分类并不是作为主要核心。人工神经网络也称为多层感知机，相当于将输入数据通过前面多个全连接层网络将原输入特征进行了一个非线性变…

人工智能 2023年6月15日
0070
pyqt5+AI健身+CPU实时检测+mediapipe 可视化界面opencv实现人体关键点检测，AI健身计数等功能

一、图片检测：注：中间数字为角度。采用的是12，14，16，可自由更改。二、视频检测（cpu运行）：注：左上角为fps，左下角为次数统计。 1.哑铃弯举：12，14，16 …

人工智能 2023年7月19日
0064
学习笔记：C++环境下OpenCV的findContours函数的参数详解及优化

这个是Visual Studio2019版本在OpenCV环境配置好后所显示的 6个参数，也即为全部参数但是，常用参数仅有四个(参见程序里的第二行注释) cv::void fi…

人工智能 2023年6月19日
1095
AI 实战篇｜十分钟学会【动物识别】，快去寻找身边的小动物试试看吧【送书】

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月26日
0072
【youcans 的 OpenCV 例程200篇】113. 形态学操作之腐蚀

欢迎关注『youcans 的 OpenCV 例程 200 篇』系列，持续更新中欢迎关注『youcans 的 OpenCV学习课』系列，持续更新中【youcans 的 Open…

人工智能 2023年6月22日
00106
卷积神经网络中的权重共享是什么意思

人工智能 2024年1月1日
0043
小生不财-语义分割2：训练自己的segnet模型（斑马线划分）

学习前言数据集以及标签详解 LOSS函数计算二、训练代码 1.数据集的制作 2.模型的训练 3.模型的预测结果展示前言在第一部分完成了主干网络VGGnet还有segnet…

人工智能 2023年5月24日
0078
【代码笔记】持续更新：知识图谱——gensim.corpora

第一次用到知识图谱，就从KingDom代码出发好好学习一下叭~ 到达train阶段时，图特征已提取完毕，并形成.np文件。现阶段以这些.np文件为基础构建跨域的知识库。获取路径 …

人工智能 2023年5月30日
0060
python 数据显示不完整有省略号_python pandas之Dataframe的数据print输出显示为…省略号…

那么可以添加： pandas.set_option(‘display.max_rows’,None) 这样就可以显示全部数据同样，某一列比如url太长显…

人工智能 2023年7月9日
0056
论文解读PCT: Point Cloud Transformer（用于点云处理的Transformer)

最近几年transformer越来越火，在NLP、CV等领域都取得了很大的成功。这篇文章作者利用了transformer能够处理无序数据的特点，将transformer应用到点云的…

人工智能 2023年5月28日
00160
【Python】CUDA11.6安装PyTorch三件套

由于PyTorch 官网没有提供除适配CUDA10.3和11.3之外的安装方式，因此可以使用 Nightly Binaries方式下载与自己CUDA版本合适的PyTorch 以CU…

人工智能 2023年7月24日
0056

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【Transformers】BertModel模块的输入与输出

背景

BertModel对象构建

模型的输入

模型的输出

总结

大家都在看