transformers库的使用【二】tokenizer的使用，模型的保存自定义

2023年5月31日上午2:35 • 人工智能 • 阅读 87

在之前提到过，标记器（tokenizer）是用来对文本进行预处理的一个工具。

首先，标记器会把输入的文档进行分割，将一个句子分成单个的word（或者词语的一部分，或者是标点符号）

这些进行分割以后的到的单个的word被称为tokens。

第二步，标记器会把这些得到的单个的词tokens转换成为数字，经过转换成数字之后，我们就可以把它们送入到模型当中。

为了实现这种能把tokens转换成数字的功能，标记器拥有一个词表，这个词汇表是在我们进行实例化并指明模型的时候下载的，这个标记器使用的词汇表与模型在预训练时使用的词汇表相同。

举个例子说：

from transformers import AutoTokenizer,AutoModelForSequenceClassification

Model_name = 'distillery-base-uncashed-finetuned-still-2-english'

model=AutoModelForSequenceClassification.from_pretrained(model_name)

tokenizer=AutoTokenizer.from_pretrained(model_name)

sentence="We are very happy to show you the Transformers library"

inputs = tokenizer(sentence)

然后打印一下得到的结果：

print(inputs)

{‘input_ids’: [101, 2057, 2024, 2200, 3407, 2000, 2265, 2017, 1996, 100, 19081, 3075, 1012, 102],
‘attention_mask’: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

可以看到，返回值是一个字典，这个字典里面有两个键值对，第一个键值对’input_ids’是对输入的句子转换成数字以后的结果，并且长度为这个句子的单词的个数。

第二个’attention_mask’这里面全部都是1，表示让模型关注里面所有的词，具体相关的应用后面会再提到。

上面的例子是拿一个句子放入标记器中得到的结果，如果希望一次放入一批（batch）语句，希望将这一批句子都转换成为数字送到模型里面去，那么你可以这么做

sentences=["We are very happy to show you the Transformers library",

"We hope you don't hate it"]

Pt_batch = tokenizer(

Sentences,

padding=True,

truncation=True,

max_length=512,

return_tensors="Pt"

)

首先padding属性是用来指明是否启用填补。他会自动补全结果中的input_ids以及attention_mask右边缺失的值。

打印一下结果来看一下：

for key,value in pt_batch.items():

print(f”{key}:{value.numpy().tolist()}”)

input_ids: [[101, 2057, 2024, 2200, 3407, 2000, 2265, 2017, 1996, 100, 19081, 3075, 1012, 102], [101, 2057, 3246, 2017, 2123, 1005, 1056, 5223, 2009, 1012, 102, 0, 0, 0]]
attention_mask: [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0]]

可以看到结果中第二个句子的最右边补充了一些0，这是因为使用了padding属性，第二个句子没有第一个句子长，而我们希望得到的结果都是一样长的，所以会自动的在结尾补充0，并且在attention_mask字段里面也补充了0。

使用模型

当我们对输入的数据使用标记器进行处理之后，可以直接把它送到模型当中，这些数据会包含所有模型需要的相关信息。

在使用pytorch的时候，你需要可以用下面的方法对字典类型进行解包：

Pt_outputs = pt_model(**pt_batch)

在Transformers中，所有的输出都是一个元组（tuple）

Print(pt_ourputs)

(tensor([[-4.0833,  4.3364],
        [ 0.0818, -0.0418]], grad_fn=),)

可以看到得到的结果

接下来使用SoftMax激活函数进行预测，并打印一下最终的结果

Import torch.nn.functional as F

pt_predictions = F.softmax(py_output[0],dim=-1)

print(pt_predictions)

tensor([[2.2043e-04, 9.9978e-01],
        [5.3086e-01, 4.6914e-01]], grad_fn=)

这里输出的只是经过了softmax函数后得到的结果，那么如果有标签的时候，需要在使用模型的时候，在label字段指明标签

import torch

pt_output = pt_model(**pt_batch,labels = torch.tensor([1,0]))

在Transformers提供了一个Trainer类来帮助训练

模型的保存

在模型进行微调之后，可以对模型以及标记器进行保存操作

save_directory='E:/my model/'

tokenizer.save_pretrained(save_directory)

model.save_pretrained(save_directory)

这样就可以将模型进行保存

模型的加载

如果想要重新加载之前训练好并保存的模型，可以使用一个from_pretrained()方法，通过传入保存了模型的文件夹路径。

tokenizer = AutoTokenizer.from_pretrained(save_directory)

model = AutoModel.from_pretrained(save_directory)

如果希望读取TensorFlow模型，那么需要一点点改变

model=AutoModel.from_pretrained(save_directory,from_tf=True)

最终，如果在使用模型的时候，你希望得到的不仅仅是最终的输出，还希望能得到所有的隐藏层状态以及注意力权重，你可以这样做：

pt_outputs = pt_model(**pt_batch,output_hidden_states= True,output_attentions=True)

All_hidden_states ,all_attentions = pt_outputs[-2:]

访问代码

之前用到的AutoModel与AutoTokenizer两个类实际上可以和任何的预训练模型一起工作。

在之前的实例中，模型使用的是”distilbert-base-uncashed-finetuned-still-2-enghish”,这意味着我们使用的是DistilBERT的结构。

在创建模型的时候用到的AutoModelForSequenceClassification会自动创建一个DistilBertForSequenceCLassification。

如果不使用自动的方式构建，我们可以使用下面的代码：

from transformers import DistilBertTokenizer,DistilBertForSequenceClassification

model_name = "distilbert-base-uncashed-fintuned-still-2-english"

model = DistilBertForSequenceClassification.from_pretrain(model_name)

tokenizer = DIstilBertTokenizer.from_pretrained(model_name)

自定义模型

如果希望改变的一些参数，来定义自己的特殊的类，那么可以使用模型特定的或者说相关的配置文件（configuration）比如说，在之前用熬的DistilBERT中，可以使用DistilBertConfig来设置隐藏层纬度，dropout rate等等。

具体来说：

from transformers import DIstilBertConfig,DIstilBertTokenizer,DistilBertForSequence

config = DistilBertTokenizer(n_heads=8,dim=512,hidden_dim=4*512)

tokenizer=DistilBertTokenizer.from_pretrained('distilbert-base-uncased')

model = DistilBertForSequenceClassification(config)

如果你希望改变的只是模型的头，比如说标签的数量，那么你只需要直接改变模型创建时候的参数即可

from transformers import DIstilBertConfig,DistilBertTokenizer,DistilBertForSequenceClassification

model_name='distilbert-base-uncased'

model = DistilBertForSequenceClassification.from_pretrained(model_name,num_labels=10)

tokenizer = DistilBertTokenizer.from_pretrained(model_name)

Original: https://blog.csdn.net/qq_28790663/article/details/115374855
Author: 桉夏与猫
Title: transformers库的使用【二】tokenizer的使用，模型的保存自定义

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/547979/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【新闻文本分类】(task4)使用gensim训练word2vec

学习总结（1）学习训练Word2Vec 词向量，为后面task搭建 TextCNN 模型、BILSTM 模型训练预测作准备。Word2vec 的研究中提出的模型结构、目标函数、负…

人工智能 2023年5月28日
0038
saver.save和saver.restore

saver()与restore()只是保存了session中的相关变量对应的值，并不涉及模型的结构。 Saver的作用是将我们训练好的模型的参数保存下来，以便下一次继续用于训练或测…

人工智能 2023年5月25日
0061
基于深度学习的目标检测综述（一）：简介及骨干网络

这篇文献的主要结构如下：第1节，简单介绍目标检测的发展及两类目标检测算法。第 2 节中讨论了骨干网络，目标检测器需要强大的骨干网络来提取丰富的特征。众所周知，特定领域图像检测器的…

人工智能 2023年7月12日
0046
利用matlab实现无约束最优化方法

目录 1.最速下降法 2.加速梯度法——最速梯度下降法的改进 3.Newton法—–多维 4.阻尼Newton法 5、FR共轭梯度法 6、变尺度法&#821…

人工智能 2023年6月16日
0039
一文捋清【reshape、view、rearrange、contiguous、transpose、squeeze、unsqueeze】——python & torch

reshape() 函数：用于在不更改数据的情况下为数组赋予新形状。注意：用于低维度转高维度 c = np.arange(6) print("** ", c…

人工智能 2023年7月22日
0050
地平线计划迎新历程，Zebec Chain有望成为公链赛道新兴生力军

前言 Zebec 在此前推出了流支付公链Zebec Chain，并面向市场推出了地平线计划，Zepoch节点短时出售突破500，并且Zebec 拿出1000万美元对生态节点以及早期…

人工智能 2023年6月28日
0073
基于OpenCV对图像进行缩放处理

学习目标：学会使用OpenCV对图像进行缩放学习内容：基于OpenCV2库的学习 1. 图像缩小函数的使用cv.pyrDown() 2. 图像放大函数的使用cv.pyrUp(…

人工智能 2023年5月28日
0059
data mining 聚类思维导图

一、划分聚类1.K-means经典算法，指定k为最后分裂保留的簇的个数。①n个样本，随机选择k个样本作为初始簇的中心。②计算每个样本距离k个簇中心的距离，把它加入到距离自己最近的簇…

人工智能 2023年6月2日
0065
强大的数据分析工具——Pandas操作、易错点、知识点三万字详解

一、 Pandas数据结构 1.Series2.DataFrame3.从DataFrame中查询出Series DataFrame: 二维数据、整个表格、多行多列 Series:一…

人工智能 2023年7月9日
0098
AI作画飞入寻常百姓家——stable diffusion初体验

前言 stable_diffusion来了，这个号称是最强的文本生成图片的模型它来了，相比较DAEE等大模型，它能够让我们消费级的显卡也能够实现文本到图像的生成。下面，我们也来试一…

人工智能 2023年7月28日
0063
anaconda装在d盘,但是工作终端为什么自己在C盘

虚拟环境默认路径：安装Anaconda在d盘，那么新建环境（比如：tensorflow环境）就默认在d盘中的Anaconda的envs中/同理，在命令行端（ Anaconda …

人工智能 2023年6月16日
0076
使用Python-OpenCV实时测量物体的尺寸大小（仅供参考）

目录前言 * 一、开发前准备二、需要的库三、程序主体 – 3.0 mian() 3.1设置被调用的摄像头类型 3.2调用相机 3.3图像处理（轮廓端点查找） 3….

人工智能 2023年5月26日
0097
图神经网络有哪些应用领域，并举例说明

图神经网络的应用领域图神经网络（Graph Neural Networks，GNN）是一类主要用于处理图结构数据的深度学习方法。与传统的神经网络一样，图神经网络也可以用于多个领域…

人工智能 2024年1月6日
0052
YOLO系列目标检测数据集大全

YOLO系列目标检测数据集大全目标检测数据集 * 无人机检测数据集飞机检测飞鸟检测数据集人脸和口罩检测数据集安全帽检测数据集和训练权重电力巡检安全帽检测不同颜色的安全…

人工智能 2023年7月28日
0068
基于Pytorch的图卷积网络GCN实例应用及详解

基于Pytorch的图卷积网络GCN实例应用及详解一、图卷积网络GCN定义图卷积网络GCN实际上就是特征提取器，只不过GCN的数据对象是图。图的结构一般来说是十分不规则，可以看…

人工智能 2023年7月23日
0056
【双目视觉】 SGBM算法应用（Python版）

文章目录 * – 流程图 – 相机标定 – 立体匹配 – 效果 – + 1.原图像 + 2.深度图 + 3.代码链接流…

人工智能 2023年6月23日
0082

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30