transformers库使用–tokenizer

2023年7月22日下午12:42 • 人工智能 • 阅读 75

在我使用transformers进行预训练模型学习及微调的时候，需要先对数据进行预处理，然后经过处理过的数据才能送进bert模型里，这个过程中使用的主要的工具就是tokenizer。通过与相关预训练模型相关的tokenizer类建立tokenizer，例如，对于Roberta，我们可以使用与之相关的RobertaTokenizer,或者直接通过AutoTokenizer类，这个类能自动的识别所建立的tokenizer是与哪个bert模型相对应。通过tokenizer，它会将一个给定的文本分词成一个token序列，然后它会映射这些tokens成tokenizer的词汇表中token所对应的下标，在这个过程中，tokenizer还会增加一些预训练模型输入格式所要求的额外的符号，如，'[CLS]’，'[SEP]’等。经过这个预处理后，就可以直接地”喂”进我们的预训练模型里面。

1.1 初始化

通常初始化有两种，一种是通过 from_pretrained 方法，另一种是直接实例化 RobertaTokenizer类，并在其中指定词表的路径。

from_pretrained

from transformers import BertTokenizer
TOKENIZER_PATH = "../input/huggingface-bert/bert-base-chinese"
tokenizer = BertTokenizer.from_pretrained(TOKENIZER_PATH)

TOKENIZER_PATH 是包含 vocab.txt文件的目录
* 直接实例化类

from transformers import BertTokenizer
tokenizer = BertTokenizer(vocab_file="./pretrain_model/bert-base-chinese/vocab.txt")

该方法必须指定 vocab_file

1.2 入门使用

tokenizer.tokenize(text:str): 分词，只能输入字符串
tokenizer.convert_tokens_to_ids(tokens:list): 将词转换成id
tokenizer.convert_ids_to_tokens(token_id: list): 将id转换成词

from transformers import BertTokenizer
tokenizer = BertTokenizer(vocab_file="./pretrain_model/bert-base-chinese/vocab.txt")

examples = ["我爱北京天安门", "天安门广场吃炸鸡"]

res = tokenizer.tokenize(examples[0])
print(res)

token_id = tokenizer.convert_tokens_to_ids(res)
print(token_id)

id2token = tokenizer.convert_ids_to_tokens(token_id)
print(id2token)

输出：

['&#x6211;', '&#x7231;', '&#x5317;', '&#x4EAC;', '&#x5929;', '&#x5B89;', '&#x95E8;']
[2769, 4263, 1266, 776, 1921, 2128, 7305]
['&#x6211;', '&#x7231;', '&#x5317;', '&#x4EAC;', '&#x5929;', '&#x5B89;', '&#x95E8;']

tokenizer里面的方 encode, batch_encode, encode_plus, batch_encode_plus 将上面的两个步骤(分词、编码)都包含了，使用起来更加方便，不过这些方法在transformers的将来的版本中，会被遗弃，它们的全部的功能都集成到了 __call__方法里，所以下一节重点讲解__call__方法

第一节中需要先分词，再将token转换成id，此外输入到模型中还需要手工进行padding等操作，并且第一节中的方法只能处理单条数据。该章节将介绍如何一步到位，直接输入到模型。在此之前需要了解call方法中的一些参数

__call__(
    text: typing.Union[str, typing.List[str], typing.List[typing.List[str]]],
    text_pair: typing.Union[str, typing.List[str], typing.List[typing.List[str]], NoneType] = None
    add_special_tokens: bool = True
    padding: typing.Union[bool, str, transformers.utils.generic.PaddingStrategy] = False
    truncation: typing.Union[bool, str, transformers.tokenization_utils_base.TruncationStrategy] = False
    max_length: typing.Optional[int] = None
    stride: int = 0
    is_split_into_words: bool = False
    pad_to_multiple_of: typing.Optional[int] = None
    return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None
    return_token_type_ids: typing.Optional[bool] = None
    return_attention_mask: typing.Optional[bool] = Nonereturn_overflowing_tokens: bool = False
    return_special_tokens_mask: bool = False
    return_offsets_mapping: bool = False
    return_length: bool = Falseverbose: bool = True**kwargs
    ) → BatchEncoding

下面介绍几个经常用到的参数：

text: 需要被编码的文本，可以是一维或二维list
padding: 是否需要padding，可选如下几个值
True or 'longest'，padding到一个batch中最长序列的长度
'max_length'， padding到由 max_length参数指定的长度，如果没有指定 max_length则padding到模型所能接受的最大长度
False or 'do_not_pad'，不进行padding
truncation: 是否要进行截断
True or 'longest_first'，保留由 max_length指定的长度，或者当 max_length没有指定时，截取保留模型最大能接受的长度，对于sentence pair，截取长度最大的句子
False or 'do_not_truncate (default) 不截取
only_first，截取到max_length, 但是只截取sentence pair中的第一个句子
'only_second'，同理，只截取pair中第二个句子
max_length，句子最大长度，和padding及truncation相关
is_split_into_words 输入的句子是否已经分词好了，比如已经用空格分隔开
return_tensors 返回类型，默认是list类型，可选 pt返回torch 的 tensor， tf返回tensorflow的tensor， npnumpy类型
return_length，是否返回编码的序列长度，default=False

from transformers import BertTokenizer
tokenizer = BertTokenizer(vocab_file="./pretrain_model/bert-base-chinese/vocab.txt")

examples = ["我爱北京天安门", "天安门广场吃炸鸡"]
res = tokenizer(examples,
                padding="max_length",
                truncation=True,
                max_length=7,
                return_tensors="pt",
                return_length=True)

print(res)
print(res["input_ids"].shape)

输出: 返回一个字典

{'input_ids': tensor([[ 101, 2769, 4263, 1266,  776, 1921,  102],
                    [ 101, 1921, 2128, 7305, 2408, 1767,  102]]),
 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0],
                         [0, 0, 0, 0, 0, 0, 0]]),
 'length': tensor([7, 7]),
 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1],
                         [1, 1, 1, 1, 1, 1, 1]])}

torch.Size([2, 7])

2.1 最常用的方法

*每一个batch只padding到batch中最大长度，如果超过模型接受的最大长度，就截取到模型能接受最大长度

input_text = ["我爱北京天安门", "广场吃炸鸡"]
tok_res = tokenizer(input_text,
                padding=True,
                truncation=True,
                max_length=512,
                return_tensors="pt")

这样的好处是能够根据batch动态调整句子padding后长度，没必要每个batch都padding成相同的长度，比如第一个batch中最大长度为7，那第一batch最后每个句子都会padding到7，第二个batch中最大长度为10，最后第二batch中每个句子长度都会padding到10；但是每个batch句子的长度会不同，在某些情况下可能会有问题

*指定句子最大长度，每个batch都使用相同的句子长度

examples = ["我爱北京天安门", "广场吃炸鸡"]
res = tokenizer(examples,
                padding="max_length",
                truncation=True,
                max_length=7,
                return_tensors="pt",
                return_length=True)

这样无论第一个batch和第二个batch中最大长度为多少，都会padding或truncate到7

Original: https://blog.csdn.net/orangerfun/article/details/124089467
Author: orangerfun
Title: transformers库使用–tokenizer

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/709023/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

SIFT图像匹配原理及python实现（源码实现及基于opencv实现）

写在前面黄宁然，看过你看过的算法，数学不好是硬伤。问题来源： An* xue100: https://bbs.csdn.net/topics/*?spm=1001.2014.3…

人工智能 2023年6月17日
0071
import keras的错误module ‘tensorflow.compat.v2‘ has no attribute ‘__internal__‘

使用的tensorflow 为 import tensorflowtensorflow.versionOut[4]: ‘2.3.0’ 但import ker…

人工智能 2023年5月26日
0066
【对话生成】常见对话生成数据集整理，含下载链接(更新至2022.06.04)

本文主要整理对话生成领域相关的数据集，尤其是开放域对话生成。当前可以把开放域对话生成任务划分为：传统开放域对话生成、多模态对话生成、情感对话生成、个性化对话生成、策略控制对话生成等…

人工智能 2023年6月4日
00103
图像分类（AlexNet）：代码笔记

文章目录（零）AlexNet前言知识 * 0.1 常用公式 0.2 深度学习的宏观框架 0.3 ImageNet数据集 AlexNet的历史意义 AlexNet完整结构图论文中…

人工智能 2023年7月1日
0097
基本的分类模型

前言书接上文，一个完整的机器学习分类项目分为以下步骤：收集数据集并选择合适的特征。选择度量模型性能的指标。选择具体的模型并进行训练以优化模型。评估模型的性能并调参。让我…

人工智能 2023年7月3日
0095
anaconda新建的环境如何在jupyter notebook中打开

我的情况：win10电脑，已经安装anaconda,用的自带3.7版的python；我的问题：最近需要安装tensorflow ，在3.7版的python上安装失败，所以打算新创建…

人工智能 2023年5月24日
0069
迎新管理系统功能简单需求设计分享博奥智源科技

迎新管理系统迎新专题门户 ★可支持搭建专属迎新门户，实现迎新事项的动态发布和通知。门户展现内容可由学校自主设计，如：学校概况、迎新公告、新生导航、常见问题等。迎新计划制定学校…

人工智能 2023年6月28日
0089
qq互动视频页面加载失败_QQ更新了，表情包会说话？！

新的一年，老鼠和鹅粉新年快乐 [En] New year, Happy year of the Mouse and Goose Powder 新的一年，会是怎样的~ 本Q为大家准备…

人工智能 2023年5月27日
00116
图像分割之Unet解析及实现代码

Unet解析及实现代码论文连接: https://arxiv.org/pdf/1505.04597.pdf 源码连接: https://github.com/FENGShuang…

人工智能 2023年6月17日
0076
[debug]PyTorch报错：ConnectionResetError:[Errno104]Connectionresetbypeer

问题描述：使用PyTorch 1.10.0，训练报错： ConnectionResetError: [Errno 104] Connection reset by peer 问题…

人工智能 2023年7月24日
0057
airpodspro窃听模式_AirPods pro通透模式什么原理?

AirPods Pro的通透模式也就是我们所常说的环境音模式，环境音模式就是设备在保证低频降噪的效果下，同时开启人声的增益。让通话更清晰更流畅。在与人面对面交流时，无需摘下耳机，切…

人工智能 2023年5月27日
00105
分布式电源接入对配电网影响的研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，matlab项目合作可私信。🍎个人主页：Matlab科研工作室🍊个人信条：格物致知。更多Matlab仿真内容点击👇…

人工智能 2023年7月31日
0072
论文阅读2–《融合多因素的短时交通流预测研究》

1.问题的提出现有的交通流预测研究大多为常态下的预测，而未考虑天气、节假日等外部因素的影响。 2.交通流预测相关工作（1）传统的短时交通流研究方法：卡尔曼滤波模型、历史平均模型…

人工智能 2023年5月30日
0093
基于pointnet的3D物体分类和分割检测（复现不出来你直接敲我家门）

录前言一.资料下载 1.代码下载 2.数据集下载二.环境配置 1.本文采用设备配置说明 2.虚拟环境配置三.训练部分 1.分类训练部分 2.分割的训练部分四.预测部分 1…

人工智能 2023年7月1日
0098
【练手】MNIST数据集之图像可视化

MNIST数据集作为神经网络和深度学习工具书和初学者首个经常接触和使用的”典型”数据集，是”知名”的手写数字数据集，本身占用空间不…

人工智能 2023年6月22日
0066
K-means算法与K-means++算法的异同

经典Kmeans算法是最常用的一种聚类算法。感觉在西瓜书里面最容易看懂的，而且最容易用的一个算法便是k-mean算法，算法实现的流程十分简单，可以简单将其划分为4个步骤： Step…

人工智能 2023年5月31日
0072

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

transformers库使用–tokenizer

1.1 初始化

1.2 入门使用

2.1 最常用的方法

大家都在看