【Pytorch神经网络理论篇】 40 Transformers中的词表工具Tokenizer

2023年7月13日下午2:06 • 人工智能 • 阅读 83

同学你好！本文章于2021年末编写，获得广泛的好评！

故在2022年末对本系列进行填充与更新，欢迎大家订阅最新的专栏，获取基于Pytorch1.10版本的理论代码(2023版)实现，

Pytorch深度学习·理论篇(2023版)目录地址为：

CSDN独家 | 全网首发 | Pytorch深度学习·理论篇(2023版)目录本专栏将通过系统的深度学习实例，从可解释性的角度对深度学习的原理进行讲解与分析，通过将深度学习知识与Pytorch的高效结合，帮助各位新入门的读者理解深度学习各个模板之间的关系，这些均是在Pytorch上实现的，可以有效的结合当前各位研究生的研究方向，设计人工智能的各个领域，是经过一年时间打磨的精品专栏！【Pytorch神经网络理论篇】 40 Transformers中的词表工具Tokenizer https://v9999.blog.csdn.net/article/details/127587345 ; 欢迎大家订阅(2023版)理论篇

以下为2021版原文~~~~

【Pytorch神经网络理论篇】 40 Transformers中的词表工具Tokenizer

1 Tokenizer

在Transformers库中，提供了一个通用的词表工具Tokenizer，该工具是用Rust编写的，其可以实现NLP任务中数据预处理环节的相关任务。

1.1 Tokenizer工具中的组件

在词表工具Tokenizer中，主要通过PreTrainedTokenizer类实现对外接口的使用。

1.1.1 Normaizer

对输入字符串进行规范化转换，如对文本进行小写转换、使用uni-code规范化。

1.1.2 PreTokenizer

对输入数据进行预处理，如基于字节空格、字符等级别对文本进’Madel：生成和使用子词的横型，如Wordlevel、BPE、WordPlece等模型。这部分是可训练的。

1.1.3 Post-Processor

对分词后的文本进行二次处理。例如，在BERT模型中，使用ssor为输入文本添加特殊字符（如[CLS]、[SEP]等)。

1.1.4 Dcoder

负责将标记化输入映射回原始字符串。

1.1.5 Trainer

为每个模型提供培训能力。

1.2 子词的拆分

词表工具将liyongle分成了[lI’，yong’，’#le]，使用子词的拆分技术可以防止NLP任务中，在覆盖大量词汇的同时，词表过大的问题。

1.2.1 子词的拆分原理

在进行NLP时，通过为每个不同词对应一个不同的向量，来完成文字到数值之间的转换，这个映射表被称作词表。

1.2.2 字词拆分优势

对于某些形态学丰富的语言（如德语，或是带有时态动词的英语)，如果将每个变化的词都对应一个数值，则会导致词表过大的问题。而且这种方式使得两个词之间彼此独立，也不能体现出其本身的相近意思（如pad和padding)。

子词就是将一般的词，如padding分解成更小单元pad+ding。而这些小单元也有各自意思，同时这些小单元也能用到其他词中。子词与单词中的词根、词缀非常相似。通过将间分解成子词，可以大大降低模型的词汇量，减少运算量。

1.2.3 于统计方法实现的子词的分词方法

Byte Pair Encoding(BPE)法：统计频次，即先对语料统计出相邻符号对的频次，再根据频词进行融合。

WordPiece法：WordPiece法统计最大似然，是Google公司内部的子词包，其未对外公开。BERT最初用的就是WordPiece法分词。

Unigram Language Model法：先初始化一个大词表，接着通过语言模型评估不断减少词表，一直减少到限定词汇量。

1.2.4 使用模型训练的方法对子词进行拆分

在神经网络模型中，还可以使用模型训练的方法对子词进行拆分。常见的有子词正则和BPEDropout方法。二者相比，BPEDropout方法更为出色。

1.2.5 模型中使用子词

在模型的训练过程中，输入的句子是以子词形式存在的，这种方式得到的预测结果也是子词。

当使用模型进行预测时，模型输出子词之后，再将其合并成整词即可。例如，训练时先把liyongle分成了[lI’，yong’，’##le’]，获得结果后，将句子中的”##”去掉即可。

2 PreTrainedTokenizer类

2.1 PreTrainedTokenizer类中的特殊词

在PreTrainedTokenizer类中，将词分成了两部分：普通词与特殊词。其中特殊词是指用于标定句子的特殊标记，主要是在训练模型中使用

2.1.1 使用代码查看系统特殊词

import torch
from transformers import BertTokenizer, BertForMaskedLM

加载预训练模型
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

for tokerstr in tokenizer.SPECIAL_TOKENS_ATTRIBUTES:
    strto = "tokenizer." + tokerstr
    print(tokerstr, eval(strto))

获得标记词在词表中的索引值

print("masktken"，tokenizer.mask_token,tokenizer.mask_token_id)

输出
输出：

bos_token None 
eos_token None
unk_token [UNK] # 未知标记
Using bos_token, but it is not set yet.

sep_token [SEP] # 句子结束标记
pad_token [PAD] # 填充标记
Using eos_token, but it is not set yet.

cls_token [CLS] # 开始标记
mask_token [MASK] # 遮蔽词标记
additional_special_tokens [] # 用于扩充使用，用户可以把自己的自定义特殊词添加到里面，可以对应多个标记，这些标记都会被放到列表中。获取该词对应的标记并不是一个，在获取对应索引值时，需要使用additional_special_tokens_ids属性。

2.2 PreTrainedTokenizer类中特殊词的使用方法

2.2.1 encode完整定义

def encode(self,
           text, # 第一个句子
           text_pair=None,  #第二个句子
           add_special_tokens=True,#是否添加特殊词，如果为False，则不会增加[CLS],[SEP]等标记词
           max_length=None, # #最大长度
           stride=0, #返回截断词的步长窗口，stride在encode方法中没有任何意义。该参数主要为兼容底层的encode_plus方法。在encode_plus方法中，会根据stride的设置来返回从较长句子中截断的词。
           truncation_strategy="longest_first", # 截断策略
            #截断策略：longest_first（默认值)）当输入是2个句子的时候，从较长的那个句子开始处理对其进行截断，使其长度小于max_length参数。
            #截断策略：only_frst：只截断第一个句子。
            #截断策略：only_second：只截断第二个句子。
            #截断策略：dou not_truncate：不截断（如果输入句子的长度大于max_length参数，则会发生错误)。
           pad_to_max_length=False,#对长度不足的句子是否填充
           return_tensors=None, #是否返回张量类型,可以设置成"tf"或"pt"，主要用于指定是否返回PyTorch或TensorFlow框架下的张量类型。如果不设置，默认为None，即返回Python中的列表类型。
           **kwargs
           )

2.2.2 代码实现：使用encode方法实现语句分词与分句

from transformers import BertTokenizer, BertForMaskedLM

加载预训练模型
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

encode方法对每句话的开头和结尾都分别使用了[CLS]和[SEP]进行标记，并对其进行分词
one_toind = tokenizer.encode("Who is Li BiGor ?")#将第一句转化成向量
two_toind = tokenizer.encode("Li BiGor is a programmer")#将第二句转化成向量

在合并时,使用了two_toind[1:]将第二句的开头标记[CLS]去掉,表明两个句子属于一个段落。
all_toind = one_toind+two_toind[1:] #将两句合并

print(tokenizer.convert_ids_to_tokens(one_toind))
print(tokenizer.convert_ids_to_tokens(two_toind))
print(tokenizer.convert_ids_to_tokens(all_toind))
输出：
['[CLS]', 'who', 'is', 'li', 'big', '##or', '?', '[SEP]']
['[CLS]', 'li', 'big', '##or', 'is', 'a', 'programmer', '[SEP]']
['[CLS]', 'who', 'is', 'li', 'big', '##or', '?', '[SEP]', 'li', 'big', '##or', 'is', 'a', 'programmer', '[SEP]']

2.2.3 代码实现：使用encode方法实现语句的索引值填充

from transformers import BertTokenizer, BertForMaskedLM

加载预训练模型
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

encode方法的参数max_length代表转换后的总长度.如果超过该长度,则会被截断。
如果小于该长度，并且参数pad_to_max_length为True时，则会对其进行填充。
padd_sequence_word = tokenizer.encode("Li BiGor is a man",max_length=10,pad_to_max_length=True)
print("padd_sequence_word:",padd_sequence_word)
输出：padd_sequence_word: [101, 5622, 2502, 2953, 2003, 1037, 2158, 102, 0, 0]

2.2.4 代码实现：使用encode方法实现语句的截断

from transformers import BertTokenizer, BertForMaskedLM

加载预训练模型
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

return_num = tokenizer.encode("Li BiGor is a man",max_length=5)
return_word = tokenizer.decode(return_num) # 使用decode将索引值转化为汉子
print("return_word：",return_word)
输出：return_word： [CLS] li bigor [SEP]

2.2.5 代码实现：使用encode_plus方法完成非填充部分的掩码标志，被截短词的附加信息

encode_plus方法是PreTrainedTokenzer类中更为底层的方法。在调用encode方法时，最终也是通过encode_plus方法来实现的。

from transformers import BertTokenizer, BertForMaskedLM
加载预训练模型
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

encode_plus方法输出了一个字典，字典中含有3个元素：
input_jds：对句子处理后的词素引值，与encode方法输出的结果一致。
token_type_ids：对两个句子中的词进行标识，属于第一个句子中的词用0表示，属于第二个句子中的词用1表示。
attention_mask：表示非填充部分的掩码，非填充部分的词用1表示，填充部分的词用0表示。

padded_plus_toind = tokenizer.encode_plus("Li BiGor is a man",maxlength = 10,pad_to_max_length=True)
print("padded_plus_toind：",padded_plus_toind)
输出：padded_plus_toind： {'input_ids': [101, 5622, 2502, 2953, 2003, 1037, 2158, 102],
                       'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0],
                       'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1]
                       }

2.2.5 代码实现：使用batch_encode_pus方法批处理语句

batch_encode_pus方法同时处理两个句子，并输出了一个字典对象两个句子对应的处理结果被放在字典对象value的列表中。

from transformers import BertTokenizer, BertForMaskedLM
加载预训练模型
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

tokens = tokenizer.batch_encode_plus(["This is a sample","This is another longer sample text"],pad_to_max_length=True )
print(tokens)
输出：{'input_ids': [[101, 2023, 2003, 1037, 7099, 102, 0, 0], [101, 2023, 2003, 2178, 2936, 7099, 3793, 102]],
    'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0]],
    'attention_mask': [[1, 1, 1, 1, 1, 1, 0, 0], [1, 1, 1, 1, 1, 1, 1, 1]]}

3 向PreTrainedTokenizer类中添加词（普通词和特殊词）

3.1 方法定义

添加普通词:调用add_tokens方法,填入新词的字符串.
添加特殊词:调用add_Special_tokens方法,填入特殊词字典.

3.2 代码实现：向PreTrainedTokenizer类中添加词（普通词和特殊词）

from transformers import BertTokenizer, BertForMaskedLM
加载预训练模型
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

print("-------------------------添加特殊词前-------------------------")

print("特殊词列表",tokenizer.additional_special_tokens) # 特殊词列表 ['']
print("特殊词索引值列表:",tokenizer.additional_special_tokens_ids) # 特殊词索引值列表: [30522]

toind = tokenizer.encode(" yes ")

print(tokenizer.convert_ids_to_tokens(toind))
 # 将索引词转化成字符串并输出 ：['[CLS]', '', 'yes', '', '[SEP]']

print(len(tokenizer))# 输出词表总长度:30522

print("-------------------------添加特殊词后-------------------------")

special_tokens_dict = {'additional_special_tokens':[""]}
tokenizer.add_special_tokens(special_tokens_dict)  # 添加特殊词
print("特殊词列表",tokenizer.additional_special_tokens) # 特殊词列表 []
print("特殊词索引值列表:",tokenizer.additional_special_tokens_ids) # 特殊词索引值列表: []

toind = tokenizer.encode(" yes ")

print(tokenizer.convert_ids_to_tokens(toind))  # tokenzer在分词时，没有将""字符拆开。
将索引词转化成字符串并输出 ：['[CLS]', '', 'yes', '', '[SEP]']

print(len(tokenizer))   # 输出词表总长度:30523

Original: https://blog.csdn.net/qq_39237205/article/details/124430495
Author: LiBiGo
Title: 【Pytorch神经网络理论篇】 40 Transformers中的词表工具Tokenizer

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/689972/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

YOLO v5模型的yaml文件参数理解

可关注本人的github，关于opencv一些学习代码: https://github.com/xiaoaleiBLUE 最近在修改YOLO v5一些模型时候或者加入一些新的东西进…

人工智能 2023年7月27日
0087
Pandas中的数据聚合方法

; 💨更多相关知识👇 💖Spring中的创建对象的三种方式、第三方资源配置管理详细描述及使用（XML版完结篇） 💖Spring中的bean的配置、作用范围、生命周期详细描述及使用（…

人工智能 2023年7月9日
0078
【知识图谱】实践篇——基于知识图谱的《红楼梦》人物关系可视化及问答系统实践：part4检索人物关系实现

前序文章：【知识图谱】实践篇——基于知识图谱的《红楼梦》人物关系可视化及问答系统实践：part1项目介绍与环境准备【知识图谱】实践篇——基于知识图谱的《红楼梦》人物关系可视化及…

人工智能 2023年6月1日
00111
基于梵·高《向日葵》的图像阈值处理专题（二值处理、反二值处理、截断处理、自适应处理及Otsu方法）【Python-Open_CV系列（六）】

基于梵·高《向日葵》的图像阈值处理专题（二值处理、反二值处理、截断处理、自适应处理及Otsu方法）【Python-Open_CV系列（六）】文章目录 🍹1. 什么是阈值处理？ 🍹…

人工智能 2023年6月17日
0075
C#：计算机视觉与OpenCV 的目标

《学习OpenCV(中文版)》作者：（美）布拉德斯基（Bradski，G.），（美）克勒（Kaehler，A.）著出版社：清华大学出版社出版时间：2009年10月 ; 一、计算…

人工智能 2023年6月22日
00100
Electron是什么以及可以做什么

新用户购买《Electron + Vue 3 桌面应用开发》，加小册专属微信群，参与群抽奖，送《深入浅出Electron》、《Electron实战》作者签名版。1等奖：《深入浅出E…

人工智能 2023年6月28日
0088
图像分割算法

图像分割图像分割介绍 * 传统分割方法 – 基于阈值的分割方法基于区域的图像分割方法基于分水岭算法的图像分割基于边缘检测的分割方法图像分割介绍图像分割（im…

人工智能 2023年7月28日
0067
【Sklearn】【API详解】【SVM】- sklearn.svm.SVR参数详解（二）

SVR为Support Vector Regression的简写，顾名思义，其是基于支持向量的回归器模型中的两个自由参数为 C 和 epsilon，自由参数不能通过理论推测，可…

人工智能 2023年7月21日
0046
电商数据分析项目总结！

↑↑↑关注后”星标”Datawhale 每日干货 & 每月组队学习，不错过 Datawhale干货作者：牧小熊，华中农业大学，Datawhale原…

人工智能 2023年7月8日
0072
【实用】3种调整matplotlib图片大小的方法

如何设定matplotlib输出的图片大小？ import matplotlib.pyplot as plt 比如想让输出的图片大小为 600×600像素： plt.figure(…

人工智能 2023年7月5日
0072
智能车 PID 调试

智能车 PID 调试文章目录智能车 PID 调试 * 学习目的开环控制与闭环控制 – 开环控制闭环控制小结 PID 概述 – 简介 PID 公式：…

人工智能 2023年6月2日
00126
【机器学习】基于天气数据集的XGBoost分类与预测

目录一、学习知识点概要二、学习内容 * 代码 – 1.导入库 2.对离散变量进行编码 3.利用 XGBoost 进行训练与测试 4.利用 XGBoost 进行特征选…

人工智能 2023年7月2日
0050
行人轨迹论文阅读SSAGCN: Social Soft Attention Graph Convolution Network for Pedestrian Trajectory Prediction

SSAGCN: Social Soft Attention Graph Convolution Network for Pedestrian Trajectory Predicti…

人工智能 2023年5月28日
0074
entity什么类型_细粒度实体分类（1）——什么是细粒度实体分类

研究生期间其实关注了实体链接（Entity Linking）、共指消解（Coreference Resolution）、细粒度实体分类（Fine-grained Entity Ty…

人工智能 2023年6月10日
0073
5的分类为正类，小

问题背景在机器学习领域中，分类是一个重要的任务。分类的目标是将样本数据分成不同的类别，使得同一类别内的数据具有相似的特征。在本问题中，我们需要将数字5与其他数字进行分类，将数字5…

人工智能 2023年12月31日
0029
最全的知识图谱技术综述最新版本2021

知识图谱技术是人工智能技术的组成部分，其强大的语义处理和互联组织能力，为智能化信息应用提供了基础。以下内容涵盖了基本定义与架构、代表性知识图谱库、构建技术、开源库和典型应用。最近1…

人工智能 2023年6月1日
0091

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31