Pytorch Transformer Tokenizer常见输入输出实战详解

2023年6月15日下午9:01 • 人工智能 • 阅读 99

Tokenizer简介和工作流程

Transformers，以及基于BERT家族的预训练模型+微调模式已经成为NLP领域的标配。而作为文本数据预处理的主要方法-Tokenizer（分词器）则成为了必不可少的工具。本篇文章以Transformers中使用的AutoTokenizer为例说明其用法。但如果实际场景中使用BERT、ALBERT等预训练模型，原理类似，但需要使用模型相对应的Tokenizer，例如transformers.BertModel对应的Tokenizer是transformers.BertTokenizer

通常，我们会直接使用Transformers包中的AutoTokenizer类来创建并使用分词器。分词器的工作流程如下：

将给定的文本拆分为称为Token（词或标记）的单词（或部分单词、标点符号等）。
将这些Token转换为数字编码，以便构建张量并将其提供给模型。
添加模型正常工作所需的任何输入数据。例如特殊字符[CLS]，[SEP]等

下面会分别介绍Tokenizer常见的几种输入，以及输出中的三个常用字段。

Tokenizer的单句输入，以及输出中的”input_ids”字段

我们先看一下tokenizer的单句输入和对应输出。tokenizer.tokenize(sequence)方法接受单句的输入，完成上述的第1步任务，将文本拆分为token的数字。而tokenizer(sequence)则直接完成第1到第3步的工作。缺省情况下，输出的数字编码（encoding）是至少包含一个组成元素”input_ids”的字典。”input_ids”字段是输出的数字编码字典中唯一不可少的字段，即以数组形式存储的标记索引（token indices），比如下面输出中的数字138对应”A”、18696对应”Titan”。以字典方式可以直接访问并输出句子对应的token索引序列。当然，我们也可以反过来，用tokenizer.decode()方法逆向解码一个token索引序列，并返回原始句子（实际是原始句子的一个超集）。

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-cased")

Transformer's tokenizer - input_ids
sequence = "A Titan RTX has 24GB of VRAM"
print("Original sequence: ",sequence)
tokenized_sequence = tokenizer.tokenize(sequence)
print("Tokenized sequence: ",tokenized_sequence)
encodings = tokenizer(sequence)
encoded_sequence = encodings['input_ids']
print("Encoded sequence: ", encoded_sequence)
decoded_encodings=tokenizer.decode(encoded_sequence)
print("Decoded sequence: ", decoded_encodings)

输出结果并注意：

大写字母组成的单词会分解为一个或多个语义独立的token，但tokenizer也会用##来表示其并非单独存在。
解码后的句子跟原句子不完全一致，而是多了两个特殊字符。这两个特殊字符是tokenizer()方法在第3步任务时自动添加的，例如[CLS]表示句子开始或分类标志，[SEP]表示句子结束或分隔标志。当调用方法逆向解码时，也会一并显示多加的字符。

Tokenizer的多句子输入，以及输出中的Attention_mask

多句子输入的时候，需要标准化，使其能够整齐划一的进行比较。例如，输入的两个句子长度不一致，需要通过短句填充（padding）的方式让其长度一致。不过这样也会带来额外的问题。比如，在训练的时候，机器并不知道填充的内容无意义，仍然会忠实的按照填充的数值来计算，从而可能引入错误的信息。为了避免这个问题，toknenizer的缺省输出会返回第二个字段”attention_mask”。它会告诉机器返回的数字编码中哪些是需要注意的实际数据，哪些是不需要关心的填充数据。

Transformer's tokenizer - attention_mask
sequence_a = "This is a short sequence."
sequence_b = "This is a rather long sequence. It is at least longer than the sequence A."
print("Sequence a: ",sequence_a)
print("Sequence b: ",sequence_b)
encoded_sequence_a = tokenizer(sequence_a)["input_ids"]
encoded_sequence_b = tokenizer(sequence_b)["input_ids"]
print("A's encoding length={}. \nB's encoding length={}".format(len(encoded_sequence_a),len(encoded_sequence_b)))
padded_sequence_ab = tokenizer([sequence_a,sequence_b],padding=True)
print("Padded sequence(A,B):", padded_sequence_ab["input_ids"])
print("Attention mask(A,B):", padded_sequence_ab["attention_mask"])

输出结果：

Tokenizer两个句子拼接输入和输出的token_type_ids

有些NLP任务需要将两个句子拼接在一起，比如序列标注/分类和问答。例如问答时，需要第一个作为上下文，第二个句子作为问题，要求模型输出答案。这时tokenizer接受两个句子的顺序输入并输出数字编码。虽然返回的数字编码中也包含了句子的分隔信息，Tokenizer的输出仍然提供可选的第3个常用字段”token_type_ids”。它用来表明返回的数字编码中哪些属于第一个句子，哪些属于第二个句子。

Transformer's tokenizer - token type id
encodings_ab = tokenizer(sequence_a, sequence_b)
print("Encoded sequence(AB):", encodings_ab["input_ids"])
decoded_ab = tokenizer.decode(encodings_ab["input_ids"])
print("Decoded sequence(AB):", decoded_ab)
print("Token type ids(AB):", encodings_ab["token_type_ids"])

输出结果：

本文简单总结了Tokenizer在基于Transformers应用中的主要作用和工作流程，并详细解释了tokenizer()的三种常用输入，包括单句、多句和两句拼接输入。另外，详细解释了三个最常用的输出字段”input_idx”、”attention_mask”，”token_type_ids”，供大家参考。

Original: https://blog.csdn.net/yosemite1998/article/details/122306758
Author: yosemite1998
Title: Pytorch Transformer Tokenizer常见输入输出实战详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/617482/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

机器学习期末考试判断题

1.集合中的元素没有特定顺序但可以重复。参考答案：错误集合（set）是一个无序的不重复元素序列。创建一个空集合必须用 set() 而不是 { }，因为 { } 用来创建一个空…

人工智能 2023年5月31日
00135
一元回归及多元回归模型

目录一、前言二、案例分析求解 2.1问题一 2.1.1分析 2.1.2Matlab求解一元线性回归模型 2.1.3结果 2.2问题二 2.2.1分析 2.2.2Matlab…

人工智能 2023年6月17日
0087
人工智能写代码！ChatGPT VScode 插件真正打败AI人工智能的只能是AI人工智能自己。

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0053
【入坑ORB-SLAM3系列2】未标定的realsense D435i试运行ORB-SLAM3（手把手教学，含realsense d435i一些错误的解决）

我之前刚编译成功ORB-SLAM3的时候试跑了一下demo（数据集），但是效果其实很一般，甚至想说拉垮，在ROS环境下跑双目imu更拉垮，跑论文里的几个数据集，我就没跑成过，跑例程…

人工智能 2023年6月2日
00256
搭建zynq平台下UbertoothOne运行环境

首先认是一下 UbertoothOne什么， Ubertooth是一个蓝牙实验平台。它能够嗅探蓝牙智能(BLE)，发现无法发现的经典蓝牙设备，并执行基本的经典蓝牙设备嗅探。 Ub…

人工智能 2023年6月29日
0056
三步骤详解张正友标定法

1998年，张正友提出了基于二维平面靶标的标定方法，使用相机在不同角度下拍摄多幅平面靶标的图像，比如棋盘格的图像，然后通过对棋盘格的角点进行计算分析来进行相机标定（求解相机的内外参…

人工智能 2023年6月18日
00270
einops库中rearrange，reduce和repeat的介绍

用法介绍 einops是一个简洁优雅操作张量的库，并且支持对numpy，pytorch，tensorflow中的张量进行操作，该库最大的优点是函数的使用逻辑清晰明了，其中中常用的三…

人工智能 2023年5月23日
00117
Python 毕设精品实战案例——快速索引目录Part2

温馨提示：文末有 CSDN 平台官方提供的学长 QQ 名片 :) 基于性别网上学习特征分析及可视化系统本项目通过调查问卷获取大学生的网上在线学习的特征数据，利用python分析不…

人工智能 2023年6月24日
0082
【pytorch】ResNet18、ResNet20、ResNet34、ResNet50网络结构与实现

文章目录 ResNet主体 BasicBlock * ResNet18 ResNet34 ResNet20 Bottleneck Block * ResNet50 ResNet到底…

人工智能 2023年6月16日
0081
matlab神经网络预测模型,matlab人工神经网络预测

matlab怎么利用神经网络做预测谷歌人工智能写作项目：小发猫如何利用matlab进行神经网络预测 matlab带有神经网络工具箱，可直接调用，建议找本书看看，或者MATLAB…

人工智能 2023年6月15日
0084
【深度学习】：《PyTorch入门到项目实战》（十二）卷积神经网络：填充(padding)和步幅(stride)

【深度学习】：《PyTorch入门到项目实战》（十二）填充(padding)和步幅(stride) ✨本文收录于【深度学习】：《PyTorch入门到项目实战》专栏，此专栏主要记录如…

人工智能 2023年6月16日
0083
PyTorch深度学习实践第九讲多分类问题手写数字识别(训练+测试) 超详细

视频链接：《PyTorch深度学习实践》完结合集_哔哩哔哩_bilibili 思路：准备数据集设计模型类构造损失函数和优化器训练和测试 1.准备数据集：因为MNIST是t…

人工智能 2023年7月13日
0078
YOLOv5训练自己的数据集（Windows）

1.源码下载 GitHub – ultralytics/yolov5: YOLOv5 🚀 in PyTorch > ONNX > CoreML > T…

人工智能 2023年7月9日
0082
目标检测打卡营上：VOC/COCO数据集、评测指标&Faster R-CNN等两阶段检测算法

文章目录 * – 一、目标检测综述 – + 1.1 目标检测应用场景和挑战 + 1.2 目标检测算法基础知识 + * 1.2.1 目标检测算法简介 * 1….

人工智能 2023年7月10日
00147
东财《组织学习与知识管理》综合作业

试卷总分:100 得分:100一、单选题 (共 20 道试题,共 40 分)1.下列关于任务分析需要确定的因素错误的是（）。A.工作的简答程度B.工作的饱和程度C.公司业务的发展引…

人工智能 2023年6月1日
0072
基于AI的图像视觉处理技术

计算机视觉是一门研究如何使机器”看”的科学，作为一个学科，它试图建立能够从图像或多维数据中获取”信息”的人工智能系统。一、检测跟踪…

人工智能 2023年7月10日
0057

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Pytorch Transformer Tokenizer常见输入输出实战详解

Tokenizer简介和工作流程

Tokenizer的单句输入，以及输出中的”input_ids”字段

输出结果并注意：

Tokenizer的多句子输入，以及输出中的Attention_mask

输出结果：

Tokenizer两个句子拼接输入和输出的token_type_ids

大家都在看