tokenizers Tokenizer类

2023年5月28日上午12:51 • 人工智能 • 阅读 52

tokenizers.Tokenizer(model)

Tokenizer函数构造一个分词器对象。分词方式主要有 word-level、subword-level、char-level三种，其中，subword-level分词方式又有四种不同实现的方法： BPE、Unigram、WordPiece、SentencePiece。

参数model表示分词器使用的分词方式，接受一个Model对象，这里主要实现了word-level的分词方式以及subword-level的分词方式。Tokenizer类主要的方法有：

1、from_file(path)：从指定文件加载Tokenizer对象。

2、from_pretrained(identifier, revision = ‘main’, auth_token = None)：从Hugging Face Hub官网上加载一个已存在的Tokenizer对象。参数identifier就是加载的对象模型。

3、from_str(json)：从json格式的字符串来加载Tokenizer对象。

4、from_buffer(buffer)：从缓冲区来加载Tokenizer对象。

5、encode(sequence, pair = None, is_pretokenized = False, add_special_tokens = True)：对于给定的一个分句进行编码，返回一个Encoding对象。参数pair表示第二个分句。参数is_pretokenized表示是否已经预分词化，如果为True，则输入的sequence和pair都应该为一个列表。

6、encode_batch(input, is_pretokenized = False, add_special_tokens = True)：对多个分句进行编码，返回一个Encoding对象。

7、decode(ids, skip_special_tokens = True)：表示对一个id序列进行解码，将id映射为字符串。参数skip_special_tokens表示是否跳过特殊的字符串。这些特殊的字符串是由add_special_tokens函数来创建的。

8、decode_batch(sequences, skip_special_tokens = True)：表示对多个id序列进行解码。

9、add_tokens(tokens)：添加新的分词，这些分词会添加到词汇表中。

10、add_special_tokens(tokens)：添加特殊的分词到词汇表中，与add_tokens函数不同的是，这些特殊的分词可以在解码时被忽略。

11、enable_padding(direction = ‘right’, pad_id = 0, pad_type_id = 0, pad_token = ‘[PAD]’, length = None, pad_to_multiple_of = None)：设置在进行encode_batch操作时，当各个分句的长度不一样时应用填充。

12、enable_truncation(max_length, stride = 0, strategy = ‘longest_first’, direction = ‘right’ )：设置在进行encode_batch操作时，当各个分句的长度不一样时对分句进行截取。

13、no_padding( )：禁用填充。
14、no_truncation( )：禁用截取。

15、save(path, pretty = True):保存tokenizer模型（一个json文件）到指定路径，参数pretty表示用一行还是多行来表示json文件，默认为多行。

16、train(files, trainer = None)：用指定文件列表里面的数据来训练分词器。

17、id_to_token(id)：将单个id转换成单个字符。
18、token_to_id(token)：将单个字符转换成单个id。

1、tokenizer模型的加载

&#x7B2C;&#x4E00;&#x79CD;&#x52A0;&#x8F7D;&#x65B9;&#x5F0F;
&#x4ECE;json&#x6587;&#x4EF6;&#x4E2D;&#x52A0;&#x8F7D;tokenizer&#x5BF9;&#x8C61;
tokenizer0 = tokenizers.Tokenizer.from_file("./tokenizer4/vocab.json")
&#x4ECE;hugging face &#x5B98;&#x7F51;&#x4E2D;&#x5728;&#x7EBF;&#x52A0;&#x8F7D;tokenzier&#x5BF9;&#x8C61;
tokenizer1 = tokenizers.Tokenizer.from_pretrained("distilbert-base-uncased")
&#x6839;&#x636E;json&#x6587;&#x4EF6;&#x7684;&#x5185;&#x5BB9;&#x5B57;&#x7B26;&#x4E32;&#x6765;&#x52A0;&#x8F7D;tokenizer&#x5BF9;&#x8C61;
with open("./tokenizer4/vocab.json", "r", encoding="utf8") as file:
    json_dict = json.load(file)
    json_string = json.dumps(json_dict)
tokenizer2 = tokenizers.Tokenizer.from_str(json_string)

&#x7B2C;&#x4E8C;&#x79CD;&#x52A0;&#x8F7D;&#x65B9;&#x5F0F;
tokenizer = tokenizers.Tokenizer()
tokenizer.model = models.BPE().from_file(vocab="./tokenizer4/vocab.json", merges="./tokenizer4/merges.txt")

2、tokenizer模型的训练

&#x4E2D;&#x6587;&#x5206;&#x8BCD;&#x65B9;&#x5F0F;&#xFF0C;&#x9664;&#x4E86;BPE&#xFF0C;&#x8FD8;&#x6709;WordPiece&#x3001;Unigram&#x4E24;&#x79CD;
tokenizer = tokenizers.Tokenizer(models.BPE())
tokenizer.pre_tokenizer = pre_tokenizers.Whitespace()
tokenizer.decoder = decoders.BPEDecoder()
trainer = trainers.BpeTrainer()
tokenizer.train(["ch_demo_sm.txt"], trainer)

&#x82F1;&#x6587;&#x5206;&#x8BCD;&#x65B9;&#x5F0F;&#xFF0C;word-level&#x5206;&#x8BCD;&#x65B9;&#x5F0F;
tokenizer = tokenizers.Tokenizer(models.WordLevel())
tokenizer.pre_tokenizer = pre_tokenizers.Whitespace()
trainer = trainers.WordLevelTrainer(special_tokens=["[PAD]"])
tokenizer.train(["en_demo_sm.txt"], trainer)

&#x82F1;&#x6587;&#x5206;&#x8BCD;&#x65B9;&#x5F0F;&#xFF0C;subword-level&#x5206;&#x8BCD;&#x65B9;&#x5F0F;
&#x8FD9;&#x91CC;&#x4F7F;&#x7528;wordpiece&#x5206;&#x8BCD;&#x65B9;&#x6CD5;
tokenizer = tokenizers.Tokenizer(models.WordPiece())
tokenizer.pre_tokenizer = pre_tokenizers.Whitespace()
trainer = trainers.WordPieceTrainer(special_tokens=["[PAD]"])
tokenizer.train(["en_demo_sm.txt"], trainer)

3、tokenizer模型的保存

&#x4F7F;&#x7528;tokenizer.save&#x51FD;&#x6570;&#x4FDD;&#x5B58;&#xFF0C;&#x4F1A;&#x751F;&#x6210;&#x4E00;&#x4E2A;vocab.json&#x6587;&#x4EF6;
tokenizer.save("./tokenizer4/vocab.json")

&#x4F7F;&#x7528;tokenizer.model.save&#x4FDD;&#x5B58;&#xFF0C;&#x4F1A;&#x751F;&#x6210;&#x4E00;&#x4E2A;vocab.json&#x548C;&#x4E00;&#x4E2A;merges.txt&#x6587;&#x4EF6;
&#x6CE8;&#x610F;&#x8FD9;&#x4E2A;vocab.json&#x548C;&#x4E0A;&#x9762;&#x7684;vocab.json&#x6587;&#x4EF6;&#x5185;&#x5BB9;&#x4E0D;&#x4E00;&#x6837;&#x3002;
tokenizer.model.save("./tokenizer4")

4、使用tokenizer模型进行encode和decode操作

&#x7F16;&#x7801;&#x4E00;&#x4E2A;&#x53E5;&#x5B50;
encoding0 = tokenizer.encode("any attempt to leave surprises me.")
&#x7F16;&#x7801;&#x4E00;&#x4E2A;&#x6709;&#x4E24;&#x4E2A;&#x5206;&#x53E5;&#x7684;&#x53E5;&#x5B50;
encoding1 = tokenizer.encode("any attempt to leave surprises me.", pair="arrival of John dead surprised me.")
&#x53C2;&#x6570;is_pretokenized=True&#x65F6;&#xFF0C;&#x53C2;&#x6570;sequence&#x5E94;&#x4E3A;&#x4E00;&#x4E2A;&#x5217;&#x8868;
encoding2 = tokenizer.encode(["any attempt to leave surprises me."],
                             is_pretokenized=True)
&#x7F16;&#x7801;&#x591A;&#x4E2A;&#x53E5;&#x5B50;
encodings0 = tokenizer.encode_batch(["any attempt to leave surprises me.",
                                    "the arrival of John dead surprised me."])
&#x7F16;&#x7801;&#x591A;&#x4E2A;&#x6709;&#x4E24;&#x4E2A;&#x5206;&#x8BCD;&#x7684;&#x53E5;&#x5B50;
encodings1 = tokenizer.encode_batch([("any attempt to leave surprises me.", "John's arrival dead surprised me."),
                                     ("John's attempt to leave surprised me.", "the arrival of John dead surprised me.")])
&#x53C2;&#x6570;is_pretokenized=True&#x65F6;&#xFF0C;&#x53C2;&#x6570;sequence&#x5E94;&#x4E3A;&#x4E00;&#x4E2A;&#x5217;&#x8868;
encodings2 = tokenizer.encode_batch([["any attempt to leave surprises me."],
                                    ["the arrival of John dead surprised me."]],
                                    is_pretokenized=True)

&#x5BF9;&#x4E00;&#x4E2A;ids&#x8FDB;&#x884C;&#x89E3;&#x7801;
decode_string = tokenizer.decode(encoding1.ids, skip_special_tokens=False)
&#x5BF9;&#x591A;&#x4E2A;ids&#x8FDB;&#x884C;&#x89E3;&#x7801;
decode_strings = tokenizer.decode_batch([encodings1[0].ids, encodings1[1].ids])

&#x5C06;&#x5355;&#x8BCD;&#x53D8;&#x6210;id
token_id = tokenizer.token_to_id("me")
&#x5C06;id&#x53D8;&#x6210;&#x5355;&#x8BCD;
token = tokenizer.id_to_token(62)

Original: https://blog.csdn.net/weixin_49346755/article/details/125111058
Author: 不负韶华ღ
Title: tokenizers Tokenizer类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528383/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

多兴趣召回SINE：Sparse-Interest Network for Sequential Recommendation

今天分享一篇阿里2021年发表的推荐论文 Sparse-Interest Network for Sequential Recommendation 召回阶段负责从海量的item中…

人工智能 2023年5月31日
0091
数据分析师的职业发展

作者介绍 @小宇专注流量数据分析，就职过360和58。 “数据人创作者联盟”成员 00 导语最近常常看到关于数据分析师职业发展瓶颈的讨论，观点不一，众说…

人工智能 2023年7月17日
0044
OpenCV-Python 彩色图像转灰度图

本文主要是讲OpenCV-Python对图像进行彩色转灰度图的操作文章目录前言一、读取图片二、彩色图片转灰度图强烈说明：前言这里给出一个OpenCV-Python文档…

人工智能 2023年7月18日
0044
R语言中使用pkgbuild::find_rtools查看是否有Rtools、使用Sys.which函数查看make是否存在、如果没有则安装、使用writeLines函数绑定R和Rtools

R语言中使用pkgbuild::find_rtools(debug = TRUE)查看是否有Rtools、使用Sys.which函数查看make是否存在、如果没有则安装Rtools…

人工智能 2023年7月16日
0060
[Python图像处理] 四十.全网首发Python图像分割万字详解（阈值分割、边缘分割、纹理分割、分水岭算法、K-Means分割、漫水填充分割、区域定位）

该系列文章是讲解Python OpenCV图像处理知识，前期主要讲解图像入门、OpenCV基础用法，中期讲解图像处理的各种算法，包括图像锐化算子、图像增强技术、图像分割等，后期结合…

人工智能 2023年6月19日
0058
语音识别系统代码

语音识别代码语言：Java / SpeechRecognitionDlg.cpp : implementation file // #include "stdafx.h&…

人工智能 2023年5月27日
0062
数据可视化：随时间变化的效果图

随时间变化的效果图数据处理 Line-Line_yaixs_log Timeline Streamlit 数据处理获取北京、上海、江苏、广东四省的2008—2012年的GDP数…

人工智能 2023年7月5日
0089
用Diffusion Models实现image-to-image转换

### 回答1： Q: 什么是”调色板：图像到图像扩散模型”？ A: 调色板：图像到图像扩散模型是一种图像处理技术，它利用调色板（一组预定义的颜色）将一张图…

人工智能 2023年7月28日
0042
机器学习西瓜书第三章学习笔记-线性模型（线性回归、对数几率回归、LDA）

线性回归:解决回归问题，输出为连续的值数据集D = {(x1, y1), (x2, y2), … (xm, ym)}, 其中 xi 有d个属性描述，多元线性回归试图…

人工智能 2023年6月17日
0067
海思平台ISP与图像的IQ调试(1)

目录一、何为ISP何为IQ调试 * 1、ISP概念剖析 2、在哪里做ISP 3、何为IQ 4、ISP和IQ总结二、海思MPP中ISP的实现框架 * 1、官方文档 2、sampl…

人工智能 2023年5月26日
0062
车辆运动学模型到动力学模型推导

车辆运动学模型到动力学模型推导参考 https://www.bilibili.com/video/BV1St411A7nH/?spm_id_from=333.788.recomm…

人工智能 2023年6月10日
0084
Neo4j安装教程（3.5.28）

知识图谱图数据库必备一、Neo4j简介知识图谱（Knowledge Graph），在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的…

人工智能 2023年6月1日
0079
Ubuntu 20.04下OpenCV的安装

Ubuntu 20.04下OpenCV的安装程序之美前言主体 * 下载安装命令环境配置所遇问题程序之美前言 OpenCV是一个基于Apache2.0许可（开源）发行…

人工智能 2023年5月26日
0061
不用写代码神器！教你用4行命令轻松使用nnUNet训练自己的医学图像分割模型

给定某个数据集，nnU-Net完全自动执行整个分割过程，包括 数据预处&#x7406…

人工智能 2023年6月17日
0058
DataFrame数据的查询和编辑

目录 1.选取列 2.选取行 3.读取行和列 4.增加数据 5.删除行和列（不少于4个代码案例，选取行，选取列，增加行，删除行）查询【一般都是通过索引来操作的】 1. …

人工智能 2023年7月7日
0082
二叉树的先序、中序和后序遍历

一、简介二叉树有先序、中序和后序三种遍历方式。 关注根的位&…

人工智能 2023年6月28日
0071

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

tokenizers Tokenizer类

大家都在看