tf.keras.preprocessing.text.Tokenizer函数

2023年5月25日下午1:35 • 人工智能 • 阅读 68

tf.keras.preprocessing.text.Tokenizer(
    num_words=None,
    filters='!"#$%&()*+,-./:;<=>?@[\\]^_{|}~\t\n',
    lower=True,
    split=' ',
    char_level=False,
    oov_token=None,
    document_count=0,
    **kwargs
)
</=>
</code></pre>
<p>Tokenizer函数用于创建一个分词器对象tokenizer。参数num_words用于表示应该保持的最大的单词数，如果小于输入数据所构成词汇表的不同的单词数，则一部分单词会被删掉。默认值为None，表示应该保持的单词数和词汇表的一致。</p>
<p>参数filters表示应该被过滤的单词或者字符。参数lower表示输入的大写字母是否应该转换成小写字母，默认为True。参数split表示用于分词的分隔符，默认情况下，文本变成以空格分隔的单词序列（单词可能包括 ' 字符）。</p>
<p>参数char_level表示是对一个单词进行分割还是对一个字符进行分割，默认为True，表示对一个字符进行分割。</p>
<p>参数oov_token如果给定，它将被添加到 word_index 并用于在 text_to_sequence 调用期间替换词汇表外的单词。</p>
<p>tokenizer对象具有以下常用属性和方法：</p>
<p><strong>1、fit_on_texts(texts)</strong>：根据文本来更新内部词汇表，如果texts为一个字符串，那么结果都将按照字符划分；如果texts为一个字符串列表，比如["hello world"]、["hello", "world"]，则如果设置char_level=False，分词器按照单词划分。</p>
<p><strong>2、get_config()</strong>：获取分词器的配置，里面有word_index、index_word、word_docs、index_docs、document_count、word_counts等常用的信息。</p>
<p><strong>3、sequences_to_texts(sequences)</strong>：将数字序列转换成文本，形式为[[4], [3], [2], [2]]或者[[4, 3, 2, 2]]的列表或者numpy数组。</p>
<p><strong>4、texts_to_sequences(texts)</strong>：将文本转换成数字序列。</p>
<p><strong>5、word_index</strong>:一个将文本映射为数字的字典</p>
<p><strong>6、index_word</strong>:一个将数字映射为文本的字典</p>
<pre><code>根据字符划分
创建一个分词器
>>> tokenizer = tf.keras.preprocessing.text.Tokenizer()
>>> text = "hello tensorflow"
根据文本更新内部分词器信息
>>> tokenizer.fit_on_texts(text)
获取配置信息
>>> config = tokenizer.get_config()
>>> config
{
'num_words': None,
'filters': '!"#$%&()*+,-./:;<=>?@[\\]^_{|}~\t\n',
'lower': True,
'split': ' ',
'char_level': False,
'oov_token': None,
'document_count': 16,
'word_counts': '{"h": 1, "e": 2, "l": 3, "o": 3, "t": 1, "n": 1, "s": 1, "r": 1, "f": 1, "w": 1}',
'word_docs': '{"h": 1, "e": 2, "l": 3, "o": 3, "t": 1, "n": 1, "s": 1, "r": 1, "f": 1, "w": 1}',
'index_docs': '{"4": 1, "3": 2, "1": 3, "2": 3, "5": 1, "6": 1, "7": 1, "8": 1, "9": 1, "10": 1}',
'index_word': '{"1": "l", "2": "o", "3": "e", "4": "h", "5": "t", "6": "n", "7": "s", "8": "r", "9": "f", "10": "w"}',
'word_index': '{"l": 1, "o": 2, "e": 3, "h": 4, "t": 5, "n": 6, "s": 7, "r": 8, "f": 9, "w": 10}'
}
&#x83B7;&#x53D6;word_index&#x5B57;&#x5178;
>>> tokenizer.word_index
'{"l": 1, "o": 2, "e": 3, "h": 4, "t": 5, "n": 6, "s": 7, "r": 8, "f": 9, "w": 10}'
&#x6709;&#x65F6;&#x9700;&#x8981;&#x83B7;&#x53D6;&#x8BCD;&#x6C47;&#x8868;&#x7684;vocab_size
>>> vocab_size = len(tokenizer.word_index)
>>> vacab_size
10
&#x6587;&#x672C;&#x8F6C;&#x6362;&#x6210;&#x5E8F;&#x5217;
>>> seq = tokenizer.texts_to_sequences("hello")
>>> seq
[[4], [3], [1], [1], [2]]
&#x5E8F;&#x5217;&#x8F6C;&#x6362;&#x6210;&#x6587;&#x672C;&#xFF0C;&#x4E09;&#x79CD;&#x60C5;&#x51B5;
>>> texts = tokenizer.sequences_to_texts([[4],[3],[1],[1],[2]])
>>> texts
['h', 'e', 'l', 'l', 'o']
>>> texts = tokenizer.sequences_to_texts([[4, 3, 1, 1, 2]])
>>> texts
['h e l l o']
>>> texts = tokenizer.sequences_to_texts(np.array([[4, 3, 1, 1, 2]]))
>>> texts
['h e l l o']

&#x6839;&#x636E;&#x5355;&#x8BCD;&#x5212;&#x5206;
>>> tokenizer = tf.keras.preprocessing.text.Tokenizer()
>>> texts = "hello tensorflow"
>>> text_list = tf.keras.preprocessing.text.text_to_word_sequence(texts)
>>> text_list
['hello', 'tensorflow']
>>> tokenizer.fit_on_texts(text_list)
>>> tokenizer.texts_to_sequences(text_list)
[[1], [2]]
>>> texts = "hello tensorflow"
>>> tokenizer.texts_to_sequences([texts])
[[1, 2]]
>>> tokenizer.word_index
{'hello': 1, 'tensorflow': 2}
&#x8BBE;&#x7F6E;&#x53C2;&#x6570;oov_token
>>> tokenizer = tf.keras.preprocessing.text.Tokenizer(oov_token="mask")
>>> tokenizer.fit_on_texts(text_list)
>>> tokenizer.sequences_to_texts([[1, 2]])
['mask hello']
>>> tokenizer.word_index
{'mask': 1, 'hello': 2, 'tensorflow': 3}
</=>

Original: https://blog.csdn.net/weixin_49346755/article/details/124558309
Author: 不负韶华ღ
Title: tf.keras.preprocessing.text.Tokenizer函数

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/514356/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据包络分析（DEA）详解（以第八届宁夏省赛为例）

目录一、基本介绍 1.1原理 1.2CCR模型 1.3BCC模型二、代码 2.1MATLAB代码 2.2Python代码三、案例分析 3.1案例介绍 3.2案例分析 3.3案…

人工智能 2023年6月17日
0097
【目标检测】基于LCM算法实现红外小目标检测matlab源码

1 模型 Robust small target detection of low signal-to-noise ratio (SNR) is very important in…

人工智能 2023年7月12日
0097
聚类–DBSCAN

1、什么是DBSCN DBSCAN也是一个非常有用的聚类算法。它的主要优点:它不需要用户先验地设置簇的个数，可以划分具有复杂形状的簇，还可以找出不属于任何簇的点。 DBSCAN比…

人工智能 2023年6月19日
0082
excel求回归直线方程的公式_如何用excel快速求线性回归方程？

通常求解线性回归方程，在Excel中使用的方法为规划求解，今天我从另外两个思路给你讲一讲如何求解线性回归方式给。先来看一下什么是线性回归方程：线性回归方程是利用数理统计中的回归分…

人工智能 2023年6月18日
00100
【论文学习】graph backdoor论文学习

摘要本文提出了GTA攻击方法，这是在GNN上的第一个后门攻击（backdoor attack）。GTA有如下几个重要的方面：1）graph-oriented：将trigger定义…

人工智能 2023年6月1日
0084
DLA模型(分类模型+改进版分割模型) + 可变形卷积

Deep Layer Aggregation (DLA) 是一种网络特征融合方法，发表于CVPR 2018。相比传统串联的卷积网络，其典型特点是实现了不同层级的深度融合，相比目标检…

人工智能 2023年5月26日
0097
数据挖掘导论 N个考试常用的问题

目录第一章认识数据挖掘 1、什么是数据中”隐含”的信息 2、数据挖掘主要研究什么内容？它和数据库、数据查询、专家系统、数理统计有什么不同？ 3、辨析：数…

人工智能 2023年7月17日
0051
照猫画虎：tensorboard、tensorflow版本卸载、安装、显示不出来问题

下载网址：https://tensorflow.google.cn/install/gpu 参考：照猫画虎啊 https://blog.csdn.net/qq_42535133/a…

人工智能 2023年5月23日
0099
深度学习笔记（3）——kernel（内核）与filter（滤波器）

深度学习笔记（3）——kernel（内核）与filter（滤波器）文章目录深度学习笔记（3）——kernel（内核）与filter（滤波器）前言一、kernel内核概念二…

人工智能 2023年7月27日
0065
【深度学习理论】(6) 循环神经网络 RNN

大家好，今天和各位分享一下处理序列数据的循环神经网络RNN的基本原理，并用 Pytorch 实现 RNN 层和 RNNCell 层。之前的博文中已经用过循环神经网络做过许多实战…

人工智能 2023年5月28日
0079
ubuntu 编译安装支持CUDA的OpenCV

ubuntu 编译安装opencv 支持cuda cuda和cudnn的安装相对简单这里就不过多解释。一、安装opencv依赖包 sudo apt-get update sudo…

人工智能 2023年5月28日
0055
Mysql中EXPLAIN解读

Explain介绍当EXPLAIN与可解释的语句一起使用时，MySQL将显示来自优化器的有关语句执行计划的信息。也就是说，MySQL解释了它将如何处理该语句，包括有关如何连接表以…

人工智能 2023年6月28日
0085
COCO数据集人体姿态估计关键点检测评估

本页介绍了COCO使用的关键点评估指标。此处提供的评估代码可用于在公开可用的COCO验证集上获得结果。它计算下面描述的多个指标。为了在COCO测试集上获得结果，其中隐藏了实际真值注…

人工智能 2023年6月15日
0072
【Python Turtle合集】有趣好玩的代码当然要分享给大家啦~（皮卡丘、玫瑰花、小黄人……）

前言 🚀 作者：”程序员梨子”🚀 文章简介：本篇文章主要是写了利用Turtle库绘制四种不一样的图案的小程序！🚀 **文章源码免费获取：为了感谢每一…

人工智能 2023年7月4日
00109
笔记本3060显卡+windows11配置tensorflow-gpu

配置：3060+window11+cuda11.1+cudnn8.1.1+tensorflow2.4.1 目录 1、安装CUDA–CUDA Toolkit 2、安装CU…

人工智能 2023年5月25日
0097
2022自动驾驶竞赛WAD介绍 CVPR 2022 Workshop on Autonomous Driving

导引 https://cvpr2022.wad.vision/CVPR 2022年自动驾驶研讨会(WAD)旨在聚集来自学术界和工业界的研究人员和工程师，讨论自动驾驶认知的最新进展。…

人工智能 2023年6月10日
0085

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

tf.keras.preprocessing.text.Tokenizer函数

大家都在看