NLP中什么是span和token

2023年5月27日下午11:37 • 人工智能 • 阅读 70

1、token

提到token，不得不提 tokenization（分词）。分词就是将句子、段落、文章这类型的 长文本，分解为以 字词（token） 为单位的数据结构。
比方说，在句子 “我很开心” 中，利用中文分词得到的列表是 {“我”，”很”，”开心”}，列表中的每一个元素代表一个 token。
而论文中的 token representation表达把文本分词后每个词表示成向量。

2、span

通常span指一个片段，如下图所示，span指的是位置4-5（包含）对应的 “开心” 的这个文本片段。

PS:有帮助可以点个赞支持一下博主么，谢谢~

Original: https://blog.csdn.net/qq_44853197/article/details/118654219
Author: TerryBlog
Title: NLP中什么是span和token

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528154/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

np.arange()和np.linspace()绘制logistic回归图像时得到不同的结果？

1.公式 logistic回归函数的公式： logistic回归函数的导数公式： σ'(x) = σ(x) * ( 1 – σ(x) ) 2.np.arange()函数…

人工智能 2023年6月17日
00145
吴恩达 – 机器学习课程笔记（持续更新）

一、机器学习 1.1 机器学习定义计算机程序从经验E中学习，解决某一任务T，进行某一性能P，通过P测定在T上的表现因经验E而提高eg：跳棋程序E：程序自身下的上万盘棋局T：下…

人工智能 2023年6月12日
0068
Python:实用的IPython（一种交互式开发环境）

用习惯了CentOS突然又用Windows，写Python想在控制端写怎么办？别急，一招教你在Windows终端写出一手舒服的代码！欢迎光临，我的主页。更多干货，等你来学：不许代码…

人工智能 2023年7月6日
00100
动手学深度学习笔记（五）——softmax回归实现

我们发现通过深度学习框架的高级API能够使实现线性回归变得更加容易。同样，通过深度学习框架的高级API也能更方便地实现softmax回归模型。文章目录 1.1 图像分类数据集 …

人工智能 2023年6月17日
0078
Pandas基础入门

Pandas 是一种处理表格数据的工具，十分好用，所以一般我们在Python领域都用它和它老爸numpy来处理数据，处理的数据类型必须是”dataFrame&#8221…

人工智能 2023年7月8日
0093
Encoder-Decoder 模型架构详解

文章目录概述 Seq2Seq（ Sequence-to-sequence ） Encoder-Decoder的缺陷 Attention 机制的引入 Transformer中的En…

人工智能 2023年6月23日
0088
OWLAPI

基础知识 RDF Formats 开源库 JENA OWLAPI OWLAPI使用 protege ExtensionLanguage.ttlTurtle.ntN-Triples….

人工智能 2023年6月10日
0065
Vue3树形控件实现跳转页面

欢迎关注csdn前端领域博主: 前端小王hs email: 337674757@qq.com 前端交流群： 598778642 今天想分享的是Vue3中利用element-plus…

人工智能 2023年6月29日
0088
图表复现|PRD地下水微生物群落的多样性分析文献

前言之前有小伙伴问道，能否复现一篇关于微生物多样性文献里的图片，今天小编给大家分享一下微生物分析相关的画图方法。这篇文献《Diversity and predictive met…

人工智能 2023年6月1日
0072
Python空间分析| 03 利用Python进行地理加权回归（GWR）

地理加权回归（GWR） GWR本质上是一种局部加权回归模型，GWR根据每个空间对象的周围信息，逐个对象建立起回归方程，即每个对象都有自己的回归方程，可用于归因或者对未来的预测。GW…

人工智能 2023年6月18日
0078
算法工程师深度解构ChatGPT技术

引言 | 本栏目特邀腾讯知名语言文本项目算法工程师冉昱、薛晨，用专业视野带你由浅入深了解ChatGPT技术全貌。它经历了什么训练过程？成功关键技术是什么？将如何带动行业的变革？开发…

人工智能 2023年7月31日
0049
以太坊的终局：去信任的信任

世界计算机以太坊诞生于大约7年前；就像之前的互联网一样，它的发展是混乱的，成长的痛苦是巨大的……但回报是值得的。未来比你想象的更近，你想看看以太坊的未来会…

人工智能 2023年6月26日
0065
【安卓学习之第三方库】 Tencent Matrix-android使用-ANR

█ 【安卓学习之第三方库】 Tencent Matrix使用-ANR █ 系列文章目录小贴士：以下是关于Android学习的常见问题的文章集 [En] Tip: here is …

人工智能 2023年5月25日
00119
200 bbbbbbbbbbbbjjjnnn

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月29日
0073
YOLOv5输入端（一）—— Mosaic数据增强|CSDN创作打卡

入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。一、原理分析二、代码分析 1、主体部分——load_mosaic 2、l…

人工智能 2023年5月26日
0097
Python3：我低调的只用一行代码，就导入Python所有库！

一行代码导入python所有库 1、引言 2、Pyforest * 2.1 Pyforest 介绍 2.2 Pyforest 安装与使用 – 2.2.1 安装 2.2….

人工智能 2023年7月14日
0063

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

NLP中什么是span和token

1、token

2、span

大家都在看