NLP标注神器：可同时对文本与实体进行标注

2023年5月28日上午7:41 • 人工智能 • 阅读 118

我之前做实体标注项目使用过 标注精灵、 BRAT、 YEDDA、 DeepDive等标注工具，这些工具虽然可以满足实体标注需求，但安装过程复杂、英文界面、有时会有卡顿，对标注人员都很不友好。

而我目前要做的任务需要 能同时对数据进行实体标注和文本分类标注，以上提到的工具都很难满足，分开标注效率又太低。于是我找到了 rasa-nlu-trainer标注工具， 免费、无需安装、无需注册、操作快捷且能同时标注，真是神器！今天就分享给大家。

1 进入标注工具

地址： https://rasahq.github.io/rasa-nlu-trainer，大家直接复制链接就可进入， 无需注册登录，十分方便，进入网页后可看到示例：

intent列是为文本进行分类标注，点开最左端的小加号后可为句子中的实体进行标注。

接下来为大家示范从导入数据到导出标注数据的整个过程，前方高能！

; 2 导入待标注数据

此工具要求的导入文件格式为 josn，我们可直接点击网页右上角 Download进行下载，查看需要的数据格式（为方便演示，我只截取了两条）。

可以看到它是字典嵌套列表的格式，我们主要构造红框内的内容，然后将外层字典的关键字加上即可。

以下为制作数据集的模板，大家可直接复制使用：

第一步

将待标注数据整理成一个列表（也可由txt直接构造，本文以列表做示范）：

moive = ['扬名立万很好看。',
         '沙丘差评！',
         '疯狂的石头太好看啦！',
         '我和我的父辈还行吧',
         '长津湖666']

第二步

编写函数将其转换为固定的传入格式：

def listToJosn(li):
    result = []
    for text in li:

        item = {
                'text': text,
                'intent':'',
                'entities': []
                }
        result.append(item)

    dic = {"rasa_nlu_data":
            {"common_examples": result}}

    return dic

res = listToJosn(moive)
res

第三步

然后结果转为 josn文件：

import json

with open("a.json", "w") as f:
    f.write(json.dumps(res, ensure_ascii=False, indent=4))

打开查看当前目录下的 a.josn文件，已经转换成功:

第四步

点击界面右上角 Click to Upload上传文件：

显示5条数据已经上传成功！

; 3 文本分类标注

可自定义标签名称
已定义的名称在下次标注时可自动弹出，操作方便快捷

我们定义1为好评，2为差评，3为中性。界面简洁，操作快捷，演示如下：

还可以对文本进行关键字筛选。比如我们将带有”好看”的文本筛出，可对这类句子统一标注。

同样的，也可以对标签进行筛选。将 标签1的样本进行筛选查看。

4 实体识别标注

实体标注可以与文本标注同时进行
可以自定义标注类型，已定义的标签在下次标注时可自动弹出方便选择

可以实体重叠标注。比如我们不仅需要对”疯狂的石头”进行标注，也要对”石头”也进行标注：

最后标注完，标注的实体有一个底色：

; 5 对结果进行导出

标注完成后，直接按右上角的 download就可以将文件进行导出。

导出结果中 text为原数据， intent中为文本标签， entities中为实体标签及标签在句子的索引，非常全面！

之后我们使用 Python将其改造成模型适用的数据集，就可以进行训练啦。

6 赶紧试试吧！

rasa-nlu-trainer界面简易但不失功能性，可以同时对数据进行文本与实体标签的标注，操作简单实用，是我用过标注工具中最好用的一款，强烈安利给大家！

原文链接：NLP标注神器-可同时对文本与实体进行标注

Original: https://blog.csdn.net/Antai_ZHU/article/details/121919384
Author: 有温度的算法
Title: NLP标注神器：可同时对文本与实体进行标注

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530418/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

半监督学习之伪标签(pseudo label,entropy minimization,self-training)

1.什么是伪标签伪标签方法是一种同时从未标记数据和标记数据中学习的监督范式。将具有最大预测概率的类作为伪标签。形式化后等价于熵正则化（Entropy Regularization…

人工智能 2023年6月17日
0090
pycharm中可以导入cv2，可以运行，但不能补全的问题解决方法

（解决这个问题的根源也是环境路径问题，网上不少方法都是解决路径问题的，这个方法对我是唯一有效的，但是不保证所有人都有效，这里提供一个解决的思路吧~）之前在pycharm用cv2一…

人工智能 2023年7月18日
0074
Bert文本分类实战（附代码讲解）

[ BERT_是目前自然语言处理领域最先进的模型之一，拥有强大的语言理解能力和处理文本任务的能力。其中 _BERT_多分类 _文本分类_的应用广泛，可以用于情感分析、垃圾邮件过滤、…

人工智能 2023年6月12日
0075
全连接神经网络 MLP

全连接神经网络–MLP 全连接神经网络，又叫多层感知机，是一种连接方式较为简单的人工神经网络，是前馈神经网络的一种。 MLP的神经网络架构网络架构为：通过输入层，隐藏层，输出层…

人工智能 2023年6月16日
0076
jupyter notebook上使用GPU运行程序

问题描述虽然jupyter上能后直接运行代码，但是默认是使用的cpu，我的电脑支持GPU，虽然也安装了tensorflow-gpu，但是运行的时候没有使用上。网上找了很多办法， …

人工智能 2023年6月17日
0070
【玩转Scikit-learn】机器学习工程师的浅入深出保姆级学习成长指南+变强规划+入门教程~

💖作者简介：大家好，我是车神哥，府学路18号的车神🥇⚡About—> 车神：从寝室到实验室最快3分钟，最慢3分半（那半分钟其实是等红绿灯）📝个人主页：车手只需…

人工智能 2023年7月29日
0050
氨基化PEG试剂——芴甲氧基羰基亚胺peg氨基，Fmoc-NH-PEG-amine

氨基化PEG试剂——芴甲氧基羰基亚胺-聚乙二醇-氨基，英文名为Fmoc-NH-PEG-NH2（Fmoc-NH-PEG-amine），该试剂所属分类为Amine PEG Boc/Fm…

人工智能 2023年6月29日
00106
Python知识点大纲

这里写自定义目录标题 Pandas * 基础 – Series/DataFrame创建删除行/列基础切片高阶切片 + Boolean切片使用query 随机抽样…

人工智能 2023年7月6日
00117
本周总结—-ResNet 模型

一、Resnet论文解读以resnet34为例介绍* 图一：res34层整体结构图二： resnet的尺寸通道数表 1、残差结构主通道上输入x进入一个卷积层后做BN，做re…

人工智能 2023年7月1日
0084
IDEA配置Maven

文章目录一、Maven下载&环境配置 * 1.下载Maven 2.解压 3.配置环境变量 4.测试二、更改Maven中的设置 * 1.编辑settings.xml 2….

人工智能 2023年7月31日
0059
「大模型」之所短，「知识图谱」之所长

近两年，人工智能领域的大模型可谓炙手可热。以自然语言处理领域为例，自BERT横空出世，在各种评测上分数一飞冲天，在斯坦福阅读理解评测集上超越人类水平之后，各种越来越大的自然语言处理…

人工智能 2023年6月10日
0086
大数据进阶之算法——KMeans聚类算法

首先说一下分类和聚类的区别：分类： [TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:…

人工智能 2023年6月3日
0073
数据架构设计

20220715一点点摆烂记录数据架构设计 * 数据架构设计概述数据总体架构 – 贴源层基础层通用层应用层数据流转关系 – 各层之间数据流转应…

人工智能 2023年6月19日
0095
LeGO-LOAM 复现（Ubuntu18.04、ROS Melodic、gtsam）

Autonomous vehicle 杂谈_12 一. 写在前面上回书成功复现了LOAM的进阶版本 – ALOAM，但其实还有一个更加进阶的版本 – Le…

人工智能 2023年6月2日
0076
目标检测结果数据分析

在验证集上会得到COCO的评价列表在目标检测上常用的两个公开数据集pascal voc和coco 针对这两个数据集都有一个评判标准目标检测与图像分类明显差距是很大的在图像分类…

人工智能 2023年7月9日
0065
TensorFlow GPU最完整的安装方法

自己这几天更换电脑，再加上前次旧电脑学习，安装了好几次TensorFlow，每次都遇到了一些问题，经常缺一些文件，在网上下载文件还很慢，走了不少弯路，特将完整的安装方法记录如下，以…

人工智能 2023年6月16日
0082

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31