[NLP] 免费中文文本多任务自动辅助标注工具

NLP领域的福利,错过这篇文章,你可能要在黑暗中摸索3,4年!

[NLP] 免费中文文本多任务自动辅助标注工具

我们在NLP领域主要探索统一、自洽的多任务标注规范,从语义框架出发,将词性、实体识别、问答标注与自动扩充、事件抽取、三元组关系及知识图抽取、因果抽取等方向做深入探索。

针对通用语料的探索性标注,我们标注了《病理生理学》、《自然地理》等几本书,在标注过程中,我们发现尚无可以高效辅助标注的工具来降低标注门槛,提升标注效率。我们开始自己开发工具来满足日益复杂的标注规范。

在标注过程中,我们要解决的一系列问题是:如何保证我们能够及时发现现有标注模型(BERT下游为LSTM+CRF)和标注规范的缺陷?;如何保证标注小团队的标注行为的一致性?;针对疑似问题序列,如何能够智能纠错并存入历史数据备查?;如何在不同的标注任务中调整标注的颗粒度?;如何快速高效的标注?;如何自动质检(这是个悖论和伪命题,单并不表示没有其他手段来实现)?;EDA(语料数据增强)如何可观察,可评估?

一步步,我们在解决问题和生成新问题的路上龟速摸索。目前我们在探索将序列标注推广到语义空间和自然交互中。

在标注规范的探索上,我们认为:自洽的,尽量完备的和颗粒度适中的标注规范是数据标注和模型表现的核心;统一的能够解决所有NLP任务的标注规范并不在规范之内(这个悖论和自动质检是相似的);大部分的NLP任务都可以转化为序列标注问题。

我们将这套标注工具(包涵我们的标注历史数据和训练模型),经过我们的多次迭代逐渐趋于稳定,现在免费开放出来,为大家提供自动标注服务。工具部署在阿里云,资源有限,所以有时候会不稳定。

语义理解框和自然交互方式产品上线后我们会重新升级这套工具。目前这套工具比较好用的几点:

1,自动标注;
2,自动查错(模型标注有误部分会被染色,提醒关注);
3,短语智能填充(根据标注历史数据);
4,部分自动质检(基于历史标注和规则)
5,问答的EDA语料数据增强;

传送门: 赛莉中文语料自动辅助标注工具

Original: https://blog.csdn.net/weixin_44038242/article/details/121378137
Author: 本识
Title: [NLP] 免费中文文本多任务自动辅助标注工具

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/548542/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球