label studio导出CoNLL格式后处理数据

一、label studio使用

最近在做命名实体识别的东西,需要进行数据标注,一开始用的doccano。doccano的启动需要开启两个终端,一个是打开webserver的端口,另一个是任务队列,稍微比较麻烦;另外用doccano标注时的体验不是很顺手,所以就转而使用label studio了。

二、CoNLL格式数据的处理

标注完update然后export为CoNLL格式的文件,打开后发现标签带有’ -X-_‘:

于是用了replace函数的替换效果来删除字符串,注意路径里的斜杠,之前遇到过报错。一开始想直接替换’ -X-_‘四个字符没成功,就分两步删除了。

path = "D:/.../pro.CONLL"lineList =[]file = open(path, "r", encoding='utf-8') # 以只读模式读取文件while 1:    line = file.readline()    if not line:        print("End or Error.")        break    reline = line.replace('-X-','')    # reline = reline.replace('-X-_','')    reline = reline.replace('_','')    lineList.append(reline)file.close()file = open(r'D:/.../testDel.txt','w', encoding='utf-8')for i in lineList:    file.write(i)file.close()

Original: https://www.cnblogs.com/beansteinsgate/p/16290697.html
Author: BeanFadeAway
Title: label studio导出CoNLL格式后处理数据

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/567556/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球