一、label studio使用
最近在做命名实体识别的东西,需要进行数据标注,一开始用的doccano。doccano的启动需要开启两个终端,一个是打开webserver的端口,另一个是任务队列,稍微比较麻烦;另外用doccano标注时的体验不是很顺手,所以就转而使用label studio了。
二、CoNLL格式数据的处理
标注完update然后export为CoNLL格式的文件,打开后发现标签带有’ -X-_‘:
于是用了replace函数的替换效果来删除字符串,注意路径里的斜杠,之前遇到过报错。一开始想直接替换’ -X-_‘四个字符没成功,就分两步删除了。
path = "D:/.../pro.CONLL"lineList =[]file = open(path, "r", encoding='utf-8') # 以只读模式读取文件while 1: line = file.readline() if not line: print("End or Error.") break reline = line.replace('-X-','') # reline = reline.replace('-X-_','') reline = reline.replace('_','') lineList.append(reline)file.close()file = open(r'D:/.../testDel.txt','w', encoding='utf-8')for i in lineList: file.write(i)file.close()
Original: https://www.cnblogs.com/beansteinsgate/p/16290697.html
Author: BeanFadeAway
Title: label studio导出CoNLL格式后处理数据
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/567556/
转载文章受原作者版权保护。转载请注明原作者出处!