NER项目 P2 解析文字和实体标签对应关系

2023年6月1日下午4:41 • 人工智能 • 阅读 94

主办方提供的数据是一些用brat标注的文件，.txt文件为原始文档，.ann文件为标注信息，标注实体以T开头，后接实体序号，实体类别，起始位置，结束位置和实体对应的文档中的词。

因为标注文件的格式不是模型直接能用的，所以我们需要预处理一下，将单个字和标签做一一对应，生成一个新的带标注的文件。

原始数据

中国成人2型糖尿病HBA1C  c控制目标的专家共识

标注文件格式

T368 Disease 4 9 2型糖尿病
T369 Test 9 14 HBA1C

导出格式

中,O
国,O
成,O
人,O
2,B-Disease
型,I-Disease
糖,I-Disease
尿,I-Disease
病,I-Disease
...

1、配置项

config.py
ORIGIN_DIR = './input/origin/'
ANNOTATION_DIR = './output/annotation/'

2、新建预处理文件

data_process.py
from glob import glob
import os
import random
import pandas as pd
from config import *

3、解析标签

根据标注文件生成对应关系
def get_annotation(ann_path):
    with open(ann_path) as file:
        anns = {}
        for line in file.readlines():
            arr = line.split('\t')[1].split()
            name = arr[0]
            start = int(arr[1])
            end = int(arr[-1])
            # 标注太长，可能有问题
            if end - start > 50:
                continue
            anns[start] = 'B-' + name
            for i in range(start + 1, end):
                anns[i] = 'I-' + name
        return anns

4、一一对应

def get_text(txt_path):
    with open(txt_path) as file:
        return file.read()

建立文字和标签对应关系
def generate_annotation():
    for txt_path in glob(ORIGIN_DIR + '*.txt'):
        ann_path = txt_path[:-3] + 'ann'
        anns = get_annotation(ann_path)
        text = get_text(txt_path)
        # 建立文字和标注对应
        df = pd.DataFrame({'word': list(text), 'label': ['O'] * len(text)})
        df.loc[anns.keys(), 'label'] = list(anns.values())
        # 导出文件
        file_name = os.path.split(txt_path)[1]
        df.to_csv(ANNOTATION_DIR + file_name, header=None, index=None)

if __name__ == '__main__':
    # 建立文字和标签对应关系
    generate_annotation()

Original: https://blog.csdn.net/sddqe/article/details/126273800
Author: 陈华编程
Title: NER项目 P2 解析文字和实体标签对应关系

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/557735/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【阅读笔记】Entity Alignment between Knowledge Graphs Using Attribute Embeddings（基于属性嵌入的知识图间实体对齐）

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月10日
00227
基于histomicstk库的染色标准化

文章目录前言一、安装histomicstk 二、使用步骤 * 1.引入库 2.读入数据 3.函数调用标准化结果总结前言最近新发现的一种染色标准化方法，基于histomi…

人工智能 2023年7月19日
0038
统计学第八版贾俊平课后答案

4.2随机抽取25个网络用户，得到他们的年龄数据如表所示。网络用户的年龄数据（单位：周岁）要求：（1）计算众数、中位数。（2）计算四分位数。（3）计算平均数和标准差。（4）计…

人工智能 2023年6月15日
00457
MySQL数据库 | SQL语句详解

DDL解释： 1.数据库的常用操作 2.表结构的常用操作 3.修改表结构查看所有的数据库show databases; 创建表格式 use mydb3; create table…

人工智能 2023年7月29日
0061
单步预测与多步预测

所谓单步预测，就是每—次预测的时候输入窗口只预测未来一个值。单步预测的两个策略：输入窗口全部使用真实值作为输入窗口，这种情况是只预测未来一个值的时候这个情况的。 …

人工智能 2023年6月15日
0089
【OpenCV 例程200篇】30. 图像的缩放（cv2.resize）

『youcans 的 OpenCV 例程200篇 – 总目录』【youcans 的 OpenCV 例程200篇】30. 图像的缩放（cv2.resize）缩放只是调…

人工智能 2023年7月18日
0057
Swin Transformer代码讲解

Swin Transformer代码讲解下采样是4倍，所以patch_size=4 2. 3. emded_dim=96就是下面图片中的C，经过第一个Linear Embeddi…

人工智能 2023年6月24日
0083
Vue考试题单选、多选、判断页面渲染和提交

前言: 这几天在写简易版的学生考试,当我们获取到后端返给我们的试题如何再提交给后端呢?这里我的题目只有单选、多选、判断题目首先我们看一下获取试题的数据结构,(这里的字段命名就不要吐…

人工智能 2023年6月27日
0076
【论文笔记】Fully convolutional siamese networks for change detection

论文论文题目：FULLY CONVOLUTIONAL SIAMESE NETWORKS FOR CHANGE DETECTION 发表于：ICIP 2018 论文地址：https…

人工智能 2023年7月14日
0076
YOLOX官方源码文件结构和注释

Yolox的论文及代码 Yolox论文名：《YOLOX: Exceeding YOLO Series in 2021》Yolox论文地址：https://arxiv.org/abs…

人工智能 2023年6月16日
0074
2022搜狐校园情感分析 × 推荐排序算法大赛 baseline

比赛链接：https://www.biendata.xyz/competition/sohu_2022/ 完整代码可关注ChallengeHub 回复”搜狐&#822…

人工智能 2023年5月28日
00118
2023最新SSM计算机毕业设计选题大全（附源码+LW）之java拼车平台0k47u

马上就要做毕业设计啦，计算机专业的小伙伴们终于开始紧张啦~ 这个问题主要看自己有没有时间，有的话建议还是自己做不要去买。无非就是多花点时间。但是Java相关的毕业设计，真的太难啦…

人工智能 2023年6月27日
0078
Panda 知识点总结带代码（上）

文章目录一. Pandas Series结构 * 1）创建Series对象 – 1 .创建空Series对象 2.ndarray创建Series对象 3.dict创建…

人工智能 2023年7月8日
0090
一种基于模板匹配的图像配准方法

01 前言如下图所示，有时候参考图像与浮动图像的灰度区别很大，但是它们又有某一个小区域比较相似，这种情况下直接通过特征点匹配或形变优化来配准的效果并不理想。这个时候我们可以尝试…

人工智能 2023年7月19日
0063
聊天尬死名场面，你遇到过吗？教你一键获取斗图表情包，晋升聊天达人

大家好呀，我是辣条。写这篇文章的灵感来源于之前和朋友的聊天，真的无力吐槽了，想发适合的表情包怼回去却发现收藏的表情包就那几个，就想着是不是可以爬取一些表情包，再也不用尬聊了。先…

人工智能 2023年7月3日
0077
Openai神作Dalle2理论和代码复现

Openai神作Dalle2 注：大家觉得博客好的话，别忘了点赞收藏呀，本人每周都会更新关于人工智能和大数据相关的内容，内容多为原创，Python Java Scala SQL 代…

人工智能 2023年7月25日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

NER项目 P2 解析文字和实体标签对应关系

大家都在看