【项目调研+论文阅读】基于医学文献的实体抽取(NER)方法研究 day5

2023年5月31日上午3:57 • 人工智能 • 阅读 78

一、《基于文献的药物表型实体识别及关系抽取方法研究》北京交通大学-张琛

表型实体：疾病、体症、基因、化学物质和药物名称。
信息提取的传统方法分为三步：命名实体识别、关系抽取、事件抽取。
———————————————————————————————

文章目录

*
–
+
* 一、《基于文献的药物表型实体识别及关系抽取方法研究》北京交通大学-张琛
*
– 方法一
– 方法二（备选）
– 相关工作中提到的方法（按时间顺序）
– 方法一使用的实体任务数据集信息

方法一

将关系抽取视为独立任务。关系抽取与实体识别任务分开。使用神经网络方法，采用 BiLSTM 结合 CRF，分别对中文电子病历数据集和英文医学文献摘要数据集进行训练。
之后的关系抽取任务，采用的是基于 Attetntion 机制的双向 LSTM 模型。

（0）数据预处理：采用两套标签对文本进行标注。BIO 标签和词性标签。这两个是中英文数据的共同特征。

（1）预训练词向量生成：对中文和英文分别构建词向量。
使用两种方法获得词向量。计算方法：采用 negative sample 优化的 skip-gram 模型和GloVe 模型，进行词向量的构建。
小样本时基线方法 skip-gram 效果更好一些，大样本时 GloVe更好一些。
预训练模型 Bert 和 XLnet 性能更优越。
中文而言，字向量比词向量的效果更好。
（2）组织模型输入数据：中文在字向量的基础上，加入分词特征和笔划数特征，英文采用了单词的字母组成特征。

【分词】：三种常用的 Python 中文分词工具，分别是张华平老师的 NLPIR、jieba、哈工大的 LTP。根据分词结果，仿照 BIO 标注策略为分词后的文本将结果添加标签，转化为可计算的文本特征。
【笔划数】：建立汉字笔划数字典。接着，根据字典，获取数据集中每一个字的笔划数，保存在列表中。另外，将所有的标点符号和数字的笔划数均设为 0。
【字母特征】：将 26 个英文字母进行顺序编码，获取字母与 id 的映射。然后根据英文单词中字母组成，将单词映射为一组字母 id 值的向量。例如，”word”，对应的字母 id 向量为”22，14，17，3″ 。
【中英文数据集的共同的特征】（BIO 标签和词性标签）：为BIO标签建立一个字典，字典序就代表了标签顺序，按此顺序可以将标签和数字相互转换。例如，B-DRUG，I-DRUG，B-DISEASE，I-DISEASE，按序编码为 0，1，2，3。
词性标签，例如名词标签”n”，形容词标签”adj”，动词标签”v”，也作此处理，建立标签和 id 值的映射基于字识别，使用BIO标签策略。将实体名词特征和分词特征结合，共同训练。

由于句子各有长短，在维度不同的情况下无法进行计算，因此需要对齐。按照最长句子的长度进行填补，空缺部分一律补零。

（3）送入神经网络训练：BiLSTM 过程为编码的过程，CRF 过程为
解码过程。
实验部分，对不同的数据集，使用不同的输入特征。

; 方法二（备选）

应用实体识别和关系抽取任务的联合神经网络模型。该模型采用了两种方法，一是多头选择，二是对抗训练。这两种方法是针对关系抽取任务的，实体识别的方法仍然是主流的双向 LSTM 网络层结合 CRF 方法的模型。
不需额外的 POS 标记器(NLP 工具)或是其他人工提取特征，模型自动执行端到端关系提取。同时对医学文本中的关系和实体进行识别。并添加了 head 信息。

联合抽取模型是基于手动提取的功能，建议用于执行一次命名实体识别（NER）和关系抽取(RE)任务（备选）

方法一使用的实体任务数据集信息

CCKS2017 实体任务数据集，是电子病历的部分内容。包括了病人的诊疗经过、病史特点、一般项目和出院情况四部分，每部分均有 300条记录，长度由 30 到 100 不等。
其中，诊疗经过的一条记录如下：
“入院后完善各项检查，给予右下肢持续皮牵引，应用健骨药物治疗，患者略发
热，查血常规：白细胞数 12.18*109/L，中性粒细胞百分比 92.00%。给予应用抗生素预防感染。”
其中，中文电子病历数据集分为原始记录数据集和标注数据集，原始记录分为
“一般项目”、”出院情况”、”病史特征”、”诊疗经过”四个类别，每一个类别包含
300 条原始记录和 300 条对应的标注结果。其中，标注结果文件的内容形式如表所示：

Original: https://blog.csdn.net/qq_41821608/article/details/122599085
Author: 潮一
Title: 【项目调研+论文阅读】基于医学文献的实体抽取(NER)方法研究 day5

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/548487/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

苹果设计思维案例研究，困难期生存的关键

苹果设计思维案例分析：苹果是一家以其独特的产品和品牌而闻名的领先公司，它是如何实现产品的创新？让我们深入了解苹果公司的历史，以及它是如何在最关键的时间里生存下来的。文章目录 1…

人工智能 2023年6月4日
0092
【CNN回归预测】基于matlab鲸鱼算法优化CNN回归预测【含Matlab源码 1453期】

⛄一、鲸鱼算法及CNN简介 1 鲸鱼优化算法（Whale Optimization Algorithm，WOA）简介鲸鱼优化算法(WOA)，该算法模拟了座头鲸的社会行为，并引入了气…

人工智能 2023年6月17日
0082
OpenCV训练自己的物体检测分类器步骤

环境：python3.7 OpenCV3.4.3.18 工具：opencv_annotation.exeopencv_createsamples.exeopencv_trainca…

人工智能 2023年7月9日
0070
基于STM32和SU-03T语音模块的智能自拍系统

系统使用的是最常见的STM32F103C8T6/C6T6核心板： STM32原理图： STM32端部分代码，开机时停止PWM输出：再配上SU-03语音模块即可实现离线语音控制，S…

人工智能 2023年5月25日
0060
命名实体识别BiLSTM-CRF代码实现

命名实体识别BiLSTM-CRF代码实现 – 潘登同学的NLP笔记文章目录 * – 命名实体识别BiLSTM-CRF代码实现 — 潘登同学的NLP笔记* …

人工智能 2023年6月16日
0081
注意力机制详解

1.特性即插即用在特征提取效果显著微调模型的小技巧 2.核心思想本质上与人类视觉选择性注意力机制类似，从众多信息中选出对当前任务目标更为关键的信息。通过手段获取每张特征图…

人工智能 2023年7月5日
0066
使用 OpenCV 收集数据

OpenCV 是”开源计算机视觉”的缩写，是一个机器学习库，旨在实现图像处理和计算机视觉应用。与对象检测和识别相反，OpenCV 还有一个应用是它收集数据的…

人工智能 2023年5月26日
0076
YOLO7 姿势识别实例

文章目录 1. 预训练模型 2. 测试代码 3. 运行代码 4. 问题上文搭建了YOLO7开发环境，并进行了物体定位测试。参见：YOLO7环境搭建、代码测试。本文将介绍如何使用Y…

人工智能 2023年6月15日
0084
将若干词向量转变为一个词向量的方法

文章目录 * – 题目 – 前言 – 问题来源 – 思路 – + 利用RNN的最终状态 + * 代码实现 * 运行结果 …

人工智能 2023年5月31日
0060
pytorch.tensorboard的零基础使用

1.Tensorboard的介绍： Tensorboard是tensorflow内置的一个可视化工具，它通过将tensorflow程序输出的日志文件的信息可视化使得tensorfl…

人工智能 2023年5月25日
0081
路径规划：RRT算法在ROS中的实现

RRT算法在ROS中的实现（记录自己学习的过程） 1.环境ubuntu18.04ROS版本：melodic小车：Turtlebot3 2.实现算法RRT 3.最终效果 4.代码链接…

人工智能 2023年6月2日
00105
【Python】matplotlib.pyplot显示图片

1.figure语法及操作(1)figure语法说明 figure(num=None, figsize=None, dpi=None, facecolor=None, edgeco…

人工智能 2023年5月26日
0072
【开源STM32自平衡小车】教你如何自己DIY一辆双轮自平衡小车

【请认准：OpenSir开源达人】开源STM32自平衡小车平衡小车开源资料网盘链接: 平衡小车百度网盘资料链接，点击进入【哔站视频一键三连后，评论区留言邮箱获取提取码(3天内发…

人工智能 2023年6月2日
0093
计算机视觉教程0-3：为何拍照会有死亡视角？详解相机矩阵与畸变

目录 0 拍照的死亡角度 1 透视相机模型 2 相机矩阵 3 镜头畸变 0 拍照的死亡角度拍照死亡角度一般指的是将自己脸盆子拍得特别大，拍出用鼻孔看人的狰狞面目，比如下面这张照片…

人工智能 2023年6月24日
0091
简单易懂的机器学习算法介绍

决策树 – – -决策树的基本原理决策树（Decision Tree）是⼀种分⽽治之的决策过程。⼀个困难的预测问题，通过树的分⽀节点，被划分成两个或多个较…

人工智能 2023年6月17日
0064
Python之Pandas

Python之pandas 文章目录 * – Python之pandas – + 环境：jupyter Notebook(Anaconda) + * 1.引…

人工智能 2023年7月15日
0041

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【项目调研+论文阅读】基于医学文献的实体抽取(NER)方法研究 day5

一、《基于文献的药物表型实体识别及关系抽取方法研究》北京交通大学-张琛

文章目录

方法一

; 方法二（备选）

相关工作中提到的方法（按时间顺序）

方法一使用的实体任务数据集信息

大家都在看