基于深度学习的信息抽取技术

DeepIE: 基于深度学习的信息抽取技术(预计2020年8月31日前全部更新完毕)

TOP

Papers

Codes

biLSTM—-71.8191.8794.4156.75Lattice LSTM词表173.8893.1894.4658.79WC-LSTM词表174.4393.3694.9649.86LR-CNN词表174.4593.7195.1159.92CGN词表274.7993.4794.1263.09LGN词表174.8593.6395.4160.15Simple-Lexicon词表175.5493.50

61.24FLAT词表1

94.1295.4560.32FLAT词表275.70

94.93

BERT—-80.1494.9595.5368.20BERT+FLAT词表1

  • *MSRA-NER

方法fprchar+ lstm-crf86.18%88.43%83.10%char-bigram + lstm-crf91.80%92.60%90.34%char-bigram + adTransformer-crf92.98%93.25%92.72%char-bigram + lexion-augment + lstm-crf93.33%94.26%92.43%char-bigram-BERT + lstm-crf94.71%95.14%94.27%char-bigram-BERT + lexion-augment + lstm-crf

  • *CCKS2019-医疗实体抽取

方法fprchar-bigram + lstm-crf81.76%82.91%80.6+ domain transfer(from ccks2018 to 2019)82.54%83.43%81.81%char-bigram + adTransformer-crf82.83%82.19%83.49%char-bigram + lexion-augment + lstm-crf82.76%82.79%82.72%BERT-finetune+crf83.49%84.11%82.89%roBERTa-finetune+crf83.66%83.67%83.66%char-bigram-BERT + lstm-crf83.37%83.51%83.22%char-bigram-BERT + lexion-augment + lstm-crf

  • CCKS2020-医疗实体抽取

(注:测试集与ccks2019一致,去除ccks2020训练集中已经在2019测试集中的样本,下列指标未做规则处理和模型融合)

方法fprchar-bigram + lstm-crf82.68%83.14%82.22%char-bigram + lexion-augment + lstm-crf83.12%83.10%83.14%char-bigram-BERT + lstm-crf83.12%83.04%83.21%char-bigram-BERT-RoBerta_wwm + lstm-crf83.66%83.76%83.56%char-bigram-BERT-XLNet + lstm-crf84.12%83.88%84.36%char-bigram-BERT + lexion-augment + lstm-crf84.50%84.32%84.67%

  • CCKS2020-面向试验鉴定的命名实体识别任务:TODO

  • 2019语言与智能技术竞赛:关系抽取任务

方法f(dev)p(dev)r(dev)multi head selection76.3679.2473.69ETL-BIES77.07%77.13%77.06%ETL-Span78.94%80.11%77.8%ETL-Span + word2vec79.99%80.62%79.38%ETL-Span + word2vec + adversarial training80.38%79.95%80.82%ETL-Span + BERT

  • 2020语言与智能技术竞赛:关系抽取任务

方法f(dev)p(dev)r(dev)ETL-Span + BERT74.5874.4474.71

  • *领域数据集:瑞金医院糖尿病信息抽取数据
药物-属性
['药品-用药频率','药品-持续时间','药品-用药剂量','药品-用药方法','药品-不良反应']
疾病-属性
['疾病-检查方法','疾病-临床表现','疾病-非药治疗','疾病-药品名称','疾病-部位']

主体方法fpr疾病lstm+ multi-label pointer network76.5574.3678.86疾病bert + multi-label pointer network77.5977.4577.74药物lstm+ multi-label pointer network81.1279.1583.19

  • CCKS2020-医疗事件抽取
  • CCKS2020:面向金融领域的篇章级事件主体抽取
  • *CCKS2020:面向金融领域的篇章级事件要素抽取

TODO-list

  • 信息抽取领域的数据资源汇总:
  • 医疗
  • 金融
  • 电商
  • 法律
  • 信息抽取相关竞赛汇总:
  • 百度-2020语言与智能技术竞赛:关系抽取任务
  • 百度-2020语言与智能技术竞赛:事件抽取任务
  • 百度-2019语言与智能技术竞赛:信息抽取
  • CCKS 2019 医疗命名实体识别
  • CHIP 2019 临床术语标准化任务
  • CCKS 2019 人物关系抽取
  • CCKS 2019 公众公司公告信息抽取
  • CCKS 2019 面向金融领域的事件主体抽取
  • 摘要抽取
  • 前沿技术在信息抽取中的应用

Reference

Original: https://blog.csdn.net/stay_foolish12/article/details/109648261
Author: stay_foolish12
Title: 基于深度学习的信息抽取技术

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/557950/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球