[论文阅读笔记67]Chinese NER by Span-Level Self-Attention

1. 基本信息

题目论文作者与单位来源年份Chinese NER by Span-Level Self-AttentionXiaoyu Dong,Xin Xin,Ping Guo 北京理工大学201915th International Conference on Computational Intelligence and Security (CIS)

1 Citations, 20 References

论文链接:https://sci-hub.st/https://ieeexplore.ieee.org/abstract/document/9023665/

论文代码:没有发现代码

2. 要点

研究主题问题背景核心方法流程亮点数据集结论论文类型关键字NER把词作为语义单元,而分词的错误很有可能延伸到后面的任务,特别对于词典外的词。在语义表达层上使用自关注力机制。通过bert进行中文字符编码,然后输到LSTM中进行多span的语义编码,最后self-attention进行学习,输出预测结果。 对于基于char与span两个层进行了实验。OntoNotes 4.0OntoNotes 4.0取得79.97% F1-scoreself-attention,ner

3. 模型(核心内容)

3.1 模型

[论文阅读笔记67]Chinese NER by Span-Level Self-Attention

Span Feature Representation

字符层:

[论文阅读笔记67]Chinese NER by Span-Level Self-Attention

采用了bert的倒数第二隐含层的编码输出。

span层:

[论文阅读笔记67]Chinese NER by Span-Level Self-Attention

[论文阅读笔记67]Chinese NER by Span-Level Self-Attention

Span Semantic Value

这里加了一个全连接来转一下。

[论文阅读笔记67]Chinese NER by Span-Level Self-Attention

Span-level Self-attention

这里进入到自关注的模型了。

[论文阅读笔记67]Chinese NER by Span-Level Self-Attention

[论文阅读笔记67]Chinese NER by Span-Level Self-Attention

[论文阅读笔记67]Chinese NER by Span-Level Self-Attention

把span向量输入到多头自关注中进行计算,这个公式表示的是transformer block的一部分,原论文的那部分圈出来:

[论文阅读笔记67]Chinese NER by Span-Level Self-Attention

有一个问题:bert编码那里都已经有跑了很多层transformer了,虽然是在字符上,这里是否在span层上用真的起到作用?看了一下实验,好像是只有0.2的提升

这个有一个处理冲突的细节:

Covering conflict:取长实体;

Overlap conflict:取概率分类高的实体。

; 4. 实验与分析

4.1 数据集

OntoNotes 4.0

24,371 sentences,490,000 characters

4.2 训练参数

[论文阅读笔记67]Chinese NER by Span-Level Self-Attention

; 4.3 效果

[论文阅读笔记67]Chinese NER by Span-Level Self-Attention

第一个框:word-based methods

第二个框: character-based method

第三个框:论文自己的baseline:”Char-Attn”: 在字符之间进行了self-attention. “Span-LSTM”:经过两层384维的LSTM来处理,直接到输出层进行分类了。

作者对提升进行了总结:通过LSTM可以使用在词级上的信息。使用了Span-Attn可以使模型对spans之间的依赖信息。

还有两张与baseline的分析图:

[论文阅读笔记67]Chinese NER by Span-Level Self-Attention

[论文阅读笔记67]Chinese NER by Span-Level Self-Attention

5. 代码

6. 总结

6.1 优

中文基于span在self-attention的一次研究,这个思路值得学习。

6.4 不足

一般的span思路研究,没有看到代码的细节。实验整的来看少了一点。
如果换了语料,对于要枚举这么多实span实体,有点担心效率问题,O(k2n2)。

7. 知识整理(知识点,要读的文献,摘取原文)

8. 参考文献

made by happyprince

Original: https://blog.csdn.net/ld326/article/details/123824174
Author: happyprince
Title: [论文阅读笔记67]Chinese NER by Span-Level Self-Attention

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/530041/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球