1. 基本信息
题目论文作者与单位来源年份Chinese NER by Span-Level Self-AttentionXiaoyu Dong,Xin Xin,Ping Guo 北京理工大学201915th International Conference on Computational Intelligence and Security (CIS)
1 Citations, 20 References
论文链接:https://sci-hub.st/https://ieeexplore.ieee.org/abstract/document/9023665/
论文代码:没有发现代码
2. 要点
研究主题问题背景核心方法流程亮点数据集结论论文类型关键字NER把词作为语义单元,而分词的错误很有可能延伸到后面的任务,特别对于词典外的词。在语义表达层上使用自关注力机制。通过bert进行中文字符编码,然后输到LSTM中进行多span的语义编码,最后self-attention进行学习,输出预测结果。 对于基于char与span两个层进行了实验。OntoNotes 4.0OntoNotes 4.0取得79.97% F1-scoreself-attention,ner
3. 模型(核心内容)
3.1 模型
Span Feature Representation:
字符层:
采用了bert的倒数第二隐含层的编码输出。
span层:
Span Semantic Value
这里加了一个全连接来转一下。
Span-level Self-attention
这里进入到自关注的模型了。
把span向量输入到多头自关注中进行计算,这个公式表示的是transformer block的一部分,原论文的那部分圈出来:
有一个问题:bert编码那里都已经有跑了很多层transformer了,虽然是在字符上,这里是否在span层上用真的起到作用?看了一下实验,好像是只有0.2的提升
这个有一个处理冲突的细节:
Covering conflict:取长实体;
Overlap conflict:取概率分类高的实体。
; 4. 实验与分析
4.1 数据集
OntoNotes 4.0
24,371 sentences,490,000 characters
4.2 训练参数
; 4.3 效果
第一个框:word-based methods
第二个框: character-based method
第三个框:论文自己的baseline:”Char-Attn”: 在字符之间进行了self-attention. “Span-LSTM”:经过两层384维的LSTM来处理,直接到输出层进行分类了。
作者对提升进行了总结:通过LSTM可以使用在词级上的信息。使用了Span-Attn可以使模型对spans之间的依赖信息。
还有两张与baseline的分析图:
5. 代码
无
6. 总结
6.1 优
中文基于span在self-attention的一次研究,这个思路值得学习。
6.4 不足
一般的span思路研究,没有看到代码的细节。实验整的来看少了一点。
如果换了语料,对于要枚举这么多实span实体,有点担心效率问题,O(k2n2)。
7. 知识整理(知识点,要读的文献,摘取原文)
8. 参考文献
made by happyprince
Original: https://blog.csdn.net/ld326/article/details/123824174
Author: happyprince
Title: [论文阅读笔记67]Chinese NER by Span-Level Self-Attention
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/530041/
转载文章受原作者版权保护。转载请注明原作者出处!