[论文阅读笔记67]Chinese NER by Span-Level Self-Attention

2023年5月28日上午5:42 • 人工智能 • 阅读 72

1. 基本信息

题目论文作者与单位来源年份Chinese NER by Span-Level Self-AttentionXiaoyu Dong，Xin Xin，Ping Guo 北京理工大学201915th International Conference on Computational Intelligence and Security (CIS)

1 Citations, 20 References

论文链接：https://sci-hub.st/https://ieeexplore.ieee.org/abstract/document/9023665/

论文代码：没有发现代码

2. 要点

研究主题问题背景核心方法流程亮点数据集结论论文类型关键字NER把词作为语义单元，而分词的错误很有可能延伸到后面的任务，特别对于词典外的词。在语义表达层上使用自关注力机制。通过bert进行中文字符编码，然后输到LSTM中进行多span的语义编码，最后self-attention进行学习，输出预测结果。对于基于char与span两个层进行了实验。OntoNotes 4.0OntoNotes 4.0取得79.97% F1-scoreself-attention,ner

3. 模型(核心内容)

3.1 模型

[论文阅读笔记67]Chinese NER by Span-Level Self-Attention

Span Feature Representation：

字符层：

采用了bert的倒数第二隐含层的编码输出。

span层：

Span Semantic Value

这里加了一个全连接来转一下。

Span-level Self-attention

这里进入到自关注的模型了。

把span向量输入到多头自关注中进行计算，这个公式表示的是transformer block的一部分，原论文的那部分圈出来：

有一个问题：bert编码那里都已经有跑了很多层transformer了，虽然是在字符上，这里是否在span层上用真的起到作用？看了一下实验，好像是只有0.2的提升

这个有一个处理冲突的细节：

Covering conflict：取长实体；

Overlap conflict：取概率分类高的实体。

; 4. 实验与分析

4.1 数据集

OntoNotes 4.0

24,371 sentences，490,000 characters

4.2 训练参数

; 4.3 效果

第一个框：word-based methods

第二个框： character-based method

第三个框：论文自己的baseline:”Char-Attn”: 在字符之间进行了self-attention. “Span-LSTM”:经过两层384维的LSTM来处理，直接到输出层进行分类了。

作者对提升进行了总结：通过LSTM可以使用在词级上的信息。使用了Span-Attn可以使模型对spans之间的依赖信息。

还有两张与baseline的分析图：

5. 代码

无

6. 总结

6.1 优

&#x4E2D;&#x6587;&#x57FA;&#x4E8E;span&#x5728;self-attention&#x7684;&#x4E00;&#x6B21;&#x7814;&#x7A76;&#xFF0C;&#x8FD9;&#x4E2A;&#x601D;&#x8DEF;&#x503C;&#x5F97;&#x5B66;&#x4E60;&#x3002;

6.4 不足

&#x4E00;&#x822C;&#x7684;span&#x601D;&#x8DEF;&#x7814;&#x7A76;&#xFF0C;&#x6CA1;&#x6709;&#x770B;&#x5230;&#x4EE3;&#x7801;&#x7684;&#x7EC6;&#x8282;&#x3002;&#x5B9E;&#x9A8C;&#x6574;&#x7684;&#x6765;&#x770B;&#x5C11;&#x4E86;&#x4E00;&#x70B9;&#x3002;
&#x5982;&#x679C;&#x6362;&#x4E86;&#x8BED;&#x6599;&#xFF0C;&#x5BF9;&#x4E8E;&#x8981;&#x679A;&#x4E3E;&#x8FD9;&#x4E48;&#x591A;&#x5B9E;span&#x5B9E;&#x4F53;&#xFF0C;&#x6709;&#x70B9;&#x62C5;&#x5FC3;&#x6548;&#x7387;&#x95EE;&#x9898;&#xFF0C;O(k2n2)&#x3002;

7. 知识整理（知识点，要读的文献，摘取原文）

8. 参考文献

made by happyprince

Original: https://blog.csdn.net/ld326/article/details/123824174
Author: happyprince
Title: [论文阅读笔记67]Chinese NER by Span-Level Self-Attention

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530041/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

2022数学建模国赛C题思路分析

文章内容较多，大家仔细观看，所有内容仅供参考！大家不要直接照抄，切记，防止被查重！！一、问题的重述 1.1 研究背景玻璃的主要原料是石英砂，主要化学成分是二氧化硅（SiO2）。…

人工智能 2023年7月26日
0093
3C数字钥匙技术规范解读

CCC（Car Connectivity Consortium）车联网联盟是一个致力于制定智能手机到汽车连接解决方案标准的全球跨行业组织。2021年7月CCC将UWB定义为第三代数…

人工智能 2023年7月27日
0061
深度学习之bottleneck layer

一、 bottleneck layery中文名称：瓶颈层。我初次接触也就是在残差网络中。一般在较深的网络中，如resnet101中使用。一般的结构如下：其中两个1X1flite…

人工智能 2023年6月16日
0092
大数据项目之电商数仓、业务数据介绍、业务数据模拟、生成业务数据、业务数据建模

文章目录 6. 业务数据介绍 * 6.5 业务数据模拟 – 6.5.1 连接MySQL 6.5.2 建表语句 6.5.3 生成业务数据 + 6.5.3.1 在hadoo…

人工智能 2023年6月26日
0076
L0、L1、L2、group lasso、trace LASSO范数

范数机器学习模型中，常加入惩罚项（结构风险），防止过拟合。 L0范数 L0范数指向量中非零元素的个数，直观上来说使用L0范数即想让模型参数为零的元素尽可能的多，或者说是为了参数稀…

人工智能 2023年6月17日
0095
数据挖掘实战（3）——时间序列预测ARIMA模型（附踩坑日志）

文章目录 1 导包 2 数据准备 3 可视化 4 构建ARIMA模型 5 预测 6 踩坑日志 1 导包 import numpy as np import matplotlib.p…

人工智能 2023年6月19日
0067
根据已有样本标签数据制作不同比例的分类样本数据进行遥感图像分类并作精度评价

目录 1.样例数据 2.标签数据处理 2.1 矢量化处理（Rater to shapefile） 2.2 矢量化处理-合并相同属性类别 2.3 生成随机点样本 3.基于采集样本分类…

人工智能 2023年7月2日
0069
【KG】美团知识图谱问答技术实践与探索

美团知识图谱问答技术实践与探索 1 背景与挑战 2 解决方案 * 2.1 Query理解 2.2 关系识别 2.3 复杂问题理解 – 2.3.1 带约束问题 2.3.2…

人工智能 2023年6月10日
0070
十三、聚类算法

六、聚类算法实战一、聚类聚类是一种无监督的机器学习任务，可以自动将数据划分为类cluster，因此聚类分组不需要提前被告知所划分的组应该是什么样子的。因为我们甚至可能都不知道我…

人工智能 2023年5月31日
00104
一文搞定 Visual Studio 配置 OpenCV环境

在 Visual Studio 上配置 OpenCV 环境是极其恼人的事情，尤其是对于初学者，经常几个小时过去了都配不好，将我们对代码的热爱扼杀在摇篮之中。本文根据本人的无数次环境…

人工智能 2023年6月19日
0083
感知损失（perceptual loss）详解

本文来自收费专栏：感知损失（perceptual loss）详解_南淮北安的博客-CSDN博客_感知损失目录一.感知损失二、Loss_feature 三、Loss_style…

人工智能 2023年7月13日
0098
天马杯-NLP赛道（科技新闻分类与摘要）赛后总结

本赛题的数据分为五个领域的金融科技新闻，选取其中三个领域的正负样本作为训练集，另外两个领域一个作为A榜评测数据，一个作为B榜评测数据。其中数据中分类标签1只有454条（总共样本为4…

人工智能 2023年5月30日
0066
CS231n笔记九：图像目标检测和图像分割

一、语义分割 semantic segmentation 1、目标将图像的每个pixel分到一个类别中，只关注像素，不区分实例instance。如右边的两头牛虽然是两个实例，但我…

人工智能 2023年7月9日
0072
R语言编写自定义函数、评估回归模型预测变量的相对重要性（Relative importance）、通过在所有可能的子模型中添加一个预测变量而获得的R方的平均增加、评估预测变量的重要度、并通过点图可视化

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月18日
0075
购买工业相机前必须了解的参数

工业相机是机器视觉系统中的一个关键组件，其最本质的功能就是将光信号转变成小型高清工业相机为有序的电信号。要进行怎样的拍摄，要达到什么样的效果，就要选择合适的相机，购买工业相机前了解…

人工智能 2023年6月4日
0065
【Day4】语音识别（音频转文字）

语音识别的三种解决方案： [En] Three solutions for speech recognition:原本用途：本来是要求从视频中识别语音，然后把文字内容提取出来，结果…

人工智能 2023年5月23日
0070

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31