中文NER1 之 simplify the usage of Lexicon in Chinese NER

2023年5月30日下午8:43 • 人工智能 • 阅读 59

中文NER1 之 simplify the usage of Lexicon in Chinese NER

ACL-simplify the usage of Lexicon in Chinese NER
*
中文NER难的问题
通用的NER结构
中文NER的Lattice-LSTM
本论文的方法

ACL-simplify the usage of Lexicon in Chinese NER

近期有个项目跟提取地址实体有关，所以系统性的把ner相关研究重新review了一遍，顺便记录下笔，方便以后查询。
这篇论文下载https://arxiv.org/abs/1908.05969

这篇论文的启发是，利用 Lexicon词汇信息去提升NER准确率， Lattice-LSTM(2018)是一个很好的例子。该模型在中文NER benchmark表现好，但是计算效率比较低。这篇论文，就是受此启发，需要去加速。实现的方法，综述为：合并词汇信息到向量表示中，从而避免引入复杂的序列结构来表征词汇信息。工作聚焦在改变字符表征层，在四个banchmark中文NER上，试验结果都表现很好。

中文NER难的问题

NER是识别person location product orgnization实体词，在英文中这些特殊实体词都是自然的分割，比如大写或者空格。NER的任务是对文本中每个字符进行标注，所以它是一个序列标注问题。

在中文书写的规范中，是没有英文那种先天特殊词分割书写的优势，导致中文NER任务的难度增加。处理这个问题，一种通用的实践方法是先分词，再把词信息引入到序列标注任务。但是分词引入的错误，会影响下游序列标注任务的正确率。
比如：
南京市/长江大桥。
分词成：南京/市长/江大桥

这种分词会导致NER，很难把 南京市识别为location实体与 长江大桥识别为location实体。相反，很可能把南京识别成location， 江大桥识别为person。

由于分词准确性不太理想问题，导致很多中文ner在实际使用场景都偏向于使用字而非词。但是词信息非常重要，2015和2018都有尝试去引入词信息到模型。为方式分词错的问题，最早的做法是把所有的分词情况都加入到模型，让模型去判断选那种分词。这种模型是2015年的基于LSTM-CRF的模型。结果证明Lattice-LSTM表现很好。缺点有：1.慢，2.这种结构很难转移到其他模型比如CNN或者Transformer上去。

这篇文章提出了

一种加速方法
一种编码lexicon词汇的方法

通用的NER结构

第一层，输入层（如 char+bichar 2018）
第二层，序列模型层，去获取字符之前的关系（如 CNN / LSTM / Trnasformer）
第三层，推理层 (如 CRF 2001)

中文NER的Lattice-LSTM

目标：合并字符与词汇作为输入
首先，利用lexicon matching在输入文本上，换句话说就是分词才用匹配的方式。获得了词后，会增加一个从字符ci 到字符cj的有向边（i < j）。ci为输入字符串中的字符，允许一个字符连接了多个字符（包含同一个字符的词有多个时）。采用这种方式过后，模型的输入由句子序列就变成了图。去实现这种结构，需要修改LSTM的内部结构，对应为：修改输入、 h state、c memorryCell。在更新阶段，输入包含： 当前的字、 上一层的h state、 上一层的c 和 对应的词。h和c都是数组。

这种设计中的不足：

在memory更新阶段需要额外的去增加s、 h、 c
设计的函数很难并行计算

本论文的方法

重新定义论文的要解决的问题（目标）：

模型能够保留所有字可能的词
模型能够使用预训练词embedding

用 Softword technique来构建分词，并且给每个字符有多个标签。
比如
句子s={c1,c2,c3,c4,c5}, 其中{c1,c2,c3,c4}和{c3,c4}是词。
句子转换成 segs(s) = {{B},{M},{B,M},{E},{O}} BMESO标签。

这里segs(s)1={B}表示至少一个有一个以c1开头的词
segs(s)3={B,M}表示至少有一个以字符c3开头的词或者以字符c3出现在词中间的词

ExSoftword，每个字符有一个5维度的类别表示{B,M,E,S,O}。
通过分析，ExSoftword有两个缺点。

它不能支持预训练的word embeddings。
尽管它能够包催所有可能的词，但是仍然丢失了一些信息。

句子 s = {c1,c2,c3,c4} 中 {c1,c2,c3} 与 {c2,c3,c4}是词
sges(s)={ {B}, {B,M}, {M,E}, {E} }
这种形式不能，反推或者还原，或者恢复 S就包含 {c1,c2,c3} 与 {c2,c3,c4}词。因为它同样也可以解释成，包含词{c1,c2,c3,c4} 与词{c2,c3}。这种方式，存在无法恢复原始的分词的问题。

改进版本
论文中提出，要保留每个字符可能的词的类别和字的分词。
改进的方法：每个字符分配四种类别 BMES。如果一个词是空的，则以NONE字符表示。
例子如下：
s={c1,c2,c3,c4,c5}中词为{c1,c2}，{c1,c2,c3}，{c2,c3,c4}，{c2,c3,c4,c5}
对与c2, 表示成
B(c2)={{c2,c3,c4},{c2,c3,c4,c5}},
M(c2)={{c1,c2,c3}},
E(c2)={{c1,c2}},
S(c2)={NONE}

从网上找到，一个具体具体示例

中文NER1 之 simplify the usage of Lexicon in Chinese NER

这种方式后，就满足论文的两点目标：能使用pre-trained word embedding 和能覆盖字符的所有词。
具体input输入生成过程：
把每个字符的四种词集合，压缩进一个固定维度的向量。为了尽可能保留原始信息，这里采用concate拼接四套词的表征，然后把它加到字符表征中去。
其中，单字符的四个词集合中的每个集合，也需要映射到一个固定维度向量。使用的方法：mean-pooling与加权求和。前者效果差，后者效果好。
加权的权值是根据词的频率计算，其中一点要求：当两个词中字符有重叠时，频率不增加，比如南京与 南京市 。当计算 南京市长江大桥 的词频率时，南京的词频就不增加，因为南京与 南京市 重叠。这样做的好处是，可以避免 _南京_比 _南京市_频率高。

Original: https://blog.csdn.net/weixin_49379140/article/details/119295504
Author: weixin_49379140
Title: 中文NER1 之 simplify the usage of Lexicon in Chinese NER

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/544988/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

If using all scalar values, you must pass an index

Data[5].choice是对从excel表读出的dataframe某一列的切片，目标是用它们组成新的dataframe并按某一列排序，构建新dataframe的过程中遇到如下报…

人工智能 2023年7月8日
0066
MMDetection框架入门教程（完全版）

网上MMDetection的教程看似有很多，但感觉都不成系统，看完一圈下来还是不知道MMDetection要怎么用。这里还是推荐直接跟着官方教程，结合源码学习MMDetection…

人工智能 2023年6月16日
0092
丢弃法(Dropout)——原理及代码实现

一、原理 1.1、动机一个好的模型需要对输入数据的扰动具有鲁棒性什么是一个”好”的预测模型？我们期待”好”的预测模型能在未知的…

人工智能 2023年7月28日
0059
【稳住，can win】Pandas 操作数据

* – Pandas 对象的创建 – + Series 一维数据 + DataFrame 二维数据 – DataFrame 对象索引 &#821…

人工智能 2023年7月6日
0058
用Python实现简单的人脸识别，10分钟搞定！（附源码）

前言让我的电脑认识我，我的电脑只有认识我，才配称之为我的电脑！今天，我们用Python实现简单的人脸识别技术！ Python里，简单的人脸识别有很多种方法可以实现，依赖于pyt…

人工智能 2023年7月31日
0044
极智AI | centos7源码编译tensorflow

欢迎关注我的公众号 [极智视界]，获取我的更多笔记分享大家好，我是极智视界，本文介绍一下 centos7 源码编译 tensorflow 的方法。之前这篇《极智开发 | cen…

人工智能 2023年7月29日
0068
pytorch稀疏矩阵处理（torch.sparse）

pytorch稀疏矩阵（torch.sparse） Pytorch稀疏矩阵处理 * 稀疏矩阵存储方式 – 1. COO 2. CSR/CSC 3. LIL 稀疏矩阵的处…

人工智能 2023年7月21日
0049
【ResNet】Pytorch从零构建ResNet50

Pytorch从零构建ResNet 第一章从零构建ResNet18第二章从零构建ResNet50 文章目录 Pytorch从零构建ResNet 前言一、Res50和Res18…

人工智能 2023年7月22日
0066
ENVI监督分类

一、实验名称：监督分类二、实验目的：（1）了解监督分类的原理与意义；（2）了解不同监督分类方法的原理；（3）掌握使用ENVI软件对影像进行监督分类的操作方法。三、实验内…

人工智能 2023年6月18日
0093
基于RESNET网络实现tensorrt转换教程(onnx转engine和wts转engine)

近日很想验证使用pytorch训练模型转tensorrt各种关系，更深理解基于C++ API接口engine加速理论(Python API接口稍微简单，将不在验证)，本文基于Res…

人工智能 2023年6月4日
0072
C++/OpenCV connectedComponentsWithStats函数异常解决方案（查找连通分量问题）

文章目录一、Mat.type()函数二、简单了解connectedComponentsWithStats函数三、问题代码 * 第四行代码异常报错如下：命令行窗口报错如下： …

人工智能 2023年7月20日
0070
数据挖掘实战（4）——聚类（Kmeans、MiniBatchKmeans、DBSCAN、AgglomerativeClustering、MeanShift）

文章目录 1 导包 2 构建数据 3 模型对比 * Kmeans MiniBatchKmeans DBSCAN AgglomerativeClustering MeanShift …

人工智能 2023年6月3日
0092
最新python大数据毕业设计选题推荐（三）

文章目录 0 前言 1 大数据相关题目 2 开题指导 * 2.1 起因 2.2 如何避坑(重中之重) 2.3 为什么这么说呢？ 2.4 难度把控 2.5 题目名称 3 最后 0 前…

人工智能 2023年7月4日
0034
pytorch的下载解决方案（下载出错、下载过慢问题）

前言第一次下载pytorch往往会出现一些问题，比如不知道如何下载，或者下载过慢等问题，由此本文给出以下解决放方案，并给出图示解决。正文一、下载anaconda 首先下载an…

人工智能 2023年7月24日
0095
这份中文pandas速查表，真不错！

今天给大家分享老曾制作的Pandas cheat sheet，直接看图⬇️ 小抄资料获取关注左侧【python】回复 20004 Pandas是一个强大的分析结构化数据的工具集…

人工智能 2023年6月11日
0053
Opencv之图像滤波：5.中值滤波(cv2.medianBlur)

之前介绍的均值滤波、方框滤波、高斯滤波，都是线性滤波方式。由于线性滤波的结果是所有像素值的线性组合，因此含有噪声的像素也会被考虑进去，噪声不会被消除，而是以更柔和的方式存在。这时使…

人工智能 2023年6月18日
0065

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

中文NER1 之 simplify the usage of Lexicon in Chinese NER

中文NER1 之 simplify the usage of Lexicon in Chinese NER

中文NER难的问题

通用的NER结构

中文NER的Lattice-LSTM

本论文的方法

大家都在看