NLP-文本处理：指代消解（Coreference Resolution）【回指消解（名词＜–＞代词）、共指消解（名词1＜–＞名词2）】【识别指向同一实体的不同表述】【难度较大，准确率不会太高】

2023年6月10日上午6:44 • 人工智能 • 阅读 73

共指消解（coreference resolution）技术同NER、RE。作为自然语言历届基础技术被广泛的应用于：文本摘要、机器翻译、自动问答和知识图谱等领域。

共指消解的提出是为了识别一段文本中指向同一实体的不同表述。

在自然文本中，经常出现同一个实体的不同表述．例如，”【陈奕迅】，英文名【Eason Chan】， 1974年7月出生于香港．【他】是当今华语乐坛的当红歌手．”这句+话中，【陈奕迅】、【E嬲on Ch锄】、【他】这3个表述都指向现实生活中”香港歌手陈奕迅”这一实体．共指消解正是为识别一段文本中指向同一个实体(Entity)的不同表述(Mention)而提出的一项技术【41．这里提到的实体是一个比较抽象的概念，在广义上讲，它对应着一个现实世界中的本体(Ontolo盱)，在狭义上讲，它等同于知识库中的一个概念节点(Concept N0de)．而表述是指文本中指代某个实体的词或短语，如名称、代词、缩写等．

整个共指消解的过程可以理解为——判断一个表述是否指向另一个表述的过程。

照应语（Anaphor）：指出的表述。
先行语（Antecedent）：指入的表述。

简化的判断可如下：照应语指向先行语

根据照应语和先行语的位置不同可分为四种情况：

回指：先行语在照应语前，其中照应语为人称代词。
预指：先行语在照应语后，其中照应语为人称代词。
名词短语共指：先行语和照应语均为非人称代词的名词短语。
先行语分指：一个照应语对应多个先行语。

指代是一种常见的语言现象，广泛存在于自然语言的各种表达中。一般情况下，指代分为 2 种：

回指(也称指示性指代)：是指当前的照应语与上文出现的词、短语或句子(句群)存在密切的语义关联性，指代依存于上下文语义中，在不同的语言环境中可能指代不同的实体，具有非对称性和非传递性；
共指(也称同指)：共指主要是指 2 个名词(包括代名词、名词短语)指向真实世界中的同一参照体，这种指代脱离上下文仍然成立。
第一步是指代识别（mention detection），即找出句子中所有的指代，这一步相对简单；
第二步才是进行真正的指代消解（coreference resolution），这一步比较难。

1、指代识别

指代识别阶段尽量保召回率，保留所有找到的可能是指代的词，都参与后期的指代消解。如果一个指代没有找到它的共同指代（coreference），则说明这个指代是孤立的（singleton mention），有可能是指代识别阶段找到的不是指代的词，直接舍弃。

2、指代消解

指代消解发展至今，经历了四种不同的方法，分别是：

Rule-based、
Mention pair、
Mention Ranking。

1976年，Hobbs提出了基于规则的朴素算法，被后人称为Hobbs算法。该方法有9个步骤，包含了很多规则，非常繁琐。Hobbs算法虽然是基于规则的，但在当时取得了不错的效果，现在也常常作为该领域的baseline模型。但是因为该方法是基于规则的，有很多指代消解没法解决。

Mention pair方法把指代消解问题转化为一个二分类问题。从左到右遍历句子，每找到一个指代，就把它和前面找到的每个指代作为一个pair，问分类器这个pair是否指代同一个实体，如果是的话，就把它们连起来。二分类的损失就是交叉熵。很简单的一个模型。

每个指代同时和前面所有指代打分，用softmax归一化，找出概率最大的先行词，添加一条连边。注意需要添加一个NA节点，因为有的指代可能第一次出现，前面没有先行词，或者这个指代根本就不是一个真正的指代。

前面的内容都是假设我们计算好了任意两个指代是coreference的概率，那么，如何来计算这个概率呢？主要有三种方法，分别是Non-neural statistical classifier、Simple neural network和More advanced model using LSTMs, attention。

A. Non-neural statistical classifier。统计机器学习方法，抽取每个指代的各种特征，然后用机器学习分类器来计算两个指代是coreference的概率。这里面的特征包括人称、性别一致性，语义相容性等等。

B. Neural Coref Model。输入是候选先行词和当前指代词的词向量，还需要加入一些额外的特征（Additional Feature），也就是上面统计机器学习方法里用到的一些特征。中间是FFNN，即全连接网络，最后输出两个指代是coreference的概率。

C. End-to-end Model。end2end模型是目前指代消解的SOTA模型，它把指代识别和指代消解两个任务融合到一起，用一个模型来解决。

Original: https://blog.csdn.net/u013250861/article/details/115455799
Author: u013250861
Title: NLP-文本处理：指代消解（Coreference Resolution）【回指消解（名词＜–＞代词）、共指消解（名词1＜–＞名词2）】【识别指向同一实体的不同表述】【难度较大，准确率不会太高】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/595676/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python module handbook

1.base 1. dir(模块名)：查看该模块下有哪些函数 2. 行列转置 dataframe.unstack(0)：行列转置，并将行列名进行转换 dataframe.stack…

人工智能 2023年7月17日
0064
CT图像中的窗宽和窗位

通常我们称CT图像为DICOM(Digital Imaging and Communications in Medicine)图像，但是DICOM不是一个图像或者文件格式，它是包含…

人工智能 2023年6月21日
0086
数据探索与数据预处理的实验报告

数据探索与数据预处理提示参考书：张良均《Python数据分析与挖掘实战》等。数据文件：课本自带数据。使用软件：Pycharm。类别：实验。温馨提示：该实验是跟张良均这本…

人工智能 2023年7月5日
0059
【目标检测】39、一文看懂计算机视觉中的数据增强

文章目录 * – 一、Cutout – 二、Random Erasing – 三、Mixup – 四、CutMix – …

人工智能 2023年6月17日
0084
开源知识图谱整理

会持续更新 NameIntroduction主页链接下载链接Alibaba openkg | 阿里开源的商业知识图谱 | https://kg.alibaba.com/index….

人工智能 2023年6月1日
0055
外设测试 – 音频测试 – LINE IN – MIC IN – LINE OUT – PHONE OUT

本项测试针对音频接口的 LINE IN、LINE OUT、MIC IN、PHONE OUT。内部 IN 到 OUT 的循环，采用先录音然后播放的方式实现。使用到 arecord、a…

人工智能 2023年5月27日
0083
关于朴素贝叶斯分类器(Naïve Bayes Classifiers)的理解以及其在scikit-learn当中的实现

朴素贝叶斯分类器用于分类。所以，我们首先需要了解什么是分类问题。在机器学习中，分类指的是建立预测模型，然后针对给定的输入示例，预测其所属的类标签(class label)。例如…

人工智能 2023年7月2日
0061
51单片机语音跳绳计播报跳绳数目

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月25日
0066
基于Weka平台，对基于差分演化算法的属性加权朴素贝叶斯算法的研究

基于Weka平台，对基于差分演化算法的属性加权朴素贝叶斯算法的研究个人兴趣，希望对大家有所帮助文章目录基于Weka平台，对基于差分演化算法的属性加权朴素贝叶斯算法的研究前言…

人工智能 2023年7月2日
0053
基于DarkNet框架实现YOLOV4的训练

YOLOV4论文：《Yolov4: Optimal Speed and Accuracy of Object Detection》项目代码：AlexeyAB/darknet 一、编…

人工智能 2023年7月12日
0078
【机器学习】什么是机器学习？

什么是机器学习？提供了机器学习的两种定义。亚瑟·塞缪尔（Arthur Samuel）将其描述为：”让计算机无需明确编程即可学习的研究领域。” 这是一个较旧…

人工智能 2023年6月2日
0092
bp神经网络权重分析法,bp神经网络综合评价

BP神经网络中,如何设定神经元的初始连接权重以及阀值? 初始连接权重关系到网络训练速度的快慢以及收敛速率，在基本的神经网络中，这个权重是随机设定的。在网络训练的过程中沿着误差减小的…

人工智能 2023年6月15日
0087
TensorRT8.2.1.8基于Docker容器快速安装

一. 实验环境ubuntu20.04: NVIDIA GeForce RTX 3080 二. 安装方法全手动安装优点：不需要掌握基本的docker操作知识，新手上手快。缺点：…

人工智能 2023年6月29日
0052
安装Pytorch指定版本1.3 python=3.6 CPU版本教程

1、安装Anaconda 官网下载地址，滑到最底部，安装电脑相应的版本。注意：安装的路径尽量选在C盘以外的其他盘。 2.安装Pytorch 2.1在电脑导航栏搜索anacond…

人工智能 2023年7月23日
00145
常见的图像平滑处理算法的比较（均值滤波、高斯滤波、双边滤波），并解析语法格式

粗略的概念：图像平滑处理==图像模糊处理==图像滤波==图像质量增强；称呼是次要的，主要的是：使用算法处理问题；均值滤波只考虑空间信息，并且权重全为1；高斯滤波虽然只考虑空间信…

人工智能 2023年6月15日
0057
Python基础知识题库（带答案）

单项选择题第一章python语法基础 Python 3.x 版本的保留字总数是 C A 27 B 29 C 33 D 16 2.以下选项中，不是 Python 语言保留字的是 C…

人工智能 2023年7月3日
00143

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

NLP-文本处理：指代消解（Coreference Resolution）【回指消解（名词＜–＞代词）、共指消解（名词1＜–＞名词2）】【识别指向同一实体的不同表述】【难度较大，准确率不会太高】

1、指代识别

2、指代消解

大家都在看