Unsupervised Keyphrase Extraction by Jointly Modeling Local and Global Context 阅读笔记

2023年5月28日上午10:49 • 人工智能 • 阅读 107

Unsupervised Keyphrase Extraction by Jointly Modeling Local and Global Context 阅读笔记

论文简单介绍

题目 Unsupervised Keyphrase Extraction by Jointly Modeling Local and Global Context
作者 Xinnian Liang , Shuangzhi Wu , Mu Li and Zhoujun Li
单位 北航
时间 2021
会议 EMNLP21

动机

以前的方法，例如 SIFRank和 EmbedRank等只考虑了候选关键词与全文之间的向量相似度，这个不能捕获不同的上下文信息。
作者用下图展示了上下文嵌入的直观重要性
节点是候选术语的嵌入
星号是文档的嵌入
每个黑色圆圈代表一个本地上下文。也就是说在同一个黑色圈圈里面的候选词通常都是同一个主题相关的
红圈中的节点表示这些候选短语与文档语义相似从这里可以看出来如果仅通过计算候选短语与文档之间的相似度来对全局上下文进行建模，该模型将倾向于选择红色节点，这将忽略三个集群中的局部显着信息。因此作者提出了全局相似度（红色圆圈）和局部相似度（黑色圆圈）相结合的方法来抽取关键词

Unsupervised Keyphrase Extraction by Jointly Modeling Local and Global Context 阅读笔记

; 模型

首先对文本进行预处理，包括分词，标注词性，然后将token送进bert进行嵌入，得到每一个token的向量嵌入(pooler_output)和文档的向量嵌入(cls)，然后分别计算全局相似度和局部相似度，最后考虑了位置得分，这样综合计算后得到每一个候选术语的得分，再选取topK个即完成了关键词的抽取

bert嵌入
在这里作者先将tokens标注词性之后送进去bert里面进行嵌入。对于每一个token，采用 pooler_output做为其向量表达。在最开始插入了一个 CLS标记符，用其代表整个文档的嵌入
候选关键词生成
采用的是主流的词性抽取规则 (ADJECTIVE)*(NOUN)+。之前得到的都是一个个token的词向量，在这里，作者采取最大池化操作得到候选术语的词向量
全局相似度计算
采用曼哈顿距离计算每个候选术语与文档之间的相似度做为全局相似度
局部相似度计算
此外作者再一次显性考虑了一个位置信息，只选取每个词出现的第一个位置的倒数做为其位置得分，为了防止悬殊过大，又经过一个softmax函数
最终局部相似度和全局相似度得分如下

实验

; 我的思考

在候选术语生成时采用最大池化操作会导致整个术语由最核心的关键词主宰，这样会导致整个术语在计算局部相似度时分数很高，但是另一方面也就是会带来语义多样性问题。即大多数时候核心关键词和其组成的术语并存
Bert最大编码是512个 token，通常有些单词很可能会分词成两个 token。所以通常只能编码420个左右的单词，这在短文本数据集 Inspec和 DUC2001上面还行，但是在论文数据集 SemEval2010上面显然是远远不够的，他只能编码到标题和摘要部分，显然没有包含充分的语义信息
分词最主要的就是最大长度匹配，这样会导致好多候选关键词得不到，也就是缺少了更多的可能性。作者使用的是 nltk自带的500多一点停用词表。其实解决分词问题的一个 trick就是针对性添加停用词，但是这显然是作弊。
最重要的一点，作者的局部相似度思路和论文 Discourse-aware unsupervised summarization of long scientific documents.基本一样，感觉算是抄袭

Original: https://blog.csdn.net/Fitz1318/article/details/124033575
Author: Fitz1318
Title: Unsupervised Keyphrase Extraction by Jointly Modeling Local and Global Context 阅读笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531051/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

《统计学习方法》笔记–提升方法

提升方法是通过改变训练样本的权重，得到一系列弱分类器（基本分类器），然后通过组合这些弱分类器，构成一个强分类器。假设给定一个二分类的训练数据集T = ( x 1 , y 1 ) …

人工智能 2023年7月2日
0073
什么是网格搜索

什么是网格搜索网格搜索是一种用于调整机器学习模型参数的方法。它通过指定参数候选集合，遍历所有可能的参数组合，并评估每个组合的性能，最终选择表现最好的参数组合。网格搜索是一种暴力搜…

人工智能 2024年1月1日
00103
3D 目标检测综述梳理图解

总览由于传不了pdf，本人就直接传图片吧 ; 一、Multi-view Methods 梳理：这一部分的内容主要是在不同view的一个fusion，从早期的三个channel到…

人工智能 2023年7月12日
0053
Matlab仿照Sobel算子实现±45°图像细节检测和图像锐化

要求参考Sobel算子能够检测x和y方向的原理，设计合适的模板，能够检测±45°斜方向上的图像细节，分别输出正45度方向和负45度方向的图像细节，以及两者相叠加后的图像结果。将取…

人工智能 2023年6月22日
00141
K210(SiPEED MaixBit)MicroPython使用参考（一、软硬件环境）

1.MaixBit Suit标准套装 Vs OpenMV4 Plus套装型号处理器屏摄像头其他生产商参考价格MaixBitK210有OV5642MEMS MICSiPEED185…

人工智能 2023年5月28日
0093
基于VUE + Echarts 实现可视化数据大屏智慧校园可视化

前言 🚀 基于 vue、datav、Echart 框架的大数据可视化(大屏展示)源码，基于VUE+Echarts 制作，实现大数据可视化。通过 vue 组件实现数据动态刷新渲染，内…

人工智能 2023年6月28日
0075
计算机视觉3-＞ yolov5目标检测1 |从入门到出土

Python微信订餐小程序课程视频 https://edu.csdn.net/course/detail/36074 Python实战量化交易理财系统 https://edu.cs…

人工智能 2023年7月10日
0059
引导滤波原理

上级目录：传统图像处理/降噪与滤波原理导向滤波的大前提：如图所示，算法认为目标图像 Q上相邻的点是线性相关的，之所以待处理图 P不清晰是因为，不相关的部分（噪声），引导图…

人工智能 2023年6月20日
0098
Pytorch神经网络极简入门（回归）

文章目录 * – 数据 – + 首先导入需要用的一些包 + 随机生成一组数据 – 开始搭建神经网络 – 构建优化目标及损失函数 &#…

人工智能 2023年7月21日
0059
Android导入OpenCV库

1、下载OpenCV库官网下载 https://opencv.org/releases/ 这是我下载的版本4.5.5 ; 2、导入OpenCV库注意直接导入OpenCV里面的s…

人工智能 2023年7月18日
0075
使用 python socket 实现UDP/TCP网络通信

目录目录 1.socket简介 2.创建socket 2.1创建UDPSocket 2.2创建TCPSocket 3.使用UDPSocket发送数据并接收 4.使用UDPSock…

人工智能 2023年7月29日
0098
【多目标轨迹预测】HiVT: Hierarchical Vector Transformer for Multi-Agent Motion Prediction（CVPR2022,翻译+笔记）

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月27日
0047
Python版按键精灵基础代码

coding:utf-8 import win32guiimport win32conimport win32apiimport timeimport cv2import win3…

人工智能 2023年6月30日
0081
图神经网络实践之图节点分类（一）

本文主要以Deep Graph Library（DGL）为基础，利用图神经网络来进行图节点分类任务。本篇针对的图为同构图。 DGL是一个python包，用以在现有的深度学习框架上（…

人工智能 2023年7月13日
0055
【一】NLP简介

本课简介了NLP的各类任务，重点在于各类任务的解法掌握根据输入输出的不同将NLP任务分类在BERT中可以学得很多信息，简化了一些预处理步骤（分词、词性标注、语法分析等）讲解了…

人工智能 2023年6月4日
0088
ryuyan 方差分析_R语言简单方差分析

之前看到不少人思维导图，我也来凑凑热闹。用幕布做了一个，以做为这篇的笔记的总提纲什么是方差分析方差分析分析(Analysis of Variance)，简写为ANOVA，不仅是…

人工智能 2023年6月18日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Unsupervised Keyphrase Extraction by Jointly Modeling Local and Global Context 阅读笔记

Unsupervised Keyphrase Extraction by Jointly Modeling Local and Global Context 阅读笔记

论文简单介绍

动机

; 模型

实验

; 我的思考

大家都在看