自然语言处理之——关键词提取(一)

2023年5月30日下午1:07 • 人工智能 • 阅读 118

一．摘要

本次的分享中，我们将了解目前较常用的关键词提取技术。关键词是代表文章重要内容的一组词。在文本的分类聚类、自动摘要等方面有着重要的作用。还可以让人们更直观便捷的浏览文本信息。在现实的常用文本中是不包含关键词的，所以自动提取关键词技术有着很重要的意义。

二． 关键字提取技术概述

在巨量的信息面前，很多信息是我们无法全面接收，因此我们需要从中筛选出一些我们感兴趣的或者有代表性的信息进行接收。那么这一个过程就是关键词提取技术。如果我们可以准确的将所有的文档都用几个简单的关键词描述，那么我们便可以通过关键词了解一篇文章的内容，这将会提高信息获取到效率。

关键词提取算法一般可以分为有监督和无监督两类。有监督的关键词提取方法主要是通过分类的方式进行，首先通过创建一个比较丰富完善的词表，然后通过计算相似度判断每个文档与词表中每个词的匹配程度，类似打标签的方式，以此达到关键词提取的效果。有监督的方法虽然可以获取到较高的提取精度，但是需要大批量的标注数据，人工成本非常高。另外，现代信息量爆炸式增长，会新增出大量的新信息，一个固定的词表代表范围有限，很难将这类信息内容表述出来，但要人工维护这个受控的词表需要很大的人力成本，这就成为了有监督方法在使用上的一个很大短板。

对比有监督的关键词提取方法，无监督的方法对数据的要求就低了很多。不需要人工创建、维护词表，也不需要人工标准语料辅助进行训练。因此，这类的关键词提取技术应用更普遍。本次分享我们的主要介绍的关键词提取技术是TF-IDF算法和TextRank算法。

三． T F-IDF 算法

TF-IDF算法（Term Frequency-Inverse Document Frequency，词频-逆文档频次算法）是一种基于统计的计算方法，常用于评估在一个文档集中一个词对某份文档的重要程度。这种思想是符合关键词抽取的需求，一个词语对文档越重要，那么是关键词的概率就越大，所以通常将TF-IDF算法应用在关键词提取中。

首先从算法的名称分析，TF-IDF算法是由两部分组成：TF算法和IDF算法。TF算法是统计一个词在一篇文档中出现的频次，基本思想理解为：一个词在一篇文档中出现的次数越多，那么这个词对文档的表达能力就越强。而IDF算法是统计一个词在文档集中的多少个文档中出现，基本思想理解为：如果一个词在越少数的文档中出现，则对文档的区分能力就越强。

TF算法和IDF算法也可以单独使用，但是两种算法单独使用过程中都有其不足的地方。TF算法仅仅能够衡量词在一篇文档的出现频次，没有考虑到词对文档的区分能力。而IDF算法则是相反，强调的是词的区分能力，但是一个词既然能够在一篇文档中频繁出现，也表示这个词可以很好的表征这篇文档的特征，如果忽视这点显然也是很不合理的。于是，经过实际考虑将这两种算法综合使用，组合成TF-IDF算法，从词频、逆文档频次两个方面对词的代表能力进行衡量。

图1：TF表达式

在实际的使用中，TF的计算表达式如图所示。其中nij表示词i在文档j中的出现次数。但是仅用频次来表示，长文本中的词出现频次高的概率会更大，这一点会影响到不同文档之间关键词权值的比较。所以在计算过程中一般会对词频进行归一化。分母的部分就是统计文档中每一个词出现次数的总和，也就是文档中词的总数量。

图2：IDF表达式

IDF算法的计算表达式如图所示。|D|表示文档集中总文档数，|Di|表示文档集中出现词i的文档数量。分母中＋1是采用了拉普拉斯平滑思想，避免有部分新词没有在语料库中出现过而导致分母为零的情况出现，有增强算法健壮性的作用。

图3：TF-IDF表达式

TF-IDF算法表达式如上图中所示，TF-IDF算法就是TF算法与IDF算法的综合使用，对于这两种算法的组合，通过大量的理论推导和实验研究后，发现以取IDF算法值的对数，然后相乘是较为有效的计算方式。

除了上述提到的传统TF-IDF算法之外，TF-IDF算法还有很多变种的加权方法。传统的TF-IDF算法中，仅仅考虑到了词的两个统计信息。因此，其对文本的信息利用程度显然是比较少的。所以除了上述的信息外，一个文本中还有很多的信息能够对关键词的提取起到很好的辅助作用，例如每个词的词性、出现的位置等等。算法本身的定义是死的，但是结合我们的应用场景，对算法进行合理的改造和补充，使之能够更适应应用环境，这样可以更好的得到想要的结果。

四． T extRank 算法

在上述的TF-IDF算法中，都需要基于一个现成的语料库，主题模型的关键词提取算法则是需要通过对大规模文档学习，发现文档的隐含主题。而TextRank算法则是可以脱离语料库的基础，仅对单篇文档进行分析就可以提取该文档的关键词。这也是TextRank算法的重要特点。TextRank算法的基本思想源于Google的PageRank算法。因此这里需要先了解下PageRank算法。

图4：PageRank算法示意图

PageRank算法是一种网页排名算法，其基本思想有两个：（1）链接数量。一个网页被越多的其他网页链接，表示这个网页越重要；（2）链接质量。一个网页被一个越高权值的网页链接，也表示这个网页越重要。

图5：PageRank算法表达式

In(Vi)为Vi的入链集合，Out(Vj)为Vj的出链集合，|Out(Vj)|则是出链的数量。因为每一个网页要将它自身的分数平均地贡献给每个链接，那么S(Vj)/|Out(Vj)|即为Vj贡献给Vi的分数。将Vi的所以入链贡献给它的分数相加，就是Vi自身的数值。以这种方式来计算每个网页的分数就会有一个问题，每个网页的得分都与其链接的网页的分数有关，那么其链接网页的数值该如何确定？为解决这个问题，算法开始时会将所以网页的得分初始化为1，然后通过多次迭代来对每个网页的分数进行收敛。收敛得到的数值为最终得分。

图6：PageRank算法改造表达式

在图5表达式中计算会导致一些孤立网页得分为零。为避免这种情况出现，对图5中公式进行改造，加入了阻尼系数d，改造后表达式如图6中所示，这样即使是孤立的网页，也可得出数值。

上述便是PageRank算法的理论，也是TextRank算法的理论基础。不同的是PageRank是又向无权图，而TextRank进行自动摘要则属于有权图，因为在计分时除了考虑链接句子的重要性外，还要考虑两个句子的相似性。因此TextRank的完整表达式为

图7：TextRank算法改造表达式

在计算每个句子给他链接句的贡献时，就不采用平均分配的方式，而是通过计算权重占总权重的比例进行分配，这里的权重就是两个句子的相似度值。相似度计算的方法可以采用距离相似度、余弦相似度等。在对一篇文档进行自动摘要的时候，默认每个语句和其他语句都有链接关系，也就是又向完全图了。

当TextRank应用到关键字抽取的时候，与应用在自动摘要中有两个不同的地方：（1）词与词之间的关联没有权重；（2）每个词不是与其余所以词都有链接。

由于第一点的不同，那么TextRank重点分数计算将会退化，将得分平均贡献给每个链接的词。

图8：TextRank算法改造词表达式

对于第二点的不同，既然每个词与其余所有词并不是都相连，那么他们中间的链接关系该如何设定呢。这里的TextRank应用在关键字提取中时，加入了一个窗口的概念，在窗口中的词都是互相链接的。下面我们用示例展示一下窗口的概念应用。

原文档：詹姆斯夺得了职业生涯第4座总冠军。

分词后：[詹姆斯，夺得，了，职业，生涯，第， 4，座，总冠军]。将窗口大小设置为4，可以得到以下几个窗口：

[詹姆斯, 夺得, 了, 职业]
[夺得，了，职业，生涯]
[了，职业，生涯，第]
[职业，生涯，第， 4]
[生涯，第， 4，座]
[第， 4，座，总冠军]

每个窗口内的所有词都有链接关系，比如[詹姆斯]和[夺得, 了, 职业]之间有链接关系。此时便可以套用TextRank的公式，对每个词进行得分的计算。最后便可以选择出得分最高的n个词作为文档的关键词。

五．总结

本次分享的内容是自然语言处理中关键词提取技术的用处和效果介绍，主体内容主要解释了基于文档库的TF-IDF（词频-逆文档频次算法）的基础原理，以及可脱离文档库存在的TextRank算法思的想和表达式。关键词提取技术的方法多样且不共性，所以下篇的分享内容是LSA/LSI关键词提取算法的介绍，敬请期待！

Original: https://blog.csdn.net/xi_xiyu/article/details/122682357
Author: xi_xiyu
Title: 自然语言处理之——关键词提取(一)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/542771/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【机器学习】Python详细实现基于欧式Euclidean、切比雪夫Chebyshew、曼哈顿Manhattan距离的Kmeans聚类

目录 1 算法过程 2 实现 * 2.1 Python代码 2.2 实验结果 1 算法过程（1）随机选取K个簇中心点（2）通过计算每个样本与每个簇中心点的距离，选择距离最小的簇…

人工智能 2023年5月31日
00113
给好朋友用代码画一个爱心吧

目录效果图 html爱心 python爱心编辑代码 html python 浅浅分析一下《燃烧我，照亮你》剧中的爱心代码光棍节要到了，不给心意的人写个爱心代码？话不多说…

人工智能 2023年6月26日
0073
apex——安装方式和避免踩坑

背景：这个库的安装不是像其他的一样的直接使用 pip install XXX的形式，而是使用原始的Git方式 1、apex 这是NVIDIA开发的基于PyTorch的混合精度训练加…

人工智能 2023年7月9日
0097
[nlp] SQuAD 数据集介绍(Q+A+原文)

一、SQuAD 1.1 SQuAD 是由 Rajpurkar等人提出的一个抽取式QA数据集 [闭集]。该数据集包含 10 万个（问题，原文，答案）三元组，原文来自于 536 篇…

人工智能 2023年5月27日
0052
行业洞察 | 小米发布人形机器人的AI技术

昨晚的朋友圈被雷军的年度演讲刷屏。雷军讲述了自己一生中多次经历的挫折和困惑，并通过人生的低谷分享了自己的感受，让创业路上的每个人都感同身受。 [En] Last night&#82…

人工智能 2023年5月25日
0075
综述 | 三大路径，一文总览知识图谱融合预训练模型的研究进展

当前，预训练模型已是AI领域较为成熟的一项技术，但由于基于神经网络架构的模型本身不具有常识能力，在一些涉及逻辑推理和认知的任务上力有不逮。近年来，知识图谱越来越受到人们的关注，知…

人工智能 2023年6月1日
0086
海康工业相机 C# 开发示例

1.官网下载安装MVS软件。 2.文件资料路径：C:\Program Files (x86)\MVS\Development\Documentations 3.引用的DLL路径：C…

人工智能 2023年7月26日
0056
深度学习-inception模块介绍

本文简单对inception模块的改进进行了简单介绍，包括inception v1、inception v2、inception v3和inception v4。参考了相关博客：详…

人工智能 2023年6月24日
00125
偏最小二乘回归和偏最小二乘路径模型

1. 偏最小二乘回归（Partial least squares regression， PLS回归）偏最小二乘 (PLS) 回归是将预测变量减少为较小的一组不相关分量并对这…

人工智能 2023年6月17日
0060
机器学习-4逻辑回归

一、二元分类通过输入的样本，多元线性回归模型返回的是连续预测值，需要一种方法将连续值转变为离散预测值，[-∞，+∞]—>[0,1]。可以利用逻辑函数来实现。（图如下） i…

人工智能 2023年7月2日
00122
PyTorch nn.GRU 使用详解

我们看官方文档一些参数介绍，以及如下一个简单例子：看完之后，还是一脸懵逼: 输入什么鬼？输出又什么鬼？(这里我先把官网中 h0 去掉了，便于大家先理解更重要的概念) impor…

人工智能 2023年7月20日
00107
神经网络模型的实际案例,神经网络模型应用实例

深度学习的职业发展方向有哪些？当前，人工智能发展借助深度学习技术突破得到了全面关注和助力推动，各国政府高度重视、资本热潮仍在加码，各界对其成为发展热点也达成了共识。本文旨在分析…

人工智能 2023年6月16日
0091
旋转角度判断回归

图像旋转网络给两张图片，判断旋转角度： https://github.com/jidai-code/ExplicitOrientationEstimator 自己复现了一下，并尝…

人工智能 2023年6月17日
0061
【最优化方法】K-Means聚类实验：Python实现手写数字图像MNIST分类

【最优化方法】K-Means聚类实验：Python实现手写数字图像MNIST分类目录【最优化方法】K-Means聚类实验：Python实现手写数字图像MNIST分类一、实验目…

人工智能 2023年6月30日
0083
COCO数据集格式、mask两种存储格式、官方包API详解

文章目录前言 COCO数据集格式 * 总体组织结构 image对象的主要属性： annotation对象的属性主要： pycocotools包中的COCO对象及API * COC…

人工智能 2023年5月26日
0073
使用vite和Element Plus，实现部署后不修改代码/打包，新增主题/皮肤包

Web前端界面切换主题/皮肤，是一个常见的需求。如果希望在打包部署后实现皮肤的修改甚至增加皮肤，不需要修改源码或者重新打包，类似于我们常见的皮肤包扩展，又该如何实现呢？我使用类似上…

人工智能 2023年7月30日
0086

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

自然语言处理之——关键词提取(一)

大家都在看