常用的Python3关键词提取方法

2023年6月15日下午1:44 • 人工智能 • 阅读 100

本文将介绍一些简单的使用Python3实现关键词提取的算法。目前仅整理了一些比较简单的方法，如后期将了解更多、更前沿的算法，会继续更新本文。

文章目录

1. 基于TF-IDF算法的中文关键词提取：使用jieba包实现
2. 基于TextRank算法的中文关键词提取：使用jieba包实现
3. 基于TextRank算法的中文关键词提取（使用textrank_zh包实现）
3. 没说基于什么算法的中文词语重要性：LAC实现
4. KeyBert
基于TF-IDF算法的中文关键词提取：使用jieba包实现

extracted_sentences="随着企业持续产生的商品销量，其数据对于自身营销规划、市场分析、物流规划都有重要意义。但是销量预测的影响因素繁多，传统的基于统计的计量模型，比如时间序列模型等由于对现实的假设情况过多，导致预测结果较差。因此需要更加优秀的智能AI算法，以提高预测的准确性，从而助力企业降低库存成本、缩短交货周期、提高企业抗风险能力。"

import jieba.analyse
print(jieba.analyse.extract_tags(extracted_sentences, topK=20, withWeight=False, allowPOS=()))

输出：

Building prefix dict from the default dictionary ...

Loading model from cache /tmp/jieba.cache
Loading model cost 0.457 seconds.

Prefix dict has been built successfully.

['&#x9884;&#x6D4B;', '&#x6A21;&#x578B;', '&#x9500;&#x91CF;', '&#x964D;&#x4F4E;&#x5E93;&#x5B58;', '&#x4F01;&#x4E1A;', 'AI', '&#x89C4;&#x5212;', '&#x63D0;&#x9AD8;', '&#x51C6;&#x786E;&#x6027;', '&#x52A9;&#x529B;', '&#x4EA4;&#x8D27;', '&#x7B97;&#x6CD5;', '&#x8BA1;&#x91CF;', '&#x5E8F;&#x5217;', '&#x8F83;&#x5DEE;', '&#x7E41;&#x591A;', '&#x8FC7;&#x591A;', '&#x5047;&#x8BBE;', '&#x7F29;&#x77ED;', '&#x8425;&#x9500;']

函数入参：

topK：返回TF-IDF权重最大的关键词的数目（默认值为20）
withWeight 是否一并返回关键词权重值，默认值为 False
allowPOS 仅包括指定词性的词，默认值为空，即不筛选

关键词提取所使用逆向文件频率（IDF）文本语料库可以切换成自定义语料库的路径：
用法： jieba.analyse.set_idf_path(file_name) # file_name为自定义语料库的路径
自定义语料库示例：https://github.com/fxsjy/jieba/blob/master/extra_dict/idf.txt.big
用法示例：https://github.com/fxsjy/jieba/blob/master/test/extract_tags_idfpath.py

关键词提取所使用停止词（Stop Words）文本语料库可以切换成自定义语料库的路径：
用法： jieba.analyse.set_stop_words(file_name) # file_name为自定义语料库的路径
自定义语料库示例：https://github.com/fxsjy/jieba/blob/master/extra_dict/stop_words.txt
用法示例：https://github.com/fxsjy/jieba/blob/master/test/extract_tags_stop_words.py

基于TextRank算法的中文关键词提取：使用jieba包实现

extracted_sentences="随着企业持续产生的商品销量，其数据对于自身营销规划、市场分析、物流规划都有重要意义。但是销量预测的影响因素繁多，传统的基于统计的计量模型，比如时间序列模型等由于对现实的假设情况过多，导致预测结果较差。因此需要更加优秀的智能AI算法，以提高预测的准确性，从而助力企业降低库存成本、缩短交货周期、提高企业抗风险能力。"

import jieba.analyse
print(jieba.analyse.textrank(extracted_sentences, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')))

输出：

Building prefix dict from the default dictionary ...

Loading model from cache /tmp/jieba.cache
Loading model cost 0.451 seconds.

Prefix dict has been built successfully.

['&#x4F01;&#x4E1A;', '&#x9884;&#x6D4B;', '&#x6A21;&#x578B;', '&#x89C4;&#x5212;', '&#x63D0;&#x9AD8;', '&#x9500;&#x91CF;', '&#x6BD4;&#x5982;', '&#x65F6;&#x95F4;', '&#x5E02;&#x573A;', '&#x5206;&#x6790;', '&#x964D;&#x4F4E;&#x5E93;&#x5B58;', '&#x6210;&#x672C;', '&#x7F29;&#x77ED;', '&#x4EA4;&#x8D27;', '&#x5F71;&#x54CD;', '&#x56E0;&#x7D20;', '&#x60C5;&#x51B5;', '&#x8BA1;&#x91CF;', '&#x73B0;&#x5B9E;', '&#x6570;&#x636E;']

入参和第一节中的入参相同，但 allowPOS的默认值不同。

TextRank用固定窗口大小（默认为5，通过span属性调整），以词作为节点，以词之间的共现关系作为边，构建无向带权图。
然后计算图中节点的得分，计算方式类似PageRank。
对PageRank的计算方式和原理的更深入了解可以参考我之前撰写的博文：cs224w（图机器学习）2021冬季课程学习笔记4 Link Analysis: PageRank (Graph as Matrix)_诸神缄默不语的博客-CSDN博客

基于TextRank算法的中文关键词提取（使用textrank_zh包实现）

待补。

没说基于什么算法的中文词语重要性：LAC实现

最后输出的数值就是对应词语的重要性得分。

extracted_sentences="随着企业持续产生的商品销量，其数据对于自身营销规划、市场分析、物流规划都有重要意义。但是销量预测的影响因素繁多，传统的基于统计的计量模型，比如时间序列模型等由于对现实的假设情况过多，导致预测结果较差。因此需要更加优秀的智能AI算法，以提高预测的准确性，从而助力企业降低库存成本、缩短交货周期、提高企业抗风险能力。"

from LAC import LAC
lac=LAC(mode='rank')
seg_result=lac.run(extracted_sentences)
print(seg_result)

输出：

W0625 20:13:22.369424 33363 init.cc:157] AVX is available, Please re-compile on local machine
W0625 20:13:22.455566 33363 analysis_predictor.cc:518]  - GLOG's LOG(INFO) is disabled.

W0625 20:13:22.455617 33363 init.cc:157] AVX is available, Please re-compile on local machine
[['&#x968F;&#x7740;', '&#x4F01;&#x4E1A;', '&#x6301;&#x7EED;', '&#x4EA7;&#x751F;', '&#x7684;', '&#x5546;&#x54C1;', '&#x9500;&#x91CF;', '&#xFF0C;', '&#x5176;', '&#x6570;&#x636E;', '&#x5BF9;&#x4E8E;', '&#x81EA;&#x8EAB;', '&#x8425;&#x9500;', '&#x89C4;&#x5212;', '&#x3001;', '&#x5E02;&#x573A;&#x5206;&#x6790;', '&#x3001;', '&#x7269;&#x6D41;', '&#x89C4;&#x5212;', '&#x90FD;', '&#x6709;', '&#x91CD;&#x8981;', '&#x610F;&#x4E49;', '&#x3002;', '&#x4F46;&#x662F;', '&#x9500;&#x91CF;', '&#x9884;&#x6D4B;', '&#x7684;', '&#x5F71;&#x54CD;', '&#x56E0;&#x7D20;', '&#x7E41;&#x591A;', '&#xFF0C;', '&#x4F20;&#x7EDF;', '&#x7684;', '&#x57FA;&#x4E8E;', '&#x7EDF;&#x8BA1;', '&#x7684;', '&#x8BA1;&#x91CF;', '&#x6A21;&#x578B;', '&#xFF0C;', '&#x6BD4;&#x5982;', '&#x65F6;&#x95F4;', '&#x5E8F;&#x5217;', '&#x6A21;&#x578B;', '&#x7B49;', '&#x7531;&#x4E8E;', '&#x5BF9;', '&#x73B0;&#x5B9E;', '&#x7684;', '&#x5047;&#x8BBE;', '&#x60C5;&#x51B5;', '&#x8FC7;&#x591A;', '&#xFF0C;', '&#x5BFC;&#x81F4;', '&#x9884;&#x6D4B;', '&#x7ED3;&#x679C;', '&#x8F83;&#x5DEE;', '&#x3002;', '&#x56E0;&#x6B64;', '&#x9700;&#x8981;', '&#x66F4;&#x52A0;', '&#x4F18;&#x79C0;', '&#x7684;', '&#x667A;&#x80FD;', 'AI&#x7B97;&#x6CD5;', '&#xFF0C;', '&#x4EE5;', '&#x63D0;&#x9AD8;', '&#x9884;&#x6D4B;', '&#x7684;', '&#x51C6;&#x786E;&#x6027;', '&#xFF0C;', '&#x4ECE;&#x800C;', '&#x52A9;&#x529B;', '&#x4F01;&#x4E1A;', '&#x964D;&#x4F4E;', '&#x5E93;&#x5B58;', '&#x6210;&#x672C;', '&#x3001;', '&#x7F29;&#x77ED;', '&#x4EA4;&#x8D27;', '&#x5468;&#x671F;', '&#x3001;', '&#x63D0;&#x9AD8;', '&#x4F01;&#x4E1A;', '&#x6297;', '&#x98CE;&#x9669;', '&#x80FD;&#x529B;', '&#x3002;'], ['p', 'n', 'vd', 'v', 'u', 'n', 'n', 'w', 'r', 'n', 'p', 'r', 'vn', 'n', 'w', 'n', 'w', 'n', 'n', 'd', 'v', 'a', 'n', 'w', 'c', 'n', 'vn', 'u', 'vn', 'n', 'a', 'w', 'a', 'u', 'p', 'v', 'u', 'vn', 'n', 'w', 'v', 'n', 'n', 'n', 'u', 'p', 'p', 'n', 'u', 'vn', 'n', 'a', 'w', 'v', 'vn', 'n', 'a', 'w', 'c', 'v', 'd', 'a', 'u', 'n', 'nz', 'w', 'p', 'v', 'vn', 'u', 'n', 'w', 'c', 'v', 'n', 'v', 'n', 'n', 'w', 'v', 'vn', 'n', 'w', 'v', 'n', 'v', 'n', 'n', 'w'], [0, 1, 1, 1, 0, 2, 2, 0, 1, 2, 0, 1, 2, 2, 0, 2, 0, 2, 2, 0, 0, 2, 2, 0, 0, 2, 2, 0, 2, 1, 2, 0, 2, 0, 0, 2, 0, 2, 1, 0, 1, 2, 2, 1, 0, 0, 0, 2, 0, 2, 1, 2, 0, 1, 2, 2, 2, 0, 0, 1, 1, 2, 0, 2, 2, 0, 0, 2, 2, 0, 2, 0, 0, 2, 1, 1, 2, 2, 0, 2, 2, 2, 0, 2, 2, 2, 2, 2, 0]]

KeyBert

（待补）

Original: https://blog.csdn.net/PolarisRisingWar/article/details/125459541
Author: 诸神缄默不语
Title: 常用的Python3关键词提取方法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/614885/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

近端策略优化（PPO）

Proximal Policy Optimization（PPO）一.同策略和异策略如果要学习的智能体和与环境交互的智能体是相同的，我们称之为同策略。如果要学习的智能体和与环境…

人工智能 2023年6月19日
0074
向量距离与相似度函数

1. 常见的距离计算方式 1.5 海明距离（Hamming Distance）在信息论中，两个等长字符串之间的海明距离是两个字符串对应位置的不同字符的个数。假设有两个字符串分别是…

人工智能 2023年6月4日
0067
Python机器学习–聚类算法–Kmeans聚类算法

Kmeans聚类算法 Kmeans算法类型: Kmeans算法属于无监督学习的聚类算法.无监督学习是指没有明确的标签,这类问题没有标准的答案. Kmeans算法原理什么是聚类? …

人工智能 2023年6月2日
0088
c#使用百度智能云，文字识别、语音识别demo总结

c#调用流程如下首先，需要在百度智能云平台领取免费资源，并创建应用，此时会得到AppID，API Key和Secret Key这三个参数，在调用该应用时需要使用这三个参数。在V…

人工智能 2023年5月25日
0091
【竞赛】竞赛的常见思路和方案——目标检测

文章目录 1. 数据： 2 模型 3. 训练 4. 模型融合+后处理数据：数据研究：是如何获得的，宽高比，类别平衡，采样环境标注框和感受野的设置，rpn中anchor rat…

人工智能 2023年7月10日
0060
pandas dataframe.pivot()用法

OUTLINE pivot()的用途可以简单理解为：将一个DataFrame的记录数据整合成表格(类似Excel中的数据透视表功能)，而且是按照pivot(‘inde…

人工智能 2023年6月2日
00100
SpeechRecognition离线语音识别

一、PocketSphinx 安装 1、RedHat/CentOS: yum install pulseaudio-libs-devel Ubuntu/Deb…

人工智能 2023年5月27日
0097
聚类——基于层次的聚类算法

基于层次的聚类算法（Hierarchical Clustering）当不知道应该分为几类时，使用层次聚类比较适合。层次聚类会构建一个多层嵌套的分类，类似一个树状结构。可以选择一个…

人工智能 2023年6月2日
0089
Pointpillars三维点云实时检测

目录一、项目方案二、项目准备工作 1.安装并配置好Openpcdet的环境 2.安装好ROS melodic 三、项目工作空间创建及代码配置四、具体代码修改与讲解 launc…

人工智能 2023年7月26日
0061
基于麻雀搜索算法优化的支持向量机回归预测-附代码

基于麻雀搜索算法优化的支持向量机预测及其MATLAB代码实现文章目录基于麻雀搜索算法优化的支持向量机预测及其MATLAB代码实现 1. 基于麻雀搜索算法优化的支持向量机预测简介…

人工智能 2023年6月17日
00100
数据库系统课程设计（高校成绩管理数据库系统的设计与实现）

目录 1、需求分析 1 1.1 数据需求描述 1 1.2 系统功能需求 3 1.3 其他性能需求 4 2、概念结构设计 4 2.1 局部E-R图 4 2.2 全局E-R图 5 2….

人工智能 2023年7月30日
0063
欧拉角、万向节死锁理解

欧拉角、万向节死锁理解欧拉角理解 * 举例讲解顺规、内旋与外旋 – 顺规内旋与外旋总结东北天坐标系数学表示 – 公式推导举例计算万向节死锁理…

人工智能 2023年7月27日
00108
Day2 自学Pytorch—-神经网络

继续跟着文档学习(Pytorch神经网络官方文档) 1.Conv2d() 关于通道数：有一篇博客讲的特别清楚，附上链接【CNN】理解卷积神经网络中的通道 channel 这里再附上…

人工智能 2023年7月14日
0062
【Windows11】Cuda和Cudnn详细安装教程

1. 介绍 cuda： Compute Unified Device Architecture，是一种有NVIDIA推出的通用并行计算架构，该架构使 GPU能够解决复杂的计算问…

人工智能 2023年5月26日
0066
Pandas查询数据的几种方式

一、Pandas查询数据的几种方法 1.df.loc方法，根据行、列的标签值查询 2.df.iloc方法，根据行、列的数字位置查询 3.df.where方法， 4.df.query…

人工智能 2023年7月7日
00128
Yolo-FastestV2在树莓派4B上的MNN移植记录

致谢 Yolo-FastestV2 https://github.com/dog-qiuqiu/Yolo-FastestV2/，非常感谢作者的分享！模型准备首先，下载代码，根…

人工智能 2023年7月11日
0073

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

常用的Python3关键词提取方法

文章目录

大家都在看