LDA中文文本挖掘代码分享

2023年5月28日上午10:20 • 人工智能 • 阅读 83

原代码并非我原创，但我在自己的电脑上不断报错，所以加以修改补充后分享给大家，自己运行中需要注意的问题：

1、文本数据保存的时候记得要选择utf-8否则会报错

2、中文停词表自己去网上找就OK啦，网上有很多

3、可以选择读单个文件or文件夹的所有文件，默认的是单个文件，如果要用所有文件，把注释那部分删掉#就可以了

文件夹文件读取
#print('读取文件并获取内容...')
#all_content = []  # 总列表，用于存储所有文件的文本内容
#for root, dirs, files in os.walk('../清洗过'):  # 分别读取遍历目录下的根目录、子目录和文件列表
  for file in files:  # 读取每个文件
       file_name = os.path.join(root, file)  # 将目录路径与文件名合并为带有完整路径的文件名
       with open(file_name, encoding='utf-8') as f:  # 以只读方式打开文件
           data = f.read()  # 读取文件内容
           words = jieba.cut(data)
       all_content.extend(words)  # 从文件内容中获取文本并将结果追加到总列表

读取单个文件
with open('/Users/Desktop/上课/文献/LDA/标题.txt', encoding='utf-8') as f:
打开新的文本，记得改成你文件的路径
     data = f.read()  # 读取文本数据
text = data
words = jieba.cut(text)
jieba.suggest_freq('液压支架', True)
#遇到固定名词但系统却给拆分了，可以用这个，不需要的话删掉就可以了

4、记得改路径

以下是全文

导入库
import os
import jieba  # 分词模块
from gensim import corpora, models  # gensim的词频统计和主题建模模块

构建停词库
def get_custom_stopwords(stop_words_file):
    with open(stop_words_file, encoding='UTF-8') as f:
        stopwords = f.read()
    stopwords_list = stopwords.split('\n')
    custom_stopwords_list = [i for i in stopwords_list]
    return custom_stopwords_list

文件夹文件读取
#print('读取文件并获取内容...')
#all_content = []  # 总列表，用于存储所有文件的文本内容
#for root, dirs, files in os.walk('../清洗过'):  # 分别读取遍历目录下的根目录、子目录和文件列表
  for file in files:  # 读取每个文件
       file_name = os.path.join(root, file)  # 将目录路径与文件名合并为带有完整路径的文件名
       with open(file_name, encoding='utf-8') as f:  # 以只读方式打开文件
           data = f.read()  # 读取文件内容
           words = jieba.cut(data)
       all_content.extend(words)  # 从文件内容中获取文本并将结果追加到总列表

读取单个文件
with open('/Users/yiban/Desktop/上课/文献/LDA/标题.txt', encoding='utf-8') as f:  # 打开新的文本
     data = f.read()  # 读取文本数据
text = data
words = jieba.cut(text)
jieba.suggest_freq('液压支架', True)

去停词
stop_words_file = "/Users/yiban/Desktop/上课/文献/LDA/中文停词表.txt"
stopwords = get_custom_stopwords(stop_words_file)
words_ls = [i for i in words if i not in stopwords] # 将不在去除词列表中的词添加到列表中
words_ls = list(set(words).difference(set(stopwords)))

for x in words_ls:
    print(x)

构造词典:分词列表转字典
dictionary = corpora.Dictionary([words_ls])
print('{:*^60}'.format('token和word mapping预览：'))
for i, w in list(dictionary.items())[:5]:  # 循环读出字典前5条的每个key和value，对应的是索引值和分词
    print('token:%s -- word:%s' % (i, w))

生成语料库
corpus = [dictionary.doc2bow([words]) for words in words_ls]
print('{:*^60}'.format('bag of words review:'))# 打印输出第一条语料库
print(corpus[0])

设置主题的个数
lda = models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=3)

打印所有主题，每个主题显示5个词
for topic in lda.print_topics(num_words=5):
    print(topic)

主题推断
print('{:*^60}'.format('主题推断'))
print(lda.inference(corpus))

Original: https://blog.csdn.net/zxcvbygll/article/details/121928978
Author: zxcvbygll
Title: LDA中文文本挖掘代码分享

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530963/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

计算机视觉之边缘提取

目录复习一、边缘提取 * 1、什么是边缘？ 2、什么是边缘提取？ – (1)边缘检测 (2)高频信号&低频信号 (3)边缘检测的原理和步骤 (4)图像锐化 …

人工智能 2023年6月18日
0082
An adaptive gamma correction for image enhancement 低照度图像自适应gamma矫正

文章目录前言一、算法流程二、效果展示总结前言文章主要对图像增强算法进行综述，并比较之前直方图均衡化算法的优缺点提出一种新的基于Gamma增强的算法。算法的主要步骤：1、…

人工智能 2023年6月20日
0078
2023最新SSM计算机毕业设计选题大全（附源码+LW）之java手游账号交易系统u2741

对于即将毕业或者即将做课设的同学而言，由于经验的欠缺，面临的第一个难题就是选题，确定好题目之后便是开题报告，如果选题首先看自己学习那些技术，不同技术适合做不同的产品，比如自己会些简…

人工智能 2023年6月28日
0083
Python数据分析：混淆矩阵

【小白从小学Python、C、Java】【Python全国计算机等级考试】【Python数据分析考试必会题】● 标题与摘要Python数据分析混淆矩阵 ● 选择题以下关于混淆矩阵说…

人工智能 2023年7月15日
0046
树莓派通过RF443MHz收发控制家庭灯

背景：家中随意贴开关损坏(一种通过443MHz控制的远程开关)，且关灯后到卧室需要摸黑，萌生了搞远程控制灯的想法，因为有吃灰的树莓派，所以考虑了最低成本的方案，只需购买价值几元钱的…

人工智能 2023年7月29日
0048
目标检测—锚框

提示：本文是参考李沐老师目标检测这一章，对该章边界框和锚框代码的整体梳理，具体资料连接会在文章中给出。且全部实验代码是在kaggle平台上验证过滴。文章目录前言一、边界框二…

人工智能 2023年7月23日
0077
pandas进阶用法（一）筛选条件、多重索引、缺失值

一篇比较好的pandas指南，适合已经熟悉pandas，并想掌握一些进阶用法的读者,不适合对pandas完全不了解的新人。文章大部分是Stack Overflow常见问题集合。 p…

人工智能 2023年7月16日
0058
基于Python+MySQL的图书管理系统

目录前言一、开发环境与开发工具二、系统需求分析三、系统功能分析四、数据库设计1、数据库概念结构设计（1）数据流程图（2）系统ER图2、数据库逻辑结构设计3、数据库物理结构设计五、…

人工智能 2023年7月5日
0069
Python Matplotlib 3D绘图详解（汇总）

Python Matplotlib 3D绘图详解（汇总）最初开发的 Matplotlib，仅支持绘制 2d 图形，后来随着版本的不断更新， Matplotlib 在二维绘图的基础…

人工智能 2023年6月17日
0083
深度学习—三好学生各成绩所占权重问题（3）

🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🥰 博客首页：knighthood2001😗 欢迎点赞👍评论🗨️❤️ 热爱python，期待与大家一同进步成长！！❤️ 之前，我们从三好学生成绩问题开始，设…

人工智能 2023年6月24日
0078
flac转换成wav的方法，flac转wav步骤

flac转换成wav的方法！如果你在工作中经常使用音频文件，那么肯定需要转换音频文件格式，音频文件的格式有很多种，多达二三十种，其中flac和wav就是重要的音频文件格式，这两种音…

人工智能 2023年5月25日
0079
Transformer在目标检测的几篇论文

Transformer在目标检测的几篇论文 blog记录最近看的两篇文章 End-to-End Object Detection with Transformers Deforma…

人工智能 2023年7月12日
0067
在AI算法部署过程中，如何处理模型的更新和迭代问题

问题背景在AI算法部署过程中，模型的更新和迭代是一个关键的问题。随着数据的变化和模型的性能提升，我们需要不断地更新模型参数，以保证模型的准确性和性能。介绍在模型的更新和迭代中…

人工智能 2024年1月4日
0082
图像边缘检测④（ Sobel边缘算子，Prewitt边缘算子，Laplacian边缘算子，Canny边缘算子）

目录一、边缘检测算法介绍 1.Sobel边缘算子 2.Prewitt边缘算子 3.Log边缘算子 4.Canny边缘算子二、比较三、代码（不理解的可以看前几次的文章）四、效…

人工智能 2023年6月22日
0075
【云原生Kubernetes系列第五篇】kubeadm v1.20 部署K8S 集群架构（人生这道选择题，总会有遗憾）

; 系列文章目录 😜即日起，更新云原生相关知识，喜欢的小伙伴可以给我点个三连喔😜收录至专栏云原生😜【云原生Docker系列第一篇】Docker镜像管理😜【云原生Docker系列第…

人工智能 2023年5月30日
0092
Python中requests库

一、基本概念 requests 模块是 python 基于 urllib，采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便，可以节约…

人工智能 2023年7月4日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

LDA中文文本挖掘代码分享

大家都在看