sklearn做文本聚类分析

2023年6月2日下午1:37 • 人工智能 • 阅读 76

对文本Kmeans聚类分析

前言
*
背景
目的与思路
数据预处理
分词处理
*
采用jieba分词
停用词处理
–
- 获取停用词表
- 去除停用词
生成tf-idf矩阵
Kmeans聚类
*
获取分类
获取分类文档
获取主题词
结论

前言

背景

为了研究用户对数字音乐付费的影响因素，我们采用了配额抽样的调查方法，共发出并收回有效问卷765份，其中问卷最后一题为开放性提问”Q42_H1.您认为当前数字音乐付费模式存在哪些问题以及相应的建议？”。
[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:c454138e-01ee-4275-a2c8-0a1f6aecd94e

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:bf3babb3-5455-46c0-9c2b-cff67210146c

目的与思路

目的：对建议文本进行聚类分析，最终得到 几个主题词团。
实验方法：将数据进行预处理之后，先进行 结巴分词、去除停用词，然后把文档生成tfidf矩阵，再通过K-means聚类，最后得到几个类的主题词。

数据预处理

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:87db9734-2e27-409b-9fc6-935b45054f56

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:77840166-3bca-4ba2-80cc-b6213a0de2da

data = pd.read_excel('questionnaire_data.xlsx')
data.columns.values.tolist()
adv = data[ 'Q42_H1.您认为当前数字音乐付费模式存在哪些问题以及相应的建议？']

adv = adv.dropna()
l1 = len(adv)
adv1 = pd.DataFrame(adv.unique())
l2 = len(adv1)
adv1.to_csv('jianyi.csv',index = False,encoding='utf-8')
print(f'删除了{l1 - l2}条建议')

采用机械压缩去词的方法对文本数据进行处理，并将结果存入jianyi.csv


f = codecs.open('jianyi2.csv' ,'w','utf-8')
def cutword(strs,reverse = False):
    for A_string in strs:
        temp1= A_string[0].strip('\n')
        temp2 = temp1.lstrip('\ufeff')
        temp3= temp2.strip('\r')
        char_list=list(temp3)
        list1=['']
        list2=['']
        del1=[]
        flag=['']
        i=0
        while(i<len(char_list)):
            if (char_list[i]==list1[0]):
                if (list2==['']):
                    list2[0]=char_list[i]
                else:
                    if (list1==list2):
                        t=len(list1)
                        m=0
                        while(m<t):
                            del1.append( i-m-1)
                            m=m+1
                        list2=['']
                        list2[0]=char_list[i]
                    else:
                        list1=['']
                        list2=['']
                        flag=['']
                        list1[0]=char_list[i]
                        flag[0]=i
            else:
                if (list1==list2)and(list1!=[''])and(list2!=['']):
                    if len(list1)>=2:
                        t=len(list1)
                        m=0
                        while(m<t):
                            del1.append( i-m-1)
                            m=m+1
                        list1=['']
                        list2=['']
                        list1[0]=char_list[i]
                        flag[0]=i
                else:
                    if(list2==['']):
                        if(list1==['']):
                            list1[0]=char_list[i]
                            flag[0]=i
                        else:
                            list1.append(char_list[i])
                            flag.append(i)
                    else:
                        list2.append(char_list[i])
            i=i+1
            if(i==len(char_list)):
                if(list1==list2):
                        t=len(list1)
                        m=0
                        while(m<t):
                            del1.append( i-m-1)
                            m=m+1
                        m=0
                        while(m<t):
                            del1.append(flag[m])
                            m=m+1
        a=sorted(del1)
        t=len(a)-1
        while (t>=0):

            del char_list[a[t]]
            t=t-1
        str1 = "".join(char_list)
        str2=str1.strip()
        if len(str2)>4:
            f.writelines(str2+'\r\n')
    f.close()
    return
data1 = pd.read_csv('jianyi.csv',encoding = 'utf-8')
data2 = cutword(data1.values)
data2 = pd.read_csv('jianyi2.csv',encoding = 'utf-8',delimiter="\t",header=None)

分词处理

采用jieba分词

doc=open('jianyi2.csv',encoding='utf-8').read()
f = open("wenben.txt", "w", encoding = 'utf-8')
f.write(doc)
f.close()

with open('wenben.txt', "r", encoding='utf-8') as fr:
    lines = fr.readlines()
jiebaword = []
for line in lines:
    line = line.strip('\n')

    line = "".join(line.split())

    seg_list = jieba.cut(line, cut_all=False)
    word = "/".join(seg_list)
    jiebaword.append(word)
jiebaword

得到jiebaword如下：

停用词处理

获取停用词表

在网上搜索下载停用词文本 stopwords.txt

stopword = []

with open('stopwords.txt', "r", encoding='utf-8') as fr:
    lines = fr.readlines()

for line in lines:
    line = line.strip('\n')
    stopword.append(line)
stopword

去除停用词


fw = open('CleanWords.txt', 'a+',encoding='utf-8')
for words in jiebaword:
    words = words.split('/')
    for word in words:
        if word not in stopword:
            fw.write(word + '\t')
    fw.write('\n')
fw.close()

生成tf-idf矩阵

with open('CleanWords.txt', "r", encoding='utf-8') as fr:
    lines = fr.readlines()

transformer=TfidfVectorizer()
tfidf = transformer.fit_transform(lines)

tfidf_arr = tfidf.toarray()
tfidf_arr.shape

Kmeans聚类

获取分类

这里按照经验，将类别设为num_means=3

kmeans = KMeansClusterer(num_means=3, distance=cosine_distance)
kmeans.cluster(tfidf_arr)

kinds = pd.Series([kmeans.classify(i) for i in tfidf_arr])
fw = open('ClusterText.txt', 'a+', encoding='utf-8')
for i, v in kinds.items():
    fw.write(str(i) + '\t' + str(v) + '\n')
fw.close()

在txt文档中，就有每一条建议与之对应的分类了
[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:9022c00e-b864-4a6c-861a-39480e5de21e

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:714d3e3a-b3a1-46ea-8357-983cee8d0020

获取分类文档

index_cluser = []

with open('ClusterText.txt', "r", encoding='utf-8') as fr:
    lines = fr.readlines()

for line in lines:
    line = line.strip('\n')
    line = line.split('\t')
    index_cluser.append(line)

with open('CleanWords.txt', "r", encoding='utf-8') as fr:
    lines = fr.readlines()

for index,line in enumerate(lines):
    for i in range(410):
        if str(index) == index_cluser[i][0]:
            fw = open('cluster' + index_cluser[i][1] + '.txt', 'a+', encoding='utf-8')
            fw.write(line)
fw.close()

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:69bcc42c-f212-4137-a4bd-bfcf56505d72

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:7f259854-4383-49c8-a0d0-94a6c0d1d696

获取主题词

for i in range(3):

    with open('cluster' + str(i) + '.txt', "r", encoding='utf-8') as fr:
        lines = fr.readlines()

    all_words = []
    for line in lines:
        line = line.strip('\n')
        line = line.split('\t')
        for word in line:
            all_words.append(word)
        c = Counter()
        for x in all_words:
            if len(x) > 1 and x != '\r\n':
                c[x] += 1

        print('主题' + str(i+1) + '\n词频统计结果：')

        for (k, v) in c.most_common(1):
            print(k,':',v,'\n')

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:d2a37b73-fa7f-4726-a3c6-3228cfb2b8f5

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:63650466-40ba-463c-86a3-0ee494180894

结论

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:88fa236e-6632-45c5-b006-c66bd6ac2101

[En]

Original: https://blog.csdn.net/weixin_43194506/article/details/115276211
Author: 今天我吃好吃的了吗
Title: sklearn做文本聚类分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/561086/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

如何用AI技术增强企业认知智能？超详细架构解读

认知的高度决定了创造价值的高度。企业在从创办、发展、竞争、成功到衰亡的全生命周期中，会面临复杂多样的决策场景。然而，时代演变产生的海量、分散、实时的信息，仅靠人类个体是难以高效、…

人工智能 2023年6月1日
0089
多模态机器学习基础、应用及预训练模型介绍

早在公元前四世纪，哲学家和艺术学家提出了多模态的概念，用以定义融合不同内容的表达形式与修辞方法。在当今大数据时代，我们总说数据是多源异构的：多源：数据持有方多样化。比如数据来源于…

人工智能 2023年6月15日
00104
2022年除了深度学习，人工智能算法有可能突破的10个方向

有：千脑理论、自由能原理、Testlin机器、层级实时存储算法等等，笔者根据其列出的参考路径，并且补充了来自维基百科、集智百科等相关的介绍内容，将这10个方向做了一个摘要性的内容简…

人工智能 2023年7月14日
00108
Linux conda tensorflow-gpu安装及Not creating XLA devices, tf_xla_enable_xla_devices not set相关问题解决

0、首先介绍一下conda创建虚拟环境的基本操作。（1）创建Python的虚拟环境，并指定Python版本，不指定的话会使用默认的版本(Conda Base 环境中的Python版…

人工智能 2023年5月25日
0097
〖Python接口自动化测试实战篇⑩〗- 测试框架 unittest 的小实战案例

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月4日
0080
PyCharm使用教程（详细版 – 图文结合）

目录一、创建项目二、运行三、错误提示四、安装三方包 PyCharm的使用贯穿整个Python的学习，所以单独拿出来出教程不合适，说多了对于新手来说也还是不明白，这里我们先从…

人工智能 2023年7月3日
0099
关于图像处理和Python深度学习的教程：第二部分

这是第一篇关于图像处理的文章的第二部分。第一部分链接如下： https://mp.weixin.qq.com/s?__biz=MzU2NTUwNjQ1Mw==&mid=2…

人工智能 2023年6月20日
00110
记录：使用Anaconda安装TensorFlow的一些细节

最近想用TensorFlow跑一下GAN模型，之前在别的计算机安装过TensorFlow，但现在已经忘光了，这次安装也遇到一些细节问题，记录一下（最不可信的就是人的记忆一。一||…

人工智能 2023年5月24日
0083
MongoDB副本集群搭建和基础配置

MongoDB副本集群文章目录 MongoDB副本集群 * 1.MongoDB副本集介绍 – 1.1.副本集角色： 2.副本集介绍 – 2.1.副本集目录…

人工智能 2023年7月31日
0058
NeuS: Learning Neural Implicit Surfaces by Volume Rendering for Multi-view Reconstruction 论文笔记

文章目录 Related Works 方法 * Rendering Procedure – 场景表示 Scene Representation 渲染 Rendering…

人工智能 2023年7月27日
0046
Pycharm Debug调试(纯干货)

内容目录（原文见公众号python宝或 www.xmmup.com ）一、打断点二、代码调试三、界面小图标介绍四、控制台介绍数字转换为大写人民币 import sys impo…

人工智能 2023年7月4日
0076
【DeeplabV3+】DeeplabV3+网络结构详解

文章目录 1 常规卷积与空洞卷积的对比 * 1.1 空洞卷积简介 1.2 空洞卷积的优点 2 DeeplabV3+模型简介 3 DeeplabV3+网络代码 4 mobilenet…

人工智能 2023年7月5日
0077
Lepus天兔数据库监控系统(5.1)部署

一、介绍 Lepus是一套开源的数据库监控平台，目前已经支持MySQL、Oracle、PostgresQL、GreatSQL、MongoDB、Redis等数据库的基本监控和告警。L…

人工智能 2023年7月29日
0080
【实战 02】Iris 鸢尾花（IRIS）数据集的逻辑回归分类实践

目录 1. 数据集 2. 数据可视化 3. 利用逻辑回归模型在三（多）分类上进行训练和预测 4. 混淆矩阵 numpy （Python进行科学计算的基础软件包） pandas（pa…

人工智能 2023年6月30日
0081
TensorFlow2中tf.data.Dataset对象的使用(常用函数总结)

tf.data.Dataset接口是一个生成Dataset数据的高级借口，在对于大型数据集的处理中有很大帮助，同时这也是官方推荐使用的数据处理方式。 1 导包 import ten…

人工智能 2023年5月24日
0056
TaxoNN: ensemble of neural networks on stratified microbiome data for disease prediction阅读报告

该文的主要工作作者提出了一种通过肠道微生物组数据来预测疾病状态的技术，该技术使用了一种新的神经网络集成，结合了分层的方式先将OTU根据门分组，然后通过提出的两种新的排序方式tax…

人工智能 2023年5月31日
0082

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

sklearn做文本聚类分析

对文本Kmeans聚类分析

背景

目的与思路

采用jieba分词

停用词处理

获取停用词表

去除停用词

生成tf-idf矩阵

获取分类

获取分类文档

获取主题词

大家都在看