数据分析中，用Python轻松挖掘相似评论（文本）

2023年5月30日下午8:30 • 人工智能 • 阅读 84

哈喽，大家好。

我们现在做数据分析的时候，不可避免地会与文本数据打交道，今天跟大家分享在数据分析中，如何挖掘出相似的文本。

本文从提出问题，到解决问题，再到算法原理三个方面来介绍。

1. 提出问题

假设在一个电商APP里，我们想要找出某款商品评价里，关于” 快递很差” 的评论，该怎么做？

如果只用字符串匹配的方式，你可能会遍历所有的评论，判断每条评论里是否包含” 快递很差“字符串。

但这种做法对下面几条评论就失效了

快递真差劲
快递一点不好
物流真差

所以，单纯的字符串匹配会漏掉很多评论。

2. 解决问题

要解决上面的问题，需要借助 潜在语义索引(Latent Semantic Indexing, 以下简称LSI) 算法。

LSI 算法可以挖掘相似文本，因此，通过 LSI 算法可以找到与” 快递很差“相似的评论。

下面我们以之前一篇文章《挖掘张同学视频评论主题》为例，实践 LSI 算法。

2.1 构建 LSI 模型

张同学视频评论

上篇文章抓取了张同学抖音视频 1.2w 条评论，对应上图 text 列。

首先，对评论分词，并去掉停用词。

origin_docs&#xA0;=&#xA0;df['text'].values
documents&#xA0;=&#xA0;[jieba.lcut(doc)&#xA0;for&#xA0;doc&#xA0;in&#xA0;origin_docs]
texts&#xA0;=&#xA0;[[word&#xA0;for&#xA0;word&#xA0;in&#xA0;doc&#xA0;if&#xA0;word&#xA0;not&#xA0;in&#xA0;filter_wrods]&#xA0;for&#xA0;doc&#xA0;in&#xA0;documents]

texts变量

然后，用 gensim构建评论词典，并统计每条评论中每个词出现的次数（词频）。

from&#xA0;gensim&#xA0;import&#xA0;corpora,&#xA0;models,&#xA0;similarities

#&#xA0;&#x6784;&#x5EFA;&#x8BCD;&#x5178;&#xFF0C;&#x7ED9;&#x6BCF;&#x4E2A;&#x8BCD;&#x7F16;&#x53F7;
dictionary&#xA0;=&#xA0;corpora.Dictionary(texts)
#&#xA0;&#x6BCF;&#x6761;&#x8BC4;&#x8BBA;&#x91CC;&#x6BCF;&#x4E2A;&#x8BCD;&#x7684;&#x51FA;&#x73B0;&#x9891;&#x6B21;
corpus&#xA0;=&#xA0;[dictionary.doc2bow(text)&#xA0;for&#xA0;text&#xA0;in&#xA0;texts]

corpus变量

dictionary将 texts变量中的文本变成了数字编号。如： 热好 的编号为 0， 饭 的编号为 1。

doc2bow()中的 bow 是 Bag-of-Words的缩写，代表 词袋模型，该模型用来统计评论中的词频。

corpus变量与 texts变量相对应。 corpus[0]中的第一个元组 (0, 1)代表第一条评论中 热好一词的出现的次数是1，第二个元组 (1, 1)代表 饭出现的次数是1。

接着，构建 LSI 模型

lsi&#xA0;=&#xA0;models.LsiModel(
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;corpus,&#xA0;
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;id2word=dictionary,
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;power_iters=100,
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;num_topics=10
)

num_topics是评论的主题数，上篇文章我们挖掘出来8个主题比较好，这里我们设置的主题数是10个，稍微大一些对后面挖掘相似文本更好。

最后，构建每条评论向量的索引，方便后面查询。

#&#xA0;lsi[corpus]&#xA0;&#x662F;&#x6240;&#x6709;&#x8BC4;&#x8BBA;&#x5BF9;&#x5E94;&#x7684;&#x5411;&#x91CF;
index&#xA0;=&#xA0;similarities.MatrixSimilarity(lsi[corpus])&#xA0;&#xA0;

2.2 查询相似文本

张同学的视频评论中，很多人都对”喂狗”镜头印象深刻。

下面我们来查询与” 以为自己吃，结果喂狗“相似的评论。直销百晓生

query&#xA0;=&#xA0;'&#x4EE5;&#x4E3A;&#x81EA;&#x5DF1;&#x5403;&#xFF0C;&#x7ED3;&#x679C;&#x5582;&#x72D7;'
#&#xA0;&#x8BCD;&#x888B;&#x6A21;&#x578B;&#xFF0C;&#x7EDF;&#x8BA1;&#x8BCD;&#x9891;
vec_bow&#xA0;=&#xA0;dictionary.doc2bow(jieba.lcut(query))
#&#xA0;&#x8BA1;&#x7B97;&#xA0;query&#xA0;&#x5BF9;&#x5E94;&#x7684;&#x5411;&#x91CF;
vec_lsi&#xA0;=&#xA0;lsi[vec_bow]

#&#xA0;&#x8BA1;&#x7B97;&#x6BCF;&#x6761;&#x8BC4;&#x8BBA;&#x4E0E;query&#x7684;&#x76F8;&#x4F3C;&#x5EA6;
sims&#xA0;=&#xA0;index[vec_lsi]&#xA0;

经过 LSI 处理后，每条评论都可以用向量表示，同样的， query也可以用向量表示。

所以， index[vec_lsi]其实是计算向量之间的相似度，这里用的方法是 余弦相似度。结果越靠近1说明 query与该评论越相似。

下面按照相似度倒排，输出与 query相似的评论。

#&#xA0;&#x8F93;&#x51FA;&#xFF08;&#x539F;&#x59CB;&#x6587;&#x6863;&#xFF0C;&#x76F8;&#x4F3C;&#x5EA6;&#xFF09;&#x4E8C;&#x5143;&#x7EC4;
result&#xA0;=&#xA0;[(origin_docs[i[0]],i[1])&#xA0;for&#xA0;i&#xA0;in&#xA0;enumerate(sims)]

#&#xA0;&#x6309;&#x7167;&#x76F8;&#x4F3C;&#x5EA6;&#x9006;&#x5E8F;&#x6392;&#x5E8F;
sorted(result&#xA0;,key=lambda&#xA0;x:&#xA0;-x[1])

相似文本

可以看到，效果还是不错的，能够挖掘出很多相似的文本。

3. LSI 算法原理

LSI 与我们之前讲的 LDA 类似，都能用来计算每篇文本的主题。

LSI 是基于 奇异值分解（SVD）的方法来得到文本的主题的。SVD 的近似公式为：

其中，m代表所有评论中词的数量，n代表评论的条数，k代表分解后得到的主题数。

矩阵对应n篇评论，每篇评论下有m个词。

矩阵对应k个主题，每个主题下，m个词的概率分布。

矩阵转置后是 n*k 的矩阵，对应 n 篇文档，每篇文档下，k 个主题的概率分布。

因此，中每行其实就是每条评论的向量，该矩阵对应到上述代码中，是 lsi[corpus]。

上面我们提到用 余弦相似度计算向量相似度。在高中数学中，两个向量的余弦相似度其实就是两个向量的夹角

夹角0度时，两向量重合（相等），相似度为1
夹角90度时，两向量垂直（不相关），相似度为0
夹角180度时，两向量反向，相似度为-1

到这里，基于 LSI 的相似文本挖掘就介绍完了。经过本篇的学习，你可以发现 LSI 不仅可以挖掘相似文本，甚至还可以做文本推荐、搜索引擎之类的事。

当然它也有缺点，有兴趣的朋友可以继续深入研究。

撰于百晓生 www.lannakj.cn

Original: https://blog.csdn.net/qq_42766267/article/details/122117307
Author: 叶玄哥
Title: 数据分析中，用Python轻松挖掘相似评论（文本）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/544934/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Google Earth Engine（GEE）——Sentinel-1 和 2 数据的融合，水稻范围识别和水稻种植季节区分地图绘制—马来西亚为例

最近发现了一个巨牛的人工智能学习网站，点击跳转到网站：前言 – 床长人工智能教程这次给大家推荐一篇文章，关于水稻识别：使用 GEE 平台中的无监督分类整合 Sentinel-1 …

人工智能 2023年5月31日
0097
B站有哪些值得Java初学者看的视频，Java学习路线

我的读者中有很大一部分学生读者，以前也分享过一些Java学习路线，但是我收到的反馈并不好，因为学习路线包含的内容太多了，对于初学者来说难度太大，时间也不够用，根本学不完。今天我将结…

人工智能 2023年7月30日
0059
Python中的多行输入

Python中的多行输入一、概述二、代码部分 * 1、已知行数多行输出 2、未知行数多行输出三、拓展 * 1、点餐系统 2、文本编辑一、概述在Python里，我们有时候会…

人工智能 2023年7月4日
0087
matlab中resample重采样函数

resample函数对时间序列进行重采样格式： 1、y=resample(x,p,q)x–待重采样的时间序列；p–重采样之后目标频率；q–待重采样的时间序列频率采用多相滤波器对时…

人工智能 2023年6月15日
0084
kaldi 的常用ark scp命令

ark,s,cs:apply-cmvn –norm-means=true –norm-vars=false — \ utt2spk=ark:data/fbank/test/s…

人工智能 2023年5月23日
00113
解决PyCharm中opencv的cv2不显示函数引用，高亮提示找不到引用

类似这种，鼠标放在高亮处会提示在 ‘init.py’ 中找不到引用之类的，图截的别人的，我的已经弄好了截不了先确定下imread()等方法是否能用，我发现…

人工智能 2023年7月19日
0082
MXNe

MXNet问题解决在本文中，我们将解决一个关于MXNet的问题。我们将详细介绍MXNet的算法原理和运行步骤，并通过一个复杂的Python代码示例来演示和解释这些步骤。算法原理…

人工智能 2023年12月31日
0041
pip install pyqt5时报错：Preparing wheel metadata … error

问题描述背景：在服务器上用conda搭建TensorFlow训练环境在安装pyqt5时遇到了这个问题： ; 解决尝试是不是代码源出问题？ pip install pyqt5 …

人工智能 2023年5月25日
00126
「Self-driving: KITTI」KITTI数据集简介

背景 KITTI数据集建立前，前人的实验在米德尔伯里等既定基准上排名靠前的方法在从实验室转移到现实世界时表现低于平均水平。除了向社区提供具现实世界数据以减少实验偏差，KITTI在…

人工智能 2023年6月2日
0097
刚刚成功解决PyCharm的“无法将“pip”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写，如果包括路径，请确保路径正确，然后再试一次。所在位置行:1 字符: 1”

刚刚成功解决PyCharm的”无法将”pip”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写，如果包括路径，请确保路…

人工智能 2023年7月6日
0072
Jetson TX2零基础学习（二）——安装pip3、pytorch、torchvision

目录一、安装pip3 二、安装pytorch 三、安装torchvision 系列文章大家好，很开心又见面了，这次接着上篇博客，为大家详细介绍在Jetson TX2中搭环境的方…

人工智能 2023年7月22日
10319
机器学习第一章之大数据分析与机器学习简介

大数据分析与机器学习简介 * – 1.1 大数据分析与机器学习概述 – + 1.1.1 大数据分析与机器学习的应用领域 + 1.1.2 机器学习的基本概念 …

人工智能 2023年7月15日
00119
MagicHub中英混语音识别挑战赛开启报名

2022年8月12日，Magic Data 、好未来 (智慧教育-国家新一代人工智能开放创新平台) 、清华大学、中国科学院声学研究所主办，Magichub 开源社区、上海白玉兰开源…

人工智能 2023年5月25日
0082
【图像分割】基于粒子群优化模糊聚类算法实现图像分割matlab代码

1 简介基于粒子群优化的改进模糊聚类图像分割算法将微粒群搜索聚类中心作为图像分割的聚类初值,克服了FCM分割算法对聚类中心初值敏感的缺点,大幅提高了图像分割算法的计算速度。改进的…

人工智能 2023年6月2日
0073
整理NAD+代谢相关基因

欢迎关注”生信修炼手册”! 在ALS患者NAD+基因预后模型的文献中，提供了NAD+代谢相关基因的集合来自KEGG和Reactome两个数据库，本文主要介…

人工智能 2023年6月11日
0063
【实例分割/目标检测】coco大Json文件转labelme小Json文件

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Zbase64 * 1.Zbase64.h 2.Zbase64.cpp 二、主函数 * 1.c…

人工智能 2023年7月9日
0097

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

数据分析中，用Python轻松挖掘相似评论（文本）

1. 提出问题

2. 解决问题

3. LSI 算法原理

大家都在看