Python自然语言处理：文档相似度计算（gensim.models）

2023年5月27日下午11:11 • 人工智能 • 阅读 82

本文对Python的第三方库gensim中的文档相似度计算方法进行探索。

官方文档见：

https://github.com/RaRe-Technologies/gensim/tree/develop/gensim/models


import jieba
import os
import jieba.posseg as pseg
from gensim import corpora, models, similarities
import math
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from tqdm import tqdm
import datetime
import seaborn as sns
sns.set(font='SimSun',font_scale=1.5, palette="muted", color_codes=True, style = 'white')

plt.rcParams['font.sans-serif']=['SimSun']
plt.rcParams['axes.unicode_minus'] = False
plt.rcParams['mathtext.fontset'] = 'cm'

from scipy import sparse

整个流程：


df = pd.read_csv('noun_index.csv')
text = df[['text_need']].to_list()
texts = [eval(i) for i in texts]

dictionary = corpora.Dictionary(texts)

feature_cnt = len(dictionary.token2id.keys())

corpus = [dictionary.doc2bow(text) for text in texts]

tfidf_model = models.TfidfModel(corpus)

corpus_tfidf = tfidf_model[corpus]

index = similarities.SparseMatrixSimilarity(corpus_tfidf, num_features=len(dictionary.keys()))

① 计算corpus中的一个文档与corpus中每个文档的相似度：

i = 0
doc_text_vec = corpus[i]
sim = index[tfidf_model[doc_text_vec]]

计算的结果sim是：

array([9.9999988e-01, 2.3108754e-08, 1.1747384e-02, ..., 1.2266420e-01,
       1.4046666e-02, 9.9481754e-02], dtype=float32)

② 计算任意一个字符串与corpus中每个文档的相似度：


test_string='少年进步则国进步'
test_doc_list=[word for word in jieba.cut(test_string)]
test_doc_vec = dictionary.doc2bow(test_doc_list)
sim=index[tfidf_model[test_doc_vec]]

返回的结果sim是：

array([0.        , 0.        , 0.        , ..., 0.        , 0.01903304,
       0.        ], dtype=float32)

与tf-idf模型的前半部分处理过程一致，但是不将频率向量训练为tf-idf向量。


df = pd.read_csv('noun_index.csv')
text = df[['text_need']].to_list()
texts = [eval(i) for i in texts]

dictionary = corpora.Dictionary(texts)

feature_cnt = len(dictionary.token2id.keys())

corpus = [dictionary.doc2bow(text) for text in texts]

from scipy import sparse
vector = sparse.dok_matrix((1,len(dictionary)), dtype=np.float32)
result = corpus[0]
for i in range(len(result)):
    vector[0,result[i][0]] = result[i][-1]

vector1 = sparse.dok_matrix((1,len(dictionary)), dtype=np.float32)
result1 = corpus[1]
for i in range(len(result1)):
    vector1[0,result1[i][0]] = result1[i][-1]`

from sklearn.metrics.pairwise import cosine_similarity
sim = cosine_similarity(vector,vector1)

返回的结果sim为：

array([[0.32762548]], dtype=float32)

与tf-idf模型的前半部分处理过程类似，但是不采用频率向量，而是采用0-1向量（出现该单词取1否则为0），也不将二元向量训练为tf-idf向量。


df = pd.read_csv('noun_index.csv')
text = df[['text_need']].to_list()
texts = [eval(i) for i in texts]

dictionary = corpora.Dictionary(texts)

feature_cnt = len(dictionary.token2id.keys())

corpus = [dictionary.doc2idx(text) for text in texts]

from scipy import sparse
vector = sparse.dok_matrix((1,len(dictionary)), dtype=np.float32)
result = corpus[0]
for i in range(len(result)):
    vector[0,result[i]] = 1

vector1 = sparse.dok_matrix((1,len(dictionary)), dtype=np.float32)
result1 = corpus[1]
for i in range(len(result1)):
    vector1[0,result[i]] = 1

from sklearn.metrics.pairwise import cosine_similarity
sim = cosine_similarity(vector,vector1)

返回的结果sim为：

array([[0.5463583]], dtype=float32)

给定一个文档集合，计算出由神经网络映射出的每个词的向量表示（向量的长度自己指定）

from gensim.test.utils import common_texts
from gensim.models import Word2Vec
model = Word2Vec(sentences=common_texts, vector_size=100, window=5, min_count=1, workers=4)
vector = model.wv['computer']
vector1 = model.wv['system']
np.dot(vector,vector1)/(np.linalg.norm(vector)*np.linalg.norm(vector1))
>>> 0.21617143
sim = model.wv.most_similar('computer', topn=10)

返回的结果sim是：

[('system', 0.21617142856121063),
 ('survey', 0.044689204543828964),
 ('interface', 0.015203374437987804),
 ('time', 0.0019510634010657668),
 ('trees', -0.03284314647316933),
 ('human', -0.0742427185177803),
 ('response', -0.09317589551210403),
 ('graph', -0.09575346112251282),
 ('eps', -0.10513807088136673),
 ('user', -0.16911624372005463)]

Doc2vec也可以叫做 Paragraph Vector、Sentence Embeddings，它可以获得 词、句子、段落和文档的向量表达，是Word2Vec的拓展。

from gensim.test.utils import common_texts
from gensim.models.doc2vec import Doc2Vec, TaggedDocument

documents = [TaggedDocument(doc, [i]) for i, doc in enumerate(common_texts)]
model = Doc2Vec(documents, vector_size=5, window=2, min_count=1, workers=4)
vector = model.infer_vector(["system", "response"])
vector1 =  model.infer_vector(['human', 'interface', 'computer'])
from scipy import spatial
sim = 1 - spatial.distance.cosine(vector, vector1)

返回的结果sim是：

0.44926005601882935

相比于词袋模型，N元模型考虑了词与前后词之间的联系，gensim.models.phrases模型可以构建和实现bigram，trigram，quadgram等，提取文档中经常出现的2个词，3个词，4个词。


df = pd.read_csv('noun_index.csv')
text = df[['text_need']].to_list()
texts = [eval(i) for i in texts]

bigram = models.Phrases(texts)
texts = [bigram[line] for line in texts]

dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]

from scipy import sparse
vector = sparse.dok_matrix((1,len(dictionary)), dtype=np.float32)
result = corpus[0]
for i in range(len(result)):
    vector[0,result[i][0]] = result[i][-1]

vector1 = sparse.dok_matrix((1,len(dictionary)), dtype=np.float32)
result1 = corpus[1]
for i in range(len(result1)):
    vector1[0,result1[i][0]] = result1[i][-1]

from sklearn.metrics.pairwise import cosine_similarity
sim = cosine_similarity(vector,vector1)

返回的结果sim为：

array([[0.3840464]], dtype=float32)

Original: https://blog.csdn.net/sinat_36115361/article/details/124062551
Author: sinat_36115361
Title: Python自然语言处理：文档相似度计算（gensim.models）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528034/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python实现DBSCAN聚类

该博客配套代码、数据及PPT见百度网盘链接：https://pan.baidu.com/s/1j1iWnhXmQiAnQ7VnfsCIrQ提取码：6666 算法实战数据为31个…

人工智能 2023年7月6日
0074
获取相机内参和外参的方法

作者 | 童虎编辑 | 3D视觉开发者社区✨如果觉得文章内容不错，别忘了三连支持下哦😘~ 相机内参：是与相机自身特性相关的参数，比如相机的焦距、像素大小。相机外参：在世界坐标系中…

人工智能 2023年5月26日
0071
Microsoft Visual C++ 14.0 is required.

Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools…

人工智能 2023年7月5日
0052
基于VUE + Echarts 实现可视化数据大屏智慧校园可视化

前言 🚀 基于 vue、datav、Echart 框架的大数据可视化(大屏展示)源码，基于VUE+Echarts 制作，实现大数据可视化。通过 vue 组件实现数据动态刷新渲染，内…

人工智能 2023年6月28日
0067
论文笔记：Representation Learning with Contrastive Predictive Coding

对于无监督学习来说，互信息是一个非常重要的指标，它衡量了两个随机变量之间的相关性。在无监督学习中，利用对互信息的优化，通常我们能够得到更加好的特征表示。要做什么特征抽取是无监督…

人工智能 2023年6月1日
0061
Opencv学习笔记（五）形状识别

本次笔记的内容主要是实现对形状的检查，使用Opencv中的函数实现图片中图形的监测。 1、首先开始对原始图形进行预处理。 String path="../shapes.p…

人工智能 2023年7月18日
0058
PaddleOCR在 windows下的webAPI部署方案

很多小伙伴在使用OCR时都希望能过采用API的方式调用，这样就可以跨端跨平台了。本文将介绍一种基于python的PaddleOCR识方案。喜欢的可以关注公众号，获取更多内容。一、…

人工智能 2023年6月4日
0096
误差反向传播算法的原理是什么

问题：误差反向传播算法的原理是什么？详细介绍误差反向传播算法（Error Backpropagation Algorithm）是一种用于训练人工神经网络的广泛使用的算法。它通过…

人工智能 2024年1月4日
0047
目标检测中的常见评价指标

一、 IOU 如何判断对象检测算法运行良好呢？IOU交并比函数可以用来评价对象检测算法。它做的是计算两个边界框交集和并集之比。这两个边界框分别是bounding box 与 gro…

人工智能 2023年7月9日
0057
百度API调用（三）——语音识别

第一部分 Visual C++ 2010开发与新特性第1章 Visual C++ 2010开发环境简介 1 1.1 Visual C++ 2010简介 1 1.2 Visual …

人工智能 2023年5月25日
00125
python数据分析实战：近地面臭氧浓度预测

文章目录 * – 1.背景 – 2.数据处理 – + 原始数据中包含哪些信息？ + 我们需要什么形式的数据？ + 面对异常数据该如何处理？ &#…

人工智能 2023年6月19日
0069
OpenCV实践小项目(三) – 停车场车位实时检测

1. 写在前面今天整理OpenCV入门的第三个实战小项目，前面的两篇文章整理了信用卡数字识别以及文档OCR扫描，大部分用到的是OpenCV里面的基础图像预处理技术，比如轮廓检测…

人工智能 2023年7月19日
00122
roc曲线spss怎么做_SPSS单因素ROC曲线及多因素联合诊断ROC曲线绘制（原创手把手） – 医学统计和生物统计讨论版 -丁香园论坛…

最近被好几个师弟师妹问到ROC曲线的绘制，尤其是多因素联合诊断ROC曲线的绘制(如下图这样的怎么做)，所以干脆好好总结一下：一、单因素ROC曲线其实这个最简单，估计很多人也会，…

人工智能 2023年6月18日
0071
6.1 回归分析

import numpy as np from scipy import optimize import statsmodels.api as sm fire = np.loadt…

人工智能 2023年6月18日
0087
Python中的排序函数

列表排序 sort函数： list.sort(cmp=None,key=None,reverse=False) 对原列表进行排序，完成排序后，原列表变为有序列表。 sorted函数…

人工智能 2023年7月8日
0044
在半监督学习中，如何使用标记和未标记的数据

半监督学习中标记和未标记数据的使用在机器学习中，半监督学习是介于监督学习和无监督学习之间的一种学习方式。在半监督学习中，我们既有一部分标记的数据（已知其类别），也有一部分未标记的…

人工智能 2023年12月31日
0060

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Python自然语言处理：文档相似度计算（gensim.models）

大家都在看