gensim进阶：TFIDF模型训练以及查找具体词汇的tfidf值

2023年5月27日下午11:12 • 人工智能 • 阅读 76

经过整整一天的不懈奋斗，我终于破解了gensim的语料导入！

from gensim import models
from gensim import corpora
from gensim.models import TfidfModel

with open("文件.txt","r"，encoding='utf-8') as f:
    txts = eval(f.read())  # 用eval()把字符串化的列表还原为列表

dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]
print(corpus)
tf_idf_model = TfidfModel(corpus, normalize=False)
models.TfidfModel.save(tf_idf_model,'tfidf')         # 保存tfidf模型
with open('词典.txt', 'a', encoding='utf-8')as f1:
    f1.write(str(dictionary.token2id))               # 保存dictionary
with open('词频.txt', 'a', encoding='utf-8')as f2:
    f2.write(str(corpus))                            # 保存corpus

从训练好的模型中查询特定文本中特定词汇：

加载tfidf模型
tfidf = TfidfModel.load(r"0117tfidfnew")

查找tfidf
word_tf_tdf = list(tfidf[[(int(id), int(tf))]])
value = word_tf_tdf[0][1]

看了很多大佬写的gensim详解，首先要了解三个最简单基础的概念：导入语料（texts）、dictionary和corpus。

导入语料的格式（多个文本）
texts = [['文本1'],['文本2'],['文本3'],......,]]

texts转换为gensim中进行计算的dictionary和corpus
dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]

dictionary是一个字典，其中包含了出现在全部文本中的所有词的id，一个词只有一个id，从0开始编号。

corpus是一个元组嵌套列表，表示了每个文本中词语对应的id及词频。

dictionary的格式
dictionary  = {"词语1":"id1","词语2":"id2","词语3":"id3",......,"词语n":"idn"}

corpus的格式
corpus = [[(文本1第1个词的id),(文本1第1个词的tf),(文本1第2个词的id),(文本1第2个词的tf),......,(文本1第n个词的id),(文本1第n个词的tf)],......,]]

在已经保存好的tfidf模型中查询在特定文本中的特定词语的tfidf，需要进行好几次映射：

①从dictionary中查询词语的id

②从corpus中按照文件和id查询词语的tf（词频）

③按照（id，tf）的格式从模型中提取该词汇的tfidf值

我的解决方法非常粗暴：将dictionary和corpus重新编辑为一个嵌套词典，格式为：

idTfDict = {
"第1个文本的名称.txt":{"第1个词语的id":"第1个词语的tf值",......,"第n个词语的id":"第n个词语的tf"},
"第2个文本的名称.txt":{"第1个词语的id":"第1个词语的tf值",......,"第p个词语的id":"第p个词语的tf"},
......

"第m个文本的名称.txt":{"第1个词语的id":"第1个词语的tf值",......,"第q个词语的id":"第q个词语的tf"}
}

实现的代码是：

获取文本名称列表，作为idTF词典新的key
import os
file_list = os.listdir(r"存放多个文本的文件夹路径")

with open("词频.txt","r",encoding = "utf-8") as f:
    corpus = f.read()
    corpus_list = eval(corpus)

将两个列表合并为dictionary
idTfDict = dict(zip(file_list,corpus_list))

最后，实现先从词汇-id词典中查找id，再从id-tf词典中查找tf，再分别填入（id，tf）查找tfidf：

先用词语-id词典查找id
with open(r"C:\Users\27805\PycharmProjects\pythonProject3\词典new.txt", 'r+', encoding='utf-8') as f2:
    ids = eval(f2.read())  # id词典
    id = ids['词语']

用json读取id词频，查询tf
with open(r"C:\Users\27805\PycharmProjects\pythonProject3\idTf
Dict.txt",'r',encoding='utf-8') as f1:
    cont = f1.read()
    dic = json.loads(cont)
    tf = dic['文本.txt'][id]

tfidf = TfidfModel.load("tfidf")
word_tf_tdf = list(tfidf[[(int(id),int(tf))]])

Original: https://blog.csdn.net/weixin_51143561/article/details/122541859
Author: Yae Yang
Title: gensim进阶：TFIDF模型训练以及查找具体词汇的tfidf值

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528040/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

聚类算法学习

聚类 K-means 法 * 基本思想 Matlab代码最大最小距离法 * 基本思想 Matlab代码测试结果比较 K-means 法基本思想此处把数据中每一…

人工智能 2023年5月31日
0083
小波变换的尺度函数和小波函数分析

低频数据决定图像大致轮廓,而高频数据决定图像的清晰度小波变换能实现傅立叶变换无法分析的非平稳信号的频谱分析。之前在对小波变换进行理解的时候，只知道是对信号进行分解。直到详细理解时…

人工智能 2023年6月20日
00100
如何使用交叉验证评估逻辑回归模型的性能

详细介绍在机器学习领域中，交叉验证是一种常用的评估模型性能的方法。逻辑回归是一种常用的分类算法，通过拟合二进制或多分类数据来预测结果。本文将详细介绍如何使用交叉验证来评估逻辑回归…

人工智能 2023年12月31日
0042
概率分布：二项分布

二项分布二项分布(binomial distribution)就是在重复n次独立的伯努利试验(Bernoulli experiment)中，所期望结果出现次数的概率分布。伯努利…

人工智能 2023年6月11日
0092
《计算机视觉基础知识蓝皮书》第5篇目标检测基础

本专栏将系统性地讲解计算机视觉基础知识、包含第 1篇机器学习基础、第2篇深度学习基础、第3篇卷积神经网络、第4篇经典热门网络结构、第5篇目标检测基础、第6篇网络搭建及训练…

人工智能 2023年6月17日
0084
jupyter notebook 打开指定路径文件

最近做作业，需要用到jupyter notebook，但是每次我们进去的时候打开的都是默认路径，怎么切换到指定的路径，是一个问题。我对CSDN上已存在的几种方法进行对比，找到了最…

人工智能 2023年7月5日
00113
运行torchAudio下的wav2vec2.0样例

torchAudio在0.10.0版本中已经兼容了hubert的代码（现在已经0.11.0了）。然而，我连wav2vec2.0的代码都没跑过，官方文档也给出了一个wav2vec2….

人工智能 2023年5月27日
0095
基于数据挖掘的智能停车场运营数据分析系统

温馨提示：文末有 CSDN 平台官方提供的学长 Wechat / QQ 名片 :) 项目简介随着大数据分析技术的发展，智慧城市、智慧停车的领域正在发展，智慧停车场可以采集、记录以…

人工智能 2023年7月18日
0081
机器学习之回归

机器学习之回归 * – + 什么是人工智能（AI） – 回归 – + 第一步：构建模型 + 第二部：功能完善 + 第三步：选取最好的结果 + l…

人工智能 2023年6月18日
0085
毕业设计：深度学习卷积神经网络垃圾分类系统 – 深度学习神经网络图像识别垃圾分类算法小程序

文章目录 0 简介 1 背景意义 2 数据集 3 数据探索 4 数据增广(数据集补充) 5 垃圾图像分类 * 5.1 迁移学习 – 5.1.1 什么是迁移学习？ 5.1…

人工智能 2023年7月12日
0066
python写因子策略_python量化策略——Fama-French三因子模型（回归获取alpha）阿尔法α策略。…

简单的alpha策略，选取某一时间点所有股票的相关信息ps、pb、pe等。用三因子回归获取alpha，分别用每只股票计算。选取排名靠前的n只股票计算组合净值计算结果和画图…

人工智能 2023年6月18日
00119
【设计模式】代理模式——静态&动态代理

【设计模式】代理模式——静态&动态代理文章目录【设计模式】代理模式——静态&动态代理 * 一：代理模式概述二：代理模式结构三：静态代理四：JDK动态代理 …

人工智能 2023年7月31日
0051
Poisson回归和负二项回归该如何分析

1.前提条件在分析之前，首先我们要了解Poisson分布和负二项回归分布的适用条件，它们均需满足以下三个条件： 1.平稳性：发生频数的大小，只与单位大小有关系。(比如1万为单位，…

人工智能 2023年6月17日
0066
PyTorch和其他深度学习框架（如TensorFlow）相比的优势是什么

介绍 PyTorch是一个基于Python的开源深度学习框架，它提供了高效的张量操作和自动求导机制，被广泛应用于机器学习和深度学习任务中。与其他深度学习框架（如TensorFlow…

人工智能 2024年1月3日
0067
数据的清洗

数据分析师80%的时间都花在数据清洗上！好的数据质量，应该满足”完全合一” • 完整性：数据是否存在空值，字段是否完善，是否有漏掉 • 全面性：观察某一列…

人工智能 2023年7月17日
0067
tensorflow环境搭建教程

tensorflow环境搭建教程－已失效前言一、下载anaconda 二、修改Python版本三、搭建tensorflow环境四、安装其他库模块总结文章目录前言一、…

人工智能 2023年5月26日
0070

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

gensim进阶：TFIDF模型训练以及查找具体词汇的tfidf值

大家都在看