关于 TWE-1 的使用

2023年6月4日上午11:16 • 人工智能 • 阅读 85

由于在做项目的时候需要与主题模型进行对比，被 TWE 这个坑困惑了好几天😫，在这里就做一下记录~

一、topical_word_embeddings 开源项目

二、gibbslda++ 的使用

链接：下载地址
GibbsLDA 有很多的软件版本，比如 C++ 版，Java 版，Python 版，MatLab 版。各种版本对输入数据的要求可能还不一样，综合来看，C++ 版本最稳定，运算速度也最快。但是，C++ 版本一般在 Linux 上运行，如果在 Windows 下运行，需要安装 Visual Studio。因此本人采用了虚拟机。虚拟机安装教程
把下载的文件放到 Linux 的一个目录下，如 /home/user/LDA/，然后执行如下命令

cd /home/user/LDA/
gunzip GibbsLDA++-0.2.tar.gz
tar -xf GibbsLDA++-0.2.tar
cd \GibbsLDA++-0.2

因为缺少头文件，需要我们手动进行添加

utils.cpp 找不到 ‘atof’ 函数，补上 #include <cstdlib></cstdlib>
lda.cpp 找不到 ‘printf’ 函数，补上 #include <cstdio></cstdio>

然后执行如下命令

make clean
make

文件格式是 dat
文件内容
第 1 行是总共的文章篇数
第 2 行到第 M 行就是所有文章，每篇文章占一行。对于英文来说，每个词之间已经用空格分开了，但是中文不行，所以需要要先对文章进行分词和去停用词。
文章编码是 ANSI
文章中不能有空行

lda -est [-alpha <double>] [-beta <double>] [-ntopics <int>] [-niters <int>] [-savestep <int>] [-twords <int>] -dfile <string>
</string></int></int></int></int></double></double>

参数 alpha 是 0.5
参数 beta 是 0.1（这个也可以先不管）
产生 100 个 topic
运算迭代 1000 次
每迭代 100 次之后的结果都保存出来
每个 topic 包含出现概率最大的前 20 个词
要运算的文件是 /home/seven/LDA/test.dat

src/lda -est -alpha 0.5 -beta 0.1 -ntopics 100 -niters 1000 -savestep 100 -twords 20 -dfile /home/seven/LDA/test.dat

结果文件存在测试文件所在的目录，对于本文就是 /home/seven/LDA/

model-final.others 设置的参数
model-final.phi 每个主题下的词概率分布
model-final.tassign 每篇文章的各个词被指定的主题编号
model-final.theta 每篇文章的主题概率分布
model-final.twords 每个主题下的前 20 个主题词
wordmap.txt 词典

三、TWE-1 的使用

为避免命名引起的错误，可以先把项目名称的’-‘给去掉
在 Terminal 输入下列代码即可

python train.py wordmap.txt model-final.tassign 14

（1）NameError: global name ‘train_sentence_topic’ is not defined

word2vec_inner.pyx 文件是 c 写的，需要先编译！
先是装 cython 这个库，python2 的话就装 cython0.20.2 版本，python3 版本装最新的就行。
可以直接解析 pyx 文件（参考文档），本人这里通过新建文件夹里实现的！

① 在项目下新建文件夹 foo，并在该文件夹下新建 init.py
② 把 word2vec_inner.pyx 文件复制到该文件夹下
③ 在该文件夹下新建 setup.py 文件

from distutils.core import setup
from distutils.extension import Extension
from Cython.Build import cythonize
import numpy
extensions = [
    Extension("word2vec_inner", ["word2vec_inner.pyx"],
              include_dirs=[numpy.get_include()])
]
setup(
    name="word2vec_inner",
    ext_modules=cythonize(extensions),
)

④ 在 Terminal 终端下进入 foo 文件夹，并执行如下命令

python setup.py build_ext --inplace

这个时候会出现这样的错误：

fatal error C1083: Cannot open include file: 'voidptr.h': No such file or directory

解决方法：

把 gensim\models 文件夹下的 voidptr.h 文件复制到你所用的 VS 的 VC\include 文件夹下（如：C:\Program Files (x86)\Microsoft Visual Studio 14.0\VC\include文件夹下）。
之后编译成功，生成了 .c 与 .pyd 文件，我们主要调用的是 pyd 文件。

（2）ImportError: cannot import name fblas
这是版本原因引起的，我们需要把 pyx 文件中的第 20 行代码

from scipy.linalg.blas import fblas

修改成

import scipy.linalg.blas as fblas

大功告成！！

Original: https://www.cnblogs.com/sevenkiki/p/16332902.html
Author: 琪有此理
Title: 关于 TWE-1 的使用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/567442/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Mask RCNN 超详细图文入门（含代码+原文）

文章目录前言一、实例分割 * 1.1 从分类到实例分割 1.2 实例分割的背景二、从RCNN、Fast RCNN、Faster RCNN，到Mask RCNN 2.1 RCN…

人工智能 2023年6月24日
0095
Stable Diffusion7

它也写到第七部了.. Stability AI宣布，Stable Diffusion 2.0版本上线！1.0版本在今年8月出炉，三个月不到，还热乎着呢，新版本就来了。深度学习文本…

人工智能 2023年7月30日
0054
我为何在 CSDN 乐在其中

文章目录写在前面成为博主究竟能得到什么？ * 内在提升耀眼名片丰富眼界提升知名度博客=》变现写在最后写在前面各位伙伴大家好，我是几何心凉，一位不是很大的也不是很小…

人工智能 2023年7月31日
0058
【附源码】Python计算机毕业设计软考刷题系统

项目运行环境配置：Pychram社区版+ python3.7.7 + Mysql5.7 + HBuilderX+list pip+Navicat11+Django+nodejs。 …

人工智能 2023年6月27日
0070
协同过滤算法是否受到平台和商业利益的影响

关于协同过滤算法是否受到平台和商业利益的影响介绍协同过滤算法是一种常用的推荐系统算法，用于根据用户的历史行为和其他用户的行为模式，预测用户可能喜欢的物品或项目。然而，由于协同过…

人工智能 2024年1月2日
0021
张量在强化学习中的应用有哪些

张量在强化学习中的应用在强化学习中，张量是一种多维数组，广泛应用于构建状态、动作和奖励等关键数据的表示。张量不仅可以用于存储数据，还可以执行各种张量操作，如乘法、加法和切片等。通…

人工智能 2024年1月1日
0037
关于label smoothing(标签平滑)

目的： label smoothing常用于分类任务，防止模型在训练中过拟合，提高模型的泛化能力。意义：对于分类问题，我们通常使用one-hot编码，”非黑即白&#…

人工智能 2023年7月22日
0041
【语音信号处理】短时傅立叶变换的频谱图详细教程

文章目录 * – 一.语法与参数介绍 – 二.频谱图的默认值 – 三.沿 x 轴的频率 – 四.频谱图和瞬时频率一.语法与参数介绍…

人工智能 2023年5月25日
00182
图像平滑处理

图像滤波是图像处理和计算机视觉中最常用、最基本的操作。主要是去除图像中的噪声，因为图像平滑处理过程中往往会使得图像变的模糊，因此又叫模糊处理。基本原理图像平滑的基本原理是，将噪…

人工智能 2023年6月19日
0068
线性动态系统LDS（别名:卡尔曼滤波）

1.概率图模型加上时间维度，变成动态系统 2.HMM是一个典型的动态系统，它的隐状态是离散的 3. 线性动态系统（LDS）是隐变量为连续时的动态系统 4.LDS又称卡尔曼滤波，…

人工智能 2023年5月27日
0076
医生接诊时间难分配？看DHTMLX Scheduler如何助力门诊管理系统优化升级

我们院有一个门诊管理系统，能对不同病种进行分类管理和简要展示，可以为患者创建定制的电子病历。由于最近接诊人数增多，我们要记录很多数据，数据会很繁杂，而且不能有效分配医生时间，导致医…

人工智能 2023年6月28日
0085
餐厅订单数据分析

1.餐厅订单数据分析 1.1 针对订单order_id – 什么菜最受…

人工智能 2023年7月15日
0056
统计十进制数对应二进制数中1的个数

壮壮的学习记录文章前瞻三种方法拿下它(方法都很巧妙，但是重点是第二、三种方法) * 一、除和取模法二、移位操作符法 – 知识补充三、位操作符法 – …

人工智能 2023年6月26日
0073
关于Double的非空判断

今天在对elasticsearch聚合查询获取Double值时，忽然发现最大、最小、平均值分别为： Double.POSITIVE_INFINITY、Double.NEGATIVE…

人工智能 2023年7月15日
0046
YOLOv5学习过程中的问题

问题1 在安装requirements时出现下述错误 ERROR: Could not build wheels for pycocotools, which is require…

人工智能 2023年7月9日
0058
MySQL笔记总结

1.清空表数据，保留结构 truncate table 表名 2.备份表 create table 表名 select * from 表名批量插入数据 3.单次插入数据方法 IN…

人工智能 2023年6月27日
0082

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

关于 TWE-1 的使用

一、topical_word_embeddings 开源项目

二、gibbslda++ 的使用

三、TWE-1 的使用

大家都在看