LDA（Latent Dirichlet allocation）

2023年5月31日上午3:21 • 人工智能 • 阅读 77

2.3 二项分布及其共轭先验——Beta分布

贝叶斯网络

以随机变量做节点所形成的有向无环图。

朴素贝叶斯：

可以胜任许多文本分类的问题。
无法解决语料中 一词多义和 多词一义的问题——它更像是词法分析，而非语义分析。
如果使用词向量作为文档的特征， 一词多义和 多词一义会造成计算文档间相似度的不准确性。
可以通过增加”主题”的形式，一定程度的解决上述问题：

一个词可能被映射到多个主题中—— 一词多义

多个词可能被映射到某个主题的概率很高—— 多词一义

主题模型

PLSA/PLSI：probabilistic latent semantic analys. 可用EM算法来算（两层的贝叶斯网络）

LSI：Latent Semantic Indexing

SVD：

LDA（Latent Dirichlet Allocation）：无监督/降维/聚类（三层的贝叶斯网络）

（注意：区分LDA（Linear Discriminant Analysis）线性判别分析，有监督，有监督方式的降维）

2.1 主题模型的直观理解

2.2 共轭先验分布

2.3 二项分布及其共轭先验——Beta分布

2.3.1 Bete分布

其中，Beta分布具有 两个参数： α ， β

注：Bete期望值和最大值点的位置不一定一样

2.3.2 二项分布与其先验分布

先验概率和后验概率的关系

2.3.3二项分布与先验举例

2.4 共轭先验的直接推广

2.4.1 Dirichlet分布

2.4.2对称Dirichlet分布

Alpha尽量的不要太大，减少先验的占比

2.5 LDA的解释

2.5.1 判别模型和生成模型

判别模型：线性回归，逻辑回归，决策树，随机森林，SVM，CNN，CRF

生成模型：LDA（Latent Dirichlet Allocation），NB（贝叶斯网络），HMM

2.5.2 LDA的解释

LDA是一个生成模型，大概流程如下：

(1) 共有m篇文档，一共涉及K个主题；

(2) 每篇文章（长度为Nm）都有各自的主题分布，主题分布是多项分布，该多项分布的参数服从对称Dirichlet分布，该对称Dirichlet分布的参数为 α ， k。

(3) 每个主题都有各自的词分布，词分布为多项分布，该多项分布的参数服从对称Dirichlet分布，该对称Dirichlet分布的参数为 β ， k。

(4) 对于某篇文章中的第n个词，首先从该文章的主题分布中采样一个主题，然后在这个主题对应的词分布中采样一个词。不断重复这个随机生成过程，直到m篇文章全部完成上述过程。

3.LDA总结

（1）由于在词和文档之间加入主题的概念，可以较好的解决 一词多义和 多词一义的问题。

（2）在实践中发现，LDA用于短文档往往效果不明显——这是可以解释的：因为一个词被分配给某个主题的次数和一个主题包括的词数目尚未收敛。往往需要通过其他方案”连接”成长文档。

（3）用户的评论/Twitter/微博。LDA可以和其他算法 相结合。首先使用LDA将长度为Ni的文档降维到K维（主题的数目），同时给出每个主题的概率（主题分布），从而可以使用if-idf继续分析或直接作为文档的特征进入聚类或者 标签传播算法——用于社区发现等问题。

LDA实现

4.1 手撕LDA

4.2 LDA的其它库实现

Genism，开源实现库等

5.LDA应用场景

针对国内某石油企业的例行检查处理结果，试通过主题模型方案，分析例检结果中最突出的问题是什么？

2.聊天记录分析感兴趣话题

数据处理流程：

（1）获取QQ群聊天记录：txt文本格式（图1）

(2)整理成”QQ号/时间/留言”的规则形式

正则表达式
清洗特定词：表情，@xx
使用停止词库
获得csv表格数据（图2）

(3)合并相同QQ号的留言

长文档利于计算每人感兴趣话题（图3）

(4)LDA模型计算主题

调参与可视化

(5)计算每个QQ号及众人感兴趣话题

附录

6.1 LDA中参数的学习

6.2超参数的确定

参考文献

Original: https://blog.csdn.net/zhao_crystal/article/details/121317941
Author: zhao_crystal
Title: LDA（Latent Dirichlet allocation）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/548259/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pandas归一化某一列_十分钟带你了解pandas常用知识

pandas常用知识一、读取csv文件为dataframe 二、dataframe的数据概况三、取列数据四、取行数据五、取某一单元格数据六、缺失值处理七、归一化处理八…

人工智能 2023年7月7日
0073
openPCdet 实现自定义点云数据集训练

openPCdet自定义数据集训练 * – openPCdet 代码框架 – 实现自定义数据集导入的流程 – 自定义数据集类的编写 openPC…

人工智能 2023年7月5日
00149
python opencv 图像处理 – 使用opencv图像二值化（完整代码体验）

最近继续学习了 python opencv 图像二值化处理的方法。同时做了 h5 版本的，如上图。可以随时预览，分享一下，希望多少有些帮助吧。目前只是个Demo，后面会逐步完善…

人工智能 2023年6月18日
0079
python pandas 分割DataFrame中的字符串及元组

python pandas 分割DataFrame中的字符串类型数据的方法文章目录 1.使用str.split()方法 2.使用join()与split()方法结合 3. 使用a…

人工智能 2023年6月19日
0055
matplotlib.pyplot.boxplot()绘制箱型图

目录一、matplotlib.pyplot.boxplot()语法二、绘制箱型图 ①绘制简单箱型图 ②各个参数绘制箱型图（1）notch参数（bool值，是否凹口的形式展现箱…

人工智能 2023年7月6日
0087
目标检测第4步：显卡、GPU、CUDA、cuDNN的介绍及如何在Windows 10下安装cuDNN？

目录（请先看置顶博文）本博打开方式！！！请详读！！！请详读！！！请详读！！！_Cat-CSDN博客一、显卡和GPU的关系二、CUDA是什么？三、cuDNN是什么？四、cu…

人工智能 2023年7月9日
0076
语义分割系列15-UPerNet（pytorch实现）

UPerNet：《Unified Perceptual Parsing for Scene Understanding》发布于2018ECCV。引文人类在识别物体上往往是通过…

人工智能 2023年6月23日
0084
微信小程序游戏开发│石头剪刀布游戏（附源码）

石头剪刀布游戏功能中一方是电脑，另一方是玩家。游戏时电脑一直快速切换出拳显示，当玩家选择底部的剪子、石头、布后，则电脑出拳停止，并在紫色方块中显示用户的出拳图片。游戏判断出输赢结果…

人工智能 2023年5月30日
0087
PyTorch Geometric (PyG) 入门教程

诸神缄默不语-个人CSDN博文目录 PyTorch Geometric是PyTorch 1的几何图形学深度学习扩展库。本文旨在通过介绍PyTorch Geometric（PyG）中…

人工智能 2023年7月23日
00153
Jupyter 介绍、安装及使用

Jupyter 介绍、安装及使用一.Jupyter介绍 Jupyter Notebook是一个开源的web应用程序，可以使用它来创建和共享包含实时代码、方程、可视化和文本的文档。…

人工智能 2023年7月3日
0081
机器学习—K-means聚类、密度聚类、层次聚类理论与实战

文章目录 * – 引言 – 一、K-means聚类 – + 1.算法原理 + 2.算法参数、属性、方法介绍 + 3.算法实战 – 二…

人工智能 2023年6月2日
00112
【python】json.dumps() 与 json.loads() 用法

文章目录一、JSON介绍二、Python和Json数据类型的映射三、json.load(s)与json.dump(s)区别四、测试 * 4.1 json.dumps() 4…

人工智能 2023年7月6日
0076
python 中，sklearn包下的f1_score、precision、recall使用方法，Accuracy、Precision、Recall和F1-score公式，TP、FP、TN、FN的概念

目录 sklearn.metrics.f1_score sklearn.metrics.precision_score sklearn.metrics.recall_score A…

人工智能 2023年7月26日
00218
【拓展】基于YOLOv5的王者荣耀目标检测4-对电脑屏幕进行实时检测

基于YOLOv5的王者荣耀目标检测4-拓展-对电脑屏幕进行实时检测一、前言二、正文 * 1、思路 2、实践 – + 2.1、detect.py结构 2.2、使用MS…

人工智能 2023年7月9日
00100
【轴承故障诊断】一维深度卷积网络实现西储大学轴承故障数据分类

一、项目简介这是本科毕设做的实验内容的一部分，用一维深度卷积网络实现西储大学轴承故障数据的分类，并用t-SNE可视化展示分类的效果，一维深度卷积网络和普通两级卷积网络相比，确实会…

人工智能 2023年6月30日
00105
朴素贝叶斯算法之鸢尾花特征分类【机器学习】【伯努利分布,多项式分布,高斯分布】

文章目录一.前言 * 1.1 本文原理 1.2 本文目的二.实验过程 * 2.1使用BernoulliNB（伯努利分布）给鸢尾花分类，写出代码，对运行结果截图并对分类结果进行分…

人工智能 2023年6月30日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

LDA（Latent Dirichlet allocation）

2.1 主题模型的直观理解

2.2 共轭先验分布

2.3 二项分布及其共轭先验——Beta分布

2.3.1 Bete分布

2.3.2 二项分布与其先验分布

2.3.3二项分布与先验举例

2.4 共轭先验的直接推广

2.4.1 Dirichlet分布

2.4.2对称Dirichlet分布

2.5 LDA的解释

2.5.1 判别模型和生成模型

2.5.2 LDA的解释

4.1 手撕LDA

4.2 LDA的其它库实现

6.1 LDA中参数的学习

6.2超参数的确定

大家都在看