【机器学习之LDA主题模型】

2023年6月15日下午3:21 • 人工智能 • 阅读 95

文章目录

前言
一、LDA主题模型是什么？
*
1.LDA主题模型原理
2.LDA主题模型推演过程
三、问题总结
*
1.怎么确定LDA的标题个数？
四、拔高亮点
*
1. 如何用主题模型解决推荐系统中的冷启动问题?
2.如何解决系统冷启动问题呢？
总结

前言

随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习 LDA主题模型的基础内容。

一、LDA主题模型是什么？

1.LDA主题模型原理

其实说到LDA能想到的有两个含义，
一种是线性判别分析（Linear Discriminant Analysis），
一种说的是概率主题模型：隐含狄利克雷分布（Latent Dirichlet Allocation，简称LDA）。
现在讨论的是主题模型这个东西，它通俗点说吧，就是可以将一篇文中的主题以概率分布的形式来给出，从而通过去分析一些文档抽取出来它们的主题（分布）以后，就可以根据主题（分布）进行主题聚类或文本分类。同时，它是一种典型的词袋子模型，也就是说一篇文档是由一组词构成，词与词之间没有先后顺序的关系。除此之外，一篇文章它可以包含多个主题，文章中每一个词都由是其中的一个主题生成。
我们其实很简单就可以想到我们是如何生成的文章？就是给几个主题，然后按一定的概率去选择主题，以一定的概率选择这个主题所包含的词汇，最终组合成一篇文章。LDA就是反过来的，给它一篇文章，去推断该文章的主题分布是什么。

2.LDA主题模型推演过程

我们先从一个类似LDA的模型开始，它就是PLSA模型，它类型属于有向边概率图模型。比如说我有一批数据，有部分是垃圾邮件，有部分是正常邮件，来个新数据，我怎么判定它是不是垃圾邮件？我们首先需要建立词汇表（使用现有的单子字典或者将邮件里的单词统计下得到字典），然后随机一个矩阵，经过训练后让这个矩阵去表示那个词，为啥不用onehot呢？因为比较稀疏，很容易梯度爆炸。然后套到贝叶斯公式里: P(C|X) = P©*P(X|C) / P(X)，会有个问题，它没有办法解决一词多意或者多词一意的问题，会导致我们计算文本之间相似度时候的不准确性。我们找到个解决办法就是为每一篇文档加上一个主题。其实它核心的过程就是选定文章生成主题，确定主题生成词。在这个过程里，我们其实并没有关注词和词之间的出现顺序，所以PLSA是一种词袋子方法。它主要应用于信息检索，过滤，自然语言处理等领域，考虑到词分布和主题分布，使用EM最大期望算法去学习参数。

然后我们将PLSA模型加上一个贝叶斯框架就是我们的LDA主题模型了，换句话说LDA就是PLSA的贝叶斯版本，朴素贝叶斯的文本分类问题里的两个基础条件是：①条件独立；②每个特征的重要性都是一样的。

LDA在选主题和选词两个参数都弄成随机的，而且加入了一个dirichlet先验随机确定；但是PLSA中主题分布和词分布是唯一确定的，用EM极大似然估计算法去推断两未知的固定参数，这也是它俩之间最大的区别。

; 三、问题总结

1.怎么确定LDA的标题个数？

基于经验进行主观的判断、不断地调试、操作性强、最为常用；
基于困惑度（主要是比较两个模型之间的好坏）；
使用Log-边际似然函数的方法，也比较常用；
计算主题向量之间的余弦距离，KL距离等

四、拔高亮点

1. 如何用主题模型解决推荐系统中的冷启动问题?

推荐系统中的冷启动问题就是指在没有大量用户数据的情况下如何给用户进行个性化推荐，目的是最优化点击率、转化率或用户的体验（用户停留时间、留存率等）。冷启动问题一般分为用户冷启动、物品冷启动和系统冷启动三大类。解决冷启动问题的方法一般是基于内容的推荐。从三个角度进行分析：

对用户冷启动来说，我们希望根据用户的注册信息（如：年龄、性别、爱好等）、搜索关键词或者合法站外得到的其他信息（例如用户使用Facebook账号登录，并得到授权，可以得到Facebook中的朋友关系和评论内容）来推测用户的兴趣主题。得到用户的兴趣主题之后，我们就可以找到与该用户兴趣主题相同的其他用户，通过他们的历史行为来预测用户感兴趣的电影是什么。
对物品冷启动来说，我们也可以根据电影的导演、演员、类别、关键词等信息推测该电影所属于的主题，然后基于主题向量找到相似的电影，并将新电影推荐给以往喜欢看这些相似电影的用户。可以使用主题模型（PLSA、LDA等）得到用户和电影的主题。
对用户冷启动来说，我们把每个用户看作主题模型中的一篇文章，用户对应的特征作为文档中的单词，这样每个用户可以表示成一种词袋子特征的形式。通过主题模型去学习之后，经常共同出现的特征将会对应同一个主题，同时每个用户也会相应地得到一个主题分布。每个电影的主题分布也可以用类似的方法去得到。

2.如何解决系统冷启动问题呢？

首先可以得到每个用户和电影对应的主题向量，除此之外，还需要知道用户主题和电影主题之间的偏好程度，也就是哪些主题的用户可能喜欢哪些主题的电影。当系统中没有任何数据的时侯，我们需要一些先验知识来指定，并且由于主题的数目通常比较小，随着系统的上线，收集到少量的数据之后我们就可以对主题之间的偏好程度得到一个比较准确的估计了。

总结

以上就是今天要讲的内容，本文仅仅简单介绍了LDA主题模型的使用

Original: https://blog.csdn.net/m0_62571112/article/details/124572035
Author: 不见山_
Title: 【机器学习之LDA主题模型】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/615068/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python取csv某几行_python下pandas库中读取指定行或列数据（excel或csv）

pandas中查找excel或csv表中指定信息行的数据(超详细) 关键！！！！使用loc函数来查找。话不多说，直接演示：有以下名为try.xlsx表： 1.根据index查询…

人工智能 2023年7月7日
00104
（二）双线性插值python实现

这里写目录标题 * – + （一）原始图像 + （二）双线性插值原理 + （三）python实现 + * – 1. 安装库 – 2. pytho…

人工智能 2023年6月25日
0096
机器学习中的数学——距离定义（八）：余弦距离（Cosine Distance）

分类目录：《机器学习中的数学》总目录相关文章：· 距离定义：基础知识· 距离定义（一）：欧几里得距离（Euclidean Distance）· 距离定义（二）：曼哈顿距离（Manh…

人工智能 2023年6月23日
0075
python爬虫小案例

案例1：爬取搜狗指定词条对应的搜索结果（简易网页采集器） import requests url = "https://www.sogou.com/web" #…

人工智能 2023年6月19日
0084
cbow word2vec 损失_DL4NLP——词表示模型（二）基于神经网络的模型：NPLM；word2vec（CBOW/Skip-gram）…

本文简述了以下内容：神经概率语言模型NPLM，训练语言模型并同时得到词表示 word2vec：CBOW / Skip-gram，直接以得到词表示为目标的模型 (一)原始CBOW(…

人工智能 2023年6月10日
0086
相机标定、相机姿态和单目视觉测距

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年5月26日
0076
Ae 效果快速参考：音频

音频 Audio 调制器 Modulator 通过改变频率和幅度将颤音和颤音添加到音频中。 [En] Vibrato and vibrato are added to the au…

人工智能 2023年5月25日
0088
【数据压缩】作业3：分析WAV文件

一.WAV简介 1.简介 WAV文件是在PC机平台上很常见的、最经典的多媒体音频文件,最早于1991年8月出现在Windows 3.1操作系统上,文件扩展名为WAV,是WaveFo…

人工智能 2023年5月27日
0093
【强化学习】深入浅出强化学习–机器人找金币

定义和初始化首先自定义环境，自定义的环境将继承 gym.env环境。在初始化的时候，可以指定环境支持的渲染模式（例如 human, rgb_array, ansi)以及渲染环境的…

人工智能 2023年6月30日
0077
pytorch实现卷积

官方文档 CONV2D 文档 https://pytorch.org/docs/stable/generated/torch.nn.Conv2d.html TORCH.NN.FUN…

人工智能 2023年7月23日
0065
ResNet网络残差块的作用

ResNet简单介绍 ResNet是15年提出的经典网络了。在ResNet提出之前，人们发现当模型层数提升到一定程度后，再增加层数就不再能提升模型效果了——这就导致深度学习网络看似…

人工智能 2023年6月23日
0094
数据集划分，Oxford Flower102花卉分类数据集，分为训练集、测试集、验证集

数据集划分，Oxford Flower102花卉分类数据集，分为训练集、测试集 Oxford Flower102数据集链接：https://www.robots.ox.ac.uk/…

人工智能 2023年6月19日
00111
Beam Search快速理解及代码解析

Beam Search 简单介绍一下在文本生成任务中常用的解码策略Beam Search（集束搜索）。生成式任务相比普通的分类、tagging等NLP任务会复杂不少。在生成的时候…

人工智能 2023年5月28日
0097
开课吧深度学习与神经网络

在现实世界中，许多问题可以归类为分类或识别或选择。例如，走，下一个棋子会掉在哪里。为了研究这类问题，学术界开发了一种叫做”神经网络”的学习策略。这个词听起来…

人工智能 2023年7月14日
0060
1.直流无刷电机BLDC转速计算推论

前提：可以先看电机专栏的 2.有霍尔传感器BLDC换向原理_lakers_cbb的博客-CSDN博客。笔记是先从有道云笔记整理的，可能格式有些不对，如果想看有道云笔记，可以私信…

人工智能 2023年6月26日
0071
【Python】Python爬虫豆瓣电影数据并进行数据分析

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月4日
0053

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31