lda2vec (4)——计算理论

2023年5月28日上午11:08 • 人工智能 • 阅读 104

word2vec中：上下文向量是枢轴词语的词向量
LDA中：上下文向量是文档向量
lda2vec中：上下文向量=词向量+文档向量

区分语料中随机抽取的词语和负采样词语的损失函数：

当损失函数最小的时候能够把语料中的词语与负采样词语区分开。

其中cj代表上下文向量（context vectors），wj代表词向量，dj代表文档向量。这里是把词向量与文档向量相加作为上下文向量的初始值。

这里是文档向量的表示方法，aji是文档向量中每个主题的权重，t0是整个语料中每个主题的主题向量，t0和wj是同维向量。我们可以通过计算词向量与该主题的相似程度从而得到可以表示该主题的相关词汇，相似程度=t0*wj。
lda2vec (4)——计算理论

文档向量中的权重会根据每个文档变化，但是主题不会发生变化，整个语料中的主题是固定的。

狄利克雷抽样
为了能让权重像稀疏的狄利克雷分布，lda2vec没有从狄利克雷分布中抽样，而是选择优化狄利克雷函数，使潜在的主题向量尽量稀疏，使文档权重有意义。使主题向量更好描述，并且产生连贯的词语。

2.
最终的目标函数：

3.
正则化协方差（可以改进的地方）
lda2vec没有从狄利克雷分布中抽样，而是优化狄利克雷函数。这种做法可以对相同主题进行处理。处理方法如下：
（1）正则化协方差
（2）penalize the determinant of the topic covariance matrix.协方差矩阵可以计算主题向量i和主题向量j的相关度。determinant能够penalize协方差矩阵的复杂度。所以能够在正则化公式中添加一个损失函数：

参考文献：https://multithreaded.stitchfix.com/blog/2016/05/27/lda2vec/#topic=38&lambda=1&term=

Original: https://blog.csdn.net/DL_Iris/article/details/121911736
Author: DL_Iris
Title: lda2vec (4)——计算理论

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531139/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

OpenCV：08图像金字塔

目录图像金字塔 * 图像金字塔介绍高斯金字塔（Gaussian pyramid） – 向下采样向上采样拉普拉斯金字塔图像直方图 * 图像直方图的基本概念直方…

人工智能 2023年6月22日
0064
HCIA VLAN间通信多臂路由与单臂路由

一、前言前面我们讲过交换机VLAN的HYBRID模式可实现跨VLAN通信，但必须是同网段的IP，在讲路由器原理的时候说过路由器可以隔离广播域并将不同网段连在一起实现通信。很明显…

人工智能 2023年6月27日
0086
YOLOv5的Tricks | 【Trick13】YOLOv5的detect.py脚本的解析与简化

如有错误，恳请指出。在之前介绍了一堆yolov5的训练技巧，train.py脚本也介绍得差不多了。之后还有detect和val两个脚本文件，还想把它们总结完。在之前测试yolo…

人工智能 2023年6月17日
00137
Flume笔记

目录 1. Flume 概述 * 1.1 Flume 定义 1.2 Flume 基础架构 – 1.2.1 Agent 1.2.2 Source 1.2.3 Sink 1…

人工智能 2023年6月26日
0066
Python中把字典dic转换为DataFrame

有时候，需要把dic转换为DataFrame格式，便于查看和存储。假设有以下的dic： dic={‘a’:”1″, ‘b’: “2”, ‘c’:’3′} 本文来探讨一下把它转换为…

人工智能 2023年7月7日
0061
python控制ppt翻页_python 操作ppt

转自其他博客实测可用加载库 import os import pandas as pd from pptx import Presentation from pptx.util…

人工智能 2023年7月9日
0053
商务数据分析与应用类毕业论文文献有哪些？

本文是为大家整理的商务数据分析与应用主题相关的10篇毕业论文文献，包括5篇期刊论文和5篇学位论文，为商务数据分析与应用选题相关人员撰写毕业论文提供参考。 1.[期刊论文]数据分析类…

人工智能 2023年6月11日
0059
目标检测–YOLO

YOLO v1 论文思想： 1.1 将一幅图像分成S*S个网格，如果某个object的中心落在这个网格中，则这个网格就负责预测这个object 1.2 每个网格要预测B个bound…

人工智能 2023年7月11日
0045
【计算机组成原理】IEEE 754

移码的定义移码=真值+偏置值(使用补码计算) 一般情况下8位移码偏置值为2n-1 十进制(原码)原码反码补码移码-0（-128）1000 00001111 11111000 00…

人工智能 2023年6月28日
0082
11个常见的分类特征的编码技术

机器学习算法只接受数值输入，所以如果我们遇到分类特征的时候都会对分类特征进行编码，本文总结了常见的11个分类变量编码方法。 ; 1、ONE HOT ENCODING 最流行且常用的…

人工智能 2023年7月1日
0076
超分辨率学习

超分辨率学习传统图像超分辨率重建方法 * 基于插值基于重建基于学习（机器学习）基于深度学习获取低分图像的方法 * 简单下采样加入模糊和噪声的下采样超分图像的评价指标 …

人工智能 2023年7月13日
0057
PaddleOCR文字检测、标注与识别详细记录

PP-OCR文字检测与识别一、配置Paddle环境创建虚拟环境 conda create –name pp python=3.7 创建完成后激活环境 conda activa…

人工智能 2023年6月24日
00214
【大数据开发基础】第九章聚类分析

文章目录 1 什么是聚类分析？ 2 距离和相似系数 * 2.1 Q型聚类（对样本聚类） – 2.1.1 间隔尺度变量（数值型变量） 2.1.2 有序尺度变量（序数型变量…

人工智能 2023年6月2日
0082
现代检测技术课程实验编程：最小二乘法应用编程

现代检测技术课程实验编程：最小二乘法应用编程一、最小二乘法编程题目描述二、最小二乘法编程题目要求三、什么是最小二乘法四、最小二乘法编程步骤 4.1、界面的设计 4.2、 …

人工智能 2023年7月29日
0062
libpng warning: iCCP: known incorrect sRGB profile 警告，问题解决

libpng warning: iCCP: known incorrect sRGB profile 警告，问题解决目录 libpng warning: iCCP: known …

人工智能 2023年6月18日
00147
cv2.resize()原理详解

2、最近邻插值与双线性插值（1）INTER_NEAREST | 最近邻插值 opencv使用：python只需要 img = cv.resize(img,(width,heigh…

人工智能 2023年6月19日
0067

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

lda2vec (4)——计算理论

大家都在看