lda2vec (4)——计算理论

lda2vec (4)——计算理论
word2vec中:上下文向量是枢轴词语的词向量
LDA中:上下文向量是文档向量
lda2vec中:上下文向量=词向量+文档向量
  1. 区分语料中随机抽取的词语和负采样词语的损失函数:
    lda2vec (4)——计算理论
    当损失函数最小的时候能够把语料中的词语与负采样词语区分开。

lda2vec (4)——计算理论
其中cj代表上下文向量(context vectors),wj代表词向量,dj代表文档向量。这里是把词向量与文档向量相加作为上下文向量的初始值。

lda2vec (4)——计算理论
这里是文档向量的表示方法,aji是文档向量中每个主题的权重,t0是整个语料中每个主题的主题向量,t0和wj是同维向量。我们可以通过计算词向量与该主题的相似程度从而得到可以表示该主题的相关词汇,相似程度=t0*wj。
lda2vec (4)——计算理论
文档向量中的权重会根据每个文档变化,但是主题不会发生变化,整个语料中的主题是固定的。

1.

  1. 狄利克雷抽样
    为了能让权重像稀疏的狄利克雷分布,lda2vec没有从狄利克雷分布中抽样,而是选择优化狄利克雷函数,使潜在的主题向量尽量稀疏,使文档权重有意义。使主题向量更好描述,并且产生连贯的词语。

    lda2vec (4)——计算理论
    2.
  2. 最终的目标函数:

    lda2vec (4)——计算理论
    3.
  3. 正则化协方差(可以改进的地方)
    lda2vec没有从狄利克雷分布中抽样,而是优化狄利克雷函数。这种做法可以对相同主题进行处理。处理方法如下:
    (1)正则化协方差
    (2)penalize the determinant of the topic covariance matrix.协方差矩阵可以计算主题向量i和主题向量j的相关度。determinant能够penalize协方差矩阵的复杂度。所以能够在正则化公式中添加一个损失函数:

    lda2vec (4)——计算理论
    参考文献:https://multithreaded.stitchfix.com/blog/2016/05/27/lda2vec/#topic=38&lambda=1&term=

Original: https://blog.csdn.net/DL_Iris/article/details/121911736
Author: DL_Iris
Title: lda2vec (4)——计算理论

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/531139/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球