NLP经典论文：Word2vec、CBOW、Skip-gram 笔记

2023年5月28日下午2:19 • 大数据 • 阅读 61

NLP经典论文：Word2vec、CBOW、Skip-gram 笔记

论文
介绍
模型结构
*
CBOW模型
–
Skip-gram模型
–
- 整体模型
  +
- 输入
- 输出
- 整体流程
- 流程维度
- 输入层与投影层
  +
- 输入
- 输出
- 输出层
  +
- 输入
- 输出
- 理解1
- 理解2
- 优化目标
  +
- 优化方式
文章部分翻译
*
3 New Log-linear Models
–
- 3.1 CBOW
- 3.2 Continuous Skip-gram Model
相关视频
相关的笔记
相关代码
*
pytorch
tensorflow
–
- keras
API:

论文

NLP论文笔记合集（持续更新）

原论文：《Efficient Estimation of Word Representations in Vector Space》

分层softmax和负采样Negative Sampling的介绍：《Distributed Representations of Words and Phrases and their Compositionality》

介绍

2013-01发表的文章，使用低纬连续向量表示代替传统的one-hot高维稀疏表示。

模型结构

CBOW模型

CBOW为Continuous Bag-of-Words，将传统的稀疏空间表示的词向量转化成稠密空间表示的词向量。

有一个大家说过：一个词，可以有其上下文文本来表示。

CBOW的思想就是如果一个词经过投影降维，和上下文文本经过投影降维，在低维空间是一样的向量，那么这个降维矩阵就是我想要的转换矩阵，即look up table，embedding vector matrix。

但它有一个缺点，就是上下文词的表示，只是简单地将词向量进行叠加，即在低维的embedding空间进行合成，而没有考虑真正地考虑词的上下文关系的空间上的关系，比如（我/爱/国/共），作为上下文去预测中心词（中），和（共/国/爱/我），作为上下文去预测中心词（中），是没有区别的，预测结果是一样的。

; 整体模型

输入

w t − 2 , w t − 1 , w t − 1 , w t − 2 w_{t-2}, w_{t-1}, w_{t-1}, w_{t-2}w t −2 ,w t −1 ,w t −1 ,w t −2 输入为w t w_{t}w t 的上下文，文本通过one-hot表示，w ∈ R V × 1 w \in R^{V \times 1}w ∈R V ×1，V为字典大小，包含词的总数。

输出

f ( w t − 2 , w t − 1 , w t + 1 , w t + 2 ) = w t ^ f(w_{t-2}, w_{t-1}, w_{t+1}, w_{t+2})=\hat{w_t}f (w t −2 ,w t −1 ,w t +1 ,w t +2 )=w t ^，w ^ \hat{w}w ^为预测词，为m a x { p } max{\boldsymbol{p}}m a x {p }所对应的词，其中

p = { p ( w 1 ∣ w t − 2 , w t − 1 , w t + 1 , w t + 2 ) , p ( w 2 ∣ w t − 2 , w t − 1 , w t + 1 , w t + 2 ) , . . . , p ( w i ∣ w t − 2 , w t − 1 , w t + 1 , w t + 2 ) , . . . } , i = 1 , 2 , 3 , . . . , V \boldsymbol{p}={p(w_1|w_{t-2}, w_{t-1}, w_{t+1}, w_{t+2}), p(w_2|w_{t-2}, w_{t-1}, w_{t+1}, w_{t+2}), …, p(w_i|w_{t-2}, w_{t-1}, w_{t+1}, w_{t+2}),…}, i=1, 2, 3, …, V p ={p (w 1 ∣w t −2 ,w t −1 ,w t +1 ,w t +2 ),p (w 2 ∣w t −2 ,w t −1 ,w t +1 ,w t +2 ),…,p (w i ∣w t −2 ,w t −1 ,w t +1 ,w t +2 ),…},i =1 ,2 ,3 ,…,V

意思就是给定w t w_{t}w t 的上下文输入词（w t − 2 , w t − 1 , w t + 1 , w t + 2 w_{t-2}, w_{t-1}, w_{t+1}, w_{t+2}w t −2 ,w t −1 ,w t +1 ,w t +2 ），预测词w t w_{t}w t 时，{ p } {\boldsymbol{p}}{p }中概率最大的那个p ( w i ∣ w t − n + 1 , w t − n + 2 , . . . , w t − 1 ) p(w_i|w_{t-n+1}, w_{t-n+2}, …, w_{t-1})p (w i ∣w t −n +1 ,w t −n +2 ,…,w t −1 )所对应的那个词w i w_i w i ，就是预测输出的词。

整体流程

; 整体维度

输入层与投影层

; 输入

输出

x = C t − 2 + C t − 1 + C t + 1 + C t + 2 , x ∈ R m × 1 \boldsymbol{x}=C_{t-2}+C_{t-1}+C_{t+1}+C_{t+2}, \boldsymbol{x}\in R^{m\times 1}x =C t −2 +C t −1 +C t +1 +C t +2 ,x ∈R m ×1

其中，C i = C w i C_{i}=\boldsymbol{C}w_{i}C i =C w i ，C i ∈ R m × 1 C_i \in R^{m\times 1}C i ∈R m ×1，C \boldsymbol{C}C为变换矩阵，投影矩阵，C ∈ R m × V \boldsymbol{C} \in R^{m \times V}C ∈R m ×V，把one-hot表示的稀疏向量从稀疏的V维空间投影到稠密的m维空间。然后再将C i C_i C i 进行求和起来，形成上下文信息，传递给下一层。

输出层

; 输入

x = C t − 2 + C t − 1 + C t + 1 + C t + 2 , x ∈ R m × 1 \boldsymbol{x}=C_{t-2}+C_{t-1}+C_{t+1}+C_{t+2}, \boldsymbol{x}\in R^{m\times 1}x =C t −2 +C t −1 +C t +1 +C t +2 ,x ∈R m ×1

输出

w t ^ \hat{w_t}w t ^

原本方式：传统softmax

将输入x \boldsymbol{x}x传入线性层对预测目标类别进行打分，再通过softmax层求得字典中每个词w i w_i w i 的预测概率为：
p ( w i ∣ w t − 2 , w t − 1 , w t + 1 , w t + 2 ) = e θ i x ∑ i = 1 V e θ i x p(w_i|w_{t-2}, w_{t-1}, w_{t+1}, w_{t+2})=\frac{e^{\boldsymbol{\theta_i} \boldsymbol{x}}}{\sum\limits_{i=1}^Ve^{\boldsymbol{\theta_i} \boldsymbol{x}}}p (w i ∣w t −2 ,w t −1 ,w t +1 ,w t +2 )=i =1 ∑V e θi x e θi x
其中θ i ∈ R 1 × m , i = 1 , 2 , . . . , V \boldsymbol{\theta_i} \in R^{1\times m}, i=1, 2, …, V θi ∈R 1 ×m ,i =1 ,2 ,…,V。

作者在《Distributed Representations of Words and Phrases and their Compositionality》文章中写到了2种优化方式：分层softmax和负采样Negative Sampling

; 优化方式1：分层softmax

传统的softmax，在计算概率p ( w i ∣ w t − 2 , w t − 1 , w t + 1 , w t + 2 ) p(w_i|w_{t-2}, w_{t-1}, w_{t+1}, w_{t+2})p (w i ∣w t −2 ,w t −1 ,w t +1 ,w t +2 )的时候，分母需要计算所有词的e 得分 e^{得分}e 得分，即e θ i x e^{\boldsymbol{\theta_i} \boldsymbol{x}}e θi x，会带来巨大的花费，于是提出了分层softmax，基于Huffman Tree：

σ ( ⋅ ) \sigma(\centerdot)σ(⋅)为sigmoid函数。

优点：将预先定义好的类别，即词，按照词频排序，词频高的词，靠近树的根节点，词频低的词，远离根节点，每一个非叶子节点处都形成一个二分类问题，每一个节点都代表了0或1的分类标签。基于本节点，预测左右子节点的概率时，预测为左子节点的概率为σ ( θ x ) \sigma(\boldsymbol{\theta x})σ(θx )，预测为右子节点的概率为1 − σ ( θ x ) 1-\sigma(\boldsymbol{\theta x})1 −σ(θx )。从根节点到label所在的叶节点的路径为l l l，其中第j层节点由其上一级父节点j-1节点进行二分类得到，其概率为：
p ( d j ∣ x , θ j − 1 ) = [ σ ( x θ j − 1 ) ] d j ⋅ [ 1 − σ ( x θ j − 1 ) ] 1 − d j p(d_j|\boldsymbol{x},\boldsymbol{\theta_{j-1}}) = [\sigma(\boldsymbol{x}\boldsymbol{\theta_{j-1}})]^{d_j} \cdot [1-\sigma(\boldsymbol{x}\boldsymbol{\theta_{j-1}})]^{1-d_j}p (d j ∣x ,θj −1 )=[σ(x θj −1 )]d j ⋅[1 −σ(x θj −1 )]1 −d j
d j d_j d j 为0或1的分类标签。

每一个叶节点，即预测词所在节点的概率为：
p ( w i ∣ w t − 2 , w t − 1 , w t + 1 , w t + 2 ) = p ( w i ∣ x ) = ∏ j l p ( d j ∣ x , θ j − 1 ) p(w_i|w_{t-2}, w_{t-1}, w_{t+1}, w_{t+2})=p(w_i|\boldsymbol{x}) = \prod_j^lp(d_j|\boldsymbol{x},\boldsymbol{\theta_{j-1}})p (w i ∣w t −2 ,w t −1 ,w t +1 ,w t +2 )=p (w i ∣x )=j ∏l p (d j ∣x ,θj −1 )

例如在计算w 4 w_4 w 4 的概率的时候：
p ( w 4 ∣ w t − 2 , w t − 1 , w t + 1 , w t + 2 ) = ( 1 − σ ( θ 1 x ) ) ( 1 − σ ( θ 2 x ) ) ( 1 − σ ( θ 3 x ) ) p(w_4|w_{t-2}, w_{t-1}, w_{t+1}, w_{t+2})=(1-\sigma(\boldsymbol{\theta_1x}))(1-\sigma(\boldsymbol{\theta_2x}))(1-\sigma(\boldsymbol{\theta_3x}))p (w 4 ∣w t −2 ,w t −1 ,w t +1 ,w t +2 )=(1 −σ(θ1 x ))(1 −σ(θ2 x ))(1 −σ(θ3 x ))
在求交叉熵损失l o s s = − log ⁡ p ( w t ∣ w t − n + 1 , w t − n + 2 , . . . , w t − 1 ) loss=-\log p(w_t|w_{t-n+1}, w_{t-n+2}, …, w_{t-1})l o s s =−lo g p (w t ∣w t −n +1 ,w t −n +2 ,…,w t −1 )的时候，这么做就能避免原本softmax分母∑ i = 1 V e θ i x \sum\limits_{i=1}^Ve^{\boldsymbol{\theta_i} \boldsymbol{x}}i =1 ∑V e θi x的V次得分计算，改为∏ j l p ( θ j − 1 x ) \prod\limits_j^lp(\boldsymbol{\theta_{j-1}x})j ∏l p (θj −1 x )至多logV次的计算，减小运算量。

优化方式2：负采样Negative Sampling

如果我们的训练样本里的中心词w t w_t w t 是一个很生僻的词，那么就得在Huffman Tree中辛苦的向下走很久了。能不能不用搞这么复杂的一颗霍夫曼树，将模型变的更加简单呢？

Negative Sampling就是这么一种求解word2vec模型的方法，它摒弃了霍夫曼树，采用了Negative Sampling（负采样）的方法来求解：

σ ( ⋅ ) \sigma(\centerdot)σ(⋅)为sigmoid函数。与前面的方法不一样，这里每个预测词的概率之和∑ i V p ( w i ∣ w t − 2 , w t − 1 , w t + 1 , w t + 2 ) ≠ 1 \sum\limits_i^Vp(w_i|w_{t-2}, w_{t-1}, w_{t+1}, w_{t+2})\neq1 i ∑V p (w i ∣w t −2 ,w t −1 ,w t +1 ,w t +2 )=1。

c o n t e x t ( w t ) = ( w t − 2 , w t − 1 , w t + 1 , w t + 2 ) context(w_t)=(w_{t-2}, w_{t-1}, w_{t+1}, w_{t+2})c o n t e x t (w t )=(w t −2 ,w t −1 ,w t +1 ,w t +2 )，对于一个样本( c o n t e x t ( w t ) ， w t ) (context(w_t)，w_t)(c o n t e x t (w t )，w t )来说，其他样本都是他的反例n e g ( w t ) neg(w_t)n e g (w t )。

; 交叉熵损失

前面的方法：
l o s s = − log ⁡ p ( w t ∣ θ x ) loss= – \log p(w_t|\boldsymbol{\theta x})l o s s =−lo g p (w t ∣θx )
Negative Sampling：

l o s s = − log ⁡ p ( w t ∣ θ w t x ) − ∑ w u ∈ n e g ( w t ) log ⁡ [ 1 − p ( w u ∣ θ w u x ) ] loss= – \log p(w_t|\boldsymbol{\theta_{w_t}x}) – \sum\limits_{w_u\in neg(w_t)} \log [1-p(w_u|\boldsymbol{\theta_{w_u}x})]l o s s =−lo g p (w t ∣θw t x )−w u ∈n e g (w t )∑lo g [1 −p (w u ∣θw u x )]
从而达到反向传播在训练正例词对应的参数的时候，反例的参数也得到更新，降低复杂度，增加训练速度。

Skip-gram模型

Skip-gram的思想就是，通过中心词，去预测上下文的词。

; 整体模型

输入

w t w_{t}w t ，文本w t w_{t}w t 通过one-hot表示，w ∈ R V × 1 w \in R^{V \times 1}w ∈R V ×1，V为字典大小，包含词的总数。

输出

f ( w t ) = ( w ^ t − 2 , w ^ t − 1 , w ^ t + 1 , w ^ t + 2 ) f(w_t)=(\hat{w}{t-2}, \hat{w}{t-1}, \hat{w}{t+1}, \hat{w}{t+2})f (w t )=(w ^t −2 ,w ^t −1 ,w ^t +1 ,w ^t +2 )，w ^ \hat{w}w ^为预测的上下文词，为预测概率{ p } {\boldsymbol{p}}{p }所对应的前4个最大概率的词，其中

p = { p ( w 1 ∣ w t ) , p ( w 2 ∣ w t ) , . . . , p ( w i ∣ w t ) , . . . , p ( w V ∣ w t ) } , i = 1 , 2 , 3 , . . . , V \boldsymbol{p}={p(w_1|w_t), p(w_2|w_t), …, p(w_i|w_t), …, p(w_V|w_t)}, i=1, 2, 3, …, V p ={p (w 1 ∣w t ),p (w 2 ∣w t ),…,p (w i ∣w t ),…,p (w V ∣w t )},i =1 ,2 ,3 ,…,V

意思就是给定输入词w t w_{t}w t ，预测w t w_{t}w t 的上下文c o n t e x t ( w t ) context(w_t)c o n t e x t (w t )时，这里c o n t e x t ( w t ) context(w_t)c o n t e x t (w t )为( w t − 2 , w t − 1 , w t − 1 , w t − 2 ) (w_{t-2}, w_{t-1}, w_{t-1}, w_{t-2})(w t −2 ,w t −1 ,w t −1 ,w t −2 )，{ p } {\boldsymbol{p}}{p }中概率最大的前四个p ( w i ∣ w t ) p(w_i|w_t)p (w i ∣w t )所对应的词w i w_i w i ，就是预测的上下文输出词。

整体流程

; 流程维度

输入层与投影层

; 输入

w t w_{t}w t ，文本w t w_{t}w t 通过one-hot表示，w ∈ R V × 1 w \in R^{V \times 1}w ∈R V ×1，V为字典大小，包含词的总数。

输出

x = W w t \boldsymbol{x}=\boldsymbol{W}w_t x =W w t

可以理解为经过投影层从稀疏的高维空间映射到稠密的低维空间，也可以理解为从中心词字典look up table中查表得到改词在低维空间中的值。

输出层

; 输入

x = W w t \boldsymbol{x}=\boldsymbol{W}w_t x =W w t

输出

( w ^ t − 2 , w ^ t − 1 , w ^ t + 1 , w ^ t + 2 ) (\hat{w}{t-2}, \hat{w}{t-1}, \hat{w}{t+1}, \hat{w}{t+2})(w ^t −2 ,w ^t −1 ,w ^t +1 ,w ^t +2 )，w ^ \hat{w}w ^为预测的上下文词

理解1

每个词在低维向量中都有2种表示，一种是在中心词字典中，表示为v ∈ W ， W ∈ R d × V \boldsymbol{v} \in \boldsymbol{W}，\boldsymbol{W} \in R^{d \times V}v ∈W ，W ∈R d ×V，这里的v \boldsymbol{v}v也就是这一层的输入x \boldsymbol{x}x，一种是在背景词字典中，表示为u ∈ W ′ ， W ′ ∈ R V × d \boldsymbol{u} \in \boldsymbol{W}^{\prime}，\boldsymbol{W}^{\prime} \in R^{V \times d}u ∈W ′，W ′∈R V ×d

在投影层到输出层之间，通过点积计算2个词之间的相似度得分，在通过softmax预测每个词w i w_i w i 的概率，结合到一起就是：
p ( w i ∣ w t ) = e x p ( u i v w t ) ∑ j V e x p ( u j v w t ) p(w_i|w_t)=\frac{exp(\boldsymbol{u_i v_{w_t}})}{\sum\limits_j^V exp(\boldsymbol{u_j v_{w_t}})}p (w i ∣w t )=j ∑V e x p (u j v w t )e x p (u i v w t )
前四个概率最大的p ( w o ∣ w t ) p(w_o|w_t)p (w o ∣w t )所对应的词就是输出的上下文词。

理解2

可以忽略背景词字典的理解，把u \boldsymbol{u}u当成线性层的参数θ \boldsymbol{\theta}θ，对x \boldsymbol{x}x进行特征提取，得到的是改词的分值，再经过softmax层预测每个词w o w_o w o 的概率。
p ( w i ∣ w t ) = e x p ( θ i x ) ∑ j V e x p ( θ j x ) p(w_i|w_t)=\frac{exp(\boldsymbol{\theta_i x})}{\sum\limits_j^V exp(\boldsymbol{\theta_j x})}p (w i ∣w t )=j ∑V e x p (θj x )e x p (θi x )

优化目标

l o s s = ∑ t T ∑ − m ≤ j ≤ m , j ≠ 0 log ⁡ p ( w j ∣ w t ) loss=\sum_t^T\sum_{-m \leq j \leq m, j \neq 0 } \log p(w_j|w_t)l o s s =t ∑T −m ≤j ≤m ,j =0 ∑lo g p (w j ∣w t )
T是所有时刻，即文本长度，m是一个滑动窗口，表示距离中心词w t w_t w t 的最大距离。

优化方式

分层softmax
负采样Negetive Sampling

与上文中CBOW的优化方式一样。

文章部分翻译

3 New Log-linear Models

在本节中，我们提出了两种新的模型架构，用于学习单词的分布式表示，以尽量减少计算复杂性。上一节的主要观察结果是，大多数复杂性是由模型中的非线性隐藏层引起的。虽然这正是神经网络如此吸引人的原因，但我们决定探索更简单的模型，这些模型可能无法像神经网络那样精确地表示数据，但可能可以更有效地在数据上进行训练。

新的体系结构直接遵循了我们早期工作[13,14]中提出的体系结构，我们发现神经网络语言模型可以通过两个步骤成功训练：首先，使用简单模型学习词的连续词向量，然后基于这些词的分布式表示来训练N-gram NNLM。虽然后来有大量的工作集中于学习词向量，但我们认为在[13 ]中提出的方法是最简单的。请注意，相关模型的提出也早得多[26,8]。

3.1 CBOW

第一个提出的架构类似于前馈NNLM，其中非线性隐藏层被移除，投影层被所有词共享（不仅仅是投影矩阵）；因此，所有单词都被投影到相同的位置（它们的向量被平均）。我们称这种结构为词袋模型，因为句子中的文字顺序不影响投影。此外，我们还使用来自下文的词语；在下一节介绍的任务中，我们通过构建一个log-linear分类器，输入四个下文单词和四个上文单词，从而获得了最佳性能，其中训练标准是正确分类当前（中间）单词。训练的复杂性也随之增加

我们将该模型进一步表示为CBOW，因为与标准词袋模型不同，它使用上下文的连续分布式表示。模型架构如图1所示。请注意，输入层和投影层之间的权重矩阵对于所有单词位置是共享的，方式与NNLM中相同。

; 3.2 Continuous Skip-gram Model

第二种架构类似于CBOW，但它不是根据上下文预测当前词，而是尝试基于同一句子中的另一个单词来最大限度地对当前词进行分类。更准确地说，我们使用每个当前单词作为具有连续投影层的log-linear分类器的输入，并在当前词的前后范围内预测一定量的词。我们发现，增加范围可以提高输出的词向量的质量，但也会增加计算复杂度。由于距离较远的单词与当前单词的相关性通常小于距离较近的单词与当前单词的相关性，因此我们通过在训练示例中从这些单词中取样较少，从而减少了距离较远单词的权重。

此体系结构的训练复杂性与

其中C是单词的最大距离。因此，如果我们选择C=5，对于每个训练词，我们将随机选择

pytorch

tensorflow

keras

API:

word2vec训练中文词向量
 word2vec词向量训练及gensim的使用
 自然语言处理库——Gensim之Word2vec
官方文档

Original: https://blog.csdn.net/sinat_39448069/article/details/121159626
Author: 电信保温杯
Title: NLP经典论文：Word2vec、CBOW、Skip-gram 笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/532033/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【SQLite数据库学习】Linux下Sqlite3数据库的使用

目录一：安装数据库二：常用SQL语句的使用三：SQL基础使用一：安装数据库 1.Linux下安装数据库 apt install sqlite3 2.Linux下使用数据库 …

大数据 2023年11月10日
0035
Sqoop

SQOOP安装及使用 SQOOP安装及使用 – SQOOP安装 1、上传并解压 2、修改文件夹名字 3、修改配置文件 4、修改环境变量 5、添加MySQL连接驱动 6、…

大数据 2023年5月26日
0099
解决ssh $host jps bash: jps: command not found 问题

问题描述使用 ssh $host jps 命令报错，连本机也会有这样的情况，但是分开使用并没有问题，即ssh $host下执行jps命令并不会报错。因为ssh远程连接到服务器的…

大数据 2023年6月3日
0076
CVPR2022论文速递（2022.3.30）！共48篇

整理：AI算法与图像处理 CVPR2022论文和代码整理：https://github.com/DWCTOD/CVPR2022-Papers-with-Code-Demo Styl…

大数据 2023年5月26日
0069
2023秋招的第一个意向书

🌻今天和大家分享一下2023的第一个offer，把喜气传给大家，祝愿小伙伴在秋招中offer拿到手软。本篇博客主要和大家分享一下这段时间的学习过程，给大家一些参考。下面是字节的意向…

大数据 2023年11月12日
0043
Datawhale~水很深的深度学习~Task 2: 机器学习基础

写在前面✍本系列笔记为Datawhale11月组队学习的学习笔记：水很深的深度学习。本次组队学习重理论知识学习，包含DL相关的基础知识，如CNN、RNN、Transformer等。…

大数据 2023年5月28日
0093
基于MLP进行文本分类

最近学习了基于Pytorch框架下的MLP、CNN、RNN网络模型，利用在GitHub上获取的商品评论数据进行文本分类实验。本文介绍了如何在Pytorch框架下建立MLP对数据进行…

大数据 2023年5月28日
0077
trino的介绍和安装使用

前言：最近在研究大数据的一些组件和数据库，本来是要调研下presto怎么用的，结果发现presto因为facebook的关系，导致presto核心开发成员离开，重新开始创建了tr…

大数据 2023年11月13日
0058
Centos 7.4_64位系统安装指南

小土豆Linux学习随笔 —— 清听凌雪慕忆 1. 范围 1.1标识 1.2 文档概述 2. 安装环境 3. 安装步骤 4. 注意事项 1. 范围 1.1标识 CentOS 7.4…

大数据 2023年5月27日
0065
Hive 多数组合并 CONCAT_WS

目录多列的情况先上结果拆分concat_ws 可以拆分数组然后在用split切分再变回数组多行合并多列的情况先上结果 select split(concat_ws(&…

大数据 2023年11月12日
0032
Redis的key和value大小限制 | value需要压缩吗？

大数据 2023年11月16日
0044
zabbix的基础使用

zabbix的基础使用 zabbix的基础使用 zabbix服务端web界面使用介绍 web界面 (Monitoring)监控选项栏设置 (Services)服务选项栏 (lnve…

大数据 2023年5月26日
0053
hive基础选择题

1.下列关于Hive特点总结正确的选项是（） A Hive支持自由的扩展集群的规模，只需要重启服务即可 B Hive支持自定义函数，用户可以根据自己的需求去定义函数 C Hive …

大数据 2023年11月12日
0044
基本的广告法违禁词、违规词以及敏感词大全

如果你在写软文广告的信息当中，还没有注意到基本的广告法违规词、违禁词以及敏感词的禁用通知，那么你有可能在未来的一段时间陷入长期的困局当中。为什么这么说呢？因为在网站运营的整个过程当…

大数据 2023年5月28日
00111
轻量级数据库sqlite，spring boot+sqlite的配置详解（一）

是一种用于快速创建 Spring 应用程序的开发框架，而是一款轻量级的嵌入式，它的文件默认为非加密状态。如何将两者相结合并实现加密功能呢？首先，我们需要在中引入的依赖…

大数据 2023年11月10日
0035
Python数据分析及可视化（Matplotlib， Plotly，random）实例：双色球根据往期数据产生随机号码

之前有写过一篇”双色球数据爬取及写入数据库Sqlite、json和Excel表”，是通过网站提供的json网页把数据爬取并存储下来，今天就通过这个数据进行数…

大数据 2023年11月10日
0040

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

NLP经典论文：Word2vec、CBOW、Skip-gram 笔记

NLP经典论文：Word2vec、CBOW、Skip-gram 笔记

CBOW模型

; 整体模型

输入

输出

整体流程

; 整体维度

输入层与投影层

; 输入

输出

输出层

; 输入

输出

原本方式：传统softmax

; 优化方式1：分层softmax

优化方式2：负采样Negative Sampling

; 交叉熵损失

Skip-gram模型

; 整体模型

输入

输出

整体流程

; 流程维度

输入层与投影层

; 输入

输出

输出层

; 输入

输出

理解1

理解2

优化目标

优化方式

3 New Log-linear Models

3.1 CBOW

; 3.2 Continuous Skip-gram Model

pytorch

tensorflow

keras

大家都在看