基于分层softmax的CBoW模型详解

2023年5月30日下午9:23 • 人工智能 • 阅读 63

入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。

✨word2vector系列展示✨
一、CBOW
1、朴素CBOW模型
word2vector之CBoW模型详解_tt丫的博客-CSDN博客
2、基于分层softmax的CBOW模型
本篇
3、基于高频词抽样+负采样的CBOW模型
基于高频词抽样+负采样的CBOW模型_tt丫的博客-CSDN博客
二、Skip_Gram
word2vector之Skip_Gram模型详解_tt丫的博客-CSDN博客
（关于Skip_Gram的分层softmax和负采样，与CBOW类似）

一、朴素CBoW模型介绍及代码实现

二、使用分层softmax改进CBoW模型的原因

三、背景知识——哈夫曼树和逻辑回归Sigmoid函数

1、哈夫曼树

2、逻辑回归Sigmoid函数

四、改进后的网络分析

1、改进后的网络结构图（与朴素CBoW模型进行对比）

2、利用sigmoid函数模拟走到正负类的概率

一、朴素CBoW模型介绍及代码实现

word2vector之CBoW模型详解_tt丫的博客-CSDN博客

二、使用分层softmax改进CBoW模型的原因

CBoW模型是用上下文X来预测中间词Y，那么其输出层（输出是1 ∗ V的向量）有V个神经元，我们对这V个神经元一开始是等同对待的，但是如果V的数值非常大，等同对待，会导致效率过低，计算量过大。

三、背景知识——哈夫曼树和逻辑回归Sigmoid函数

1、哈夫曼树

python数据结构之树（3）—— 哈夫曼树_tt丫的博客-CSDN博客

2、逻辑回归Sigmoid函数

🌳Sigmoid函数公式为：

🌳图像：

🌳特点

（1）当x趋近于正无穷时，g(x)趋近于1；当x趋近于负无穷时，g(x)趋近于0；

（2）

推导过程：

四、改进后的网络分析

1、改进后的网络结构图（与朴素CBoW模型进行对比）

上图为改进后的网络结构图，下图为朴素CBoW模型网络结构图（图片来源于网络，侵权立删）

注：图中的2c相当于我接下来说的C

2、层次级结构内容分析

INPUT：C个词的词向量（没变）

Projection：将输入层的C个向量做求和累加，即

OUTPUT：去掉前面的隐藏层，对应替换成一棵哈夫曼树。

3、细说OUTPUT的这棵哈夫曼树

原本CBoW模型中输出层最后不是有对1 ∗ V的向量做softmax处理嘛。

这里就是为了避免要计算所有词（V个）的softmax概率，采取了用哈夫曼树来代替从隐藏层到输出softmax层的映射。

这样看来，哈夫曼树的所有内部节点就像之前神经网络Hidden Layer中的神经元。
哈夫曼树以对应Projection的输出词向量为根节点，以这V个词（即类似于之前神经网络softmax输出层的神经元）为叶子结点，以各词在语料中出现的词频当权重。

那么根据哈夫曼树的性质：越靠近根节点的地方，词频（权重）越高，我们可以更快的使用到这个词，相反的越靠近叶节点的地方，词频越低；这样就提高了训练的效率。

在霍夫曼树中，隐藏层到输出层的softmax映射不是一下子完成的，而是沿着霍夫曼树一步步完成的，因此这种softmax取名为”Hierarchical softmax”，即分层softmax。

五、分层softmax下的梯度计算

替换成哈夫曼树后的P(w|Context(w))该如何定义呢？

1、例子下的问题描述

比如说这棵树长这样：

那么以”唱歌”为例子。

从根节点到”唱歌”，需要经历2次分支，每一次分支的经历都可以看作是进行了一次二分类。
既然是二分类问题，我们需要给每个非叶子结点的左右孩子结点指定一个类别（正类负类）。这里我们采用二元逻辑回归的方法——即规定沿左子树走是负类(哈夫曼编码1)，沿右子树走是正类(哈夫曼编码0)。

2、利用sigmoid函数模拟走到正负类的概率

判别正类和负类的方法是使用sigmoid函数，如下所示：

其中

是当前内部节点的词向量，而 θ 则是我们需要从训练样本中求出的逻辑回归的模型参数

3、符号定义预先说明

接下来我们先说一下一些符号的定义：
：从根结点出发到达词w对应的叶子结点的路径
：路径中包含结点的个数
：路径中第 j 个非叶子结点对应的向量
：表示路径中第 j 个结点对应的哈夫曼编码（根节点没有编码）

4、二分类问题下的目标函数

因为每次分支的选择都是一个二分类问题，所以得到以下公式：

简单来说：它的意义就是那种从根节点走到”唱歌”这个结点的概率
即根节点出来后走1的概率再乘上从当前1结点走到下面0结点的概率（1，0看上面的图）

又因为我们采用了二元逻辑回归的方法来定义这些个概率，所以有：

因此，对于一个输出词w来说，

5、梯度求解

这里我们使用了随机梯度上升法，即没有把所有样本的似然概率乘起来得到真正的训练集最大似然概率，仅仅每次只用一个样本来更新梯度，这样可以减少梯度计算量。

所以对上述公式左右取对数，得

我们需要更新的就是

以及模型参数

🌳对

由求导法则和sigmoid函数的性质得到以下求
的梯度的公式：

那么的更新公式为：

🌳对

同理可得：

而我们最终是要求词典 V 中每个词的词向量，这里的

是Context(w)中各词词向量的累加。

因此我们对

进行更新

这样就完整完成了反向传播啦~

六、采用分层softmax的缺点

使用哈夫曼树来代替传统的神经网络，确实可以提高模型训练的效率。但是如果我们的训练样本里的中心词w是一个很生僻的词，那么就得在哈夫曼树中向下走很久了，就会很麻烦。

欢迎大家在评论区批评指正，谢谢啦~

Original: https://blog.csdn.net/weixin_55073640/article/details/123470736
Author: tt丫
Title: 基于分层softmax的CBoW模型详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/545185/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

csSEnet注意力网络

csSEnet注意力网络一、cSE网络模型(通道注意力机制) * 1、Squeeze – 全局平均池化（Global Average Pooling） 2、Excit…

人工智能 2023年7月13日
0074
pytorch学习笔记（六）——pytorch中搭建神经网络

目录一、神经网络基本骨架搭建nn.module * nn.Module的使用二、神经网络中一些神经结构的使用 * 1. Convolution Layers 卷积层 &#821…

人工智能 2023年7月12日
0068
STM32F103基于片内flash的数据读取与音乐播放

目录一、前言二、题目要求三、什么是片内flash 四、闪存的编程和擦除五、基于flash的数据读取 * 1、工程创建 2、修改代码 3、烧录 4、调试六、基于flash的…

人工智能 2023年5月23日
0085
从卷积神经网络（CNN）到图卷积神经网络（GCN）详解

目录一、CNN和GCN的关系二、”图”的预备知识三、图卷积网络（GCN）四、针对于高光谱图像分类的网络优化五、频域的图卷积神经网络最近看到一篇引…

人工智能 2023年7月26日
00116
Topic 16. 临床预测模型之接收者操作特征曲线 (ROC)

点击关注，桓峰基因桓峰基因生物信息分析，SCI文章撰写及生物信息基础知识学习：R语言学习，perl基础编程，linux系统命令，Python遇见更好的你 67篇原创内容公众号…

人工智能 2023年7月17日
0054
Go语言学习笔记-A Tour of Go 练习笔记-Loops and Functions

Exercise: Loops and Functions 题目： As a way to play with functions and loops, let’s i…

人工智能 2023年6月28日
0062
SAS中的PDV机制

在SAS中，我们使用DATA步来读入数据，DATA步在读入数据时实际上有两个阶段：编译（compilation）执行（execution）过程如下：在编译阶段中，逐个扫描语句，…

人工智能 2023年6月30日
0069
模型训练完准确率为0的解决方法,以及模型验证方法(resize和reshape区别)

目录模型训练完准确率一直为0 完整的模型验证套路：test reshape和reszie的区别 debug方法模型训练完准确率一直为0 计算准确率或者输出看loss、准确率时，…

人工智能 2023年7月21日
0062
旋转目标检测训练自己数据集+问题汇总

目录 0.salute 1.制作自己的数据集 2.开始训练 2.1训练配置 2.2训练过程遇到的报错（1）AttributeError: Can’t get attr…

人工智能 2023年6月25日
0085
MQ消费堆积问题解决思路

MQ消息堆积是指生产者发送的消息短时间内在Broker端大量堆积，无法被消费者及时消费，从而导致业务功能无法正常使用。（1）新上线的消费者功能有BUG，消息无法被消费。（2）消…

人工智能 2023年6月27日
0081
一起学画图：气泡图—常用于富集分析

公众号原文点我 Part 1 ：气泡图气泡图是散点图的一种变体，一般的散点图反映的是两个连续变量之间的关系。而气泡图通常可以反映三个变量之间的关系，第三个变量一般体现在气泡的大小…

人工智能 2023年7月15日
0082
49_Pandas.DataFrame添加列和行（分配、追加等）

如何向 pandas.DataFrame 添加新的列或行。通过指定新的列名/行名来添加，或者用pandas.DataFrame的assign()、insert()、append(…

人工智能 2023年7月6日
0039
python数据分析-pandas自学笔记

pandas常用数据类型 Series：一维，带标签的数组 DataFrame：二维，Series容器 1.创建Series #使用列表生成一个Series import pand…

人工智能 2023年7月8日
0066
2s-AGCN【复现】EOFError:Ranoutofinput问题解决记录（win10+pycharm）

在 win10上用 pycharm复现 2s-AGCN论文程序，在环境和文件路径都调通之后在终端里输入 python main.py –config ./config/nturg…

人工智能 2023年7月24日
0060
数据分析达人赛2：产品关联分析

目录大赛地址：https://tianchi.aliyun.com/competition/entrance/531891/introduction 赛题背景赛题数据赛题任务…

人工智能 2023年7月15日
0044
基于树莓派的蓄电池控制系统

总概： (1)使用 Raspberry 4B作为主控芯片，通过不同模块采集信息。 (2)搭建BP神经网络模型并训练，根据采集信息算出蓄电池的补水量。 (3)使用PyQT编写人机交互…

人工智能 2023年6月28日
0071

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

基于分层softmax的CBoW模型详解

1、哈夫曼树

2、逻辑回归Sigmoid函数

1、改进后的网络结构图（与朴素CBoW模型进行对比）

2、层次级结构内容分析

3、细说OUTPUT的这棵哈夫曼树

1、例子下的问题描述

2、利用sigmoid函数模拟走到正负类的概率

3、符号定义预先说明

4、二分类问题下的目标函数

5、梯度求解

大家都在看