史上最小白之《Word2vec》详解

2023年5月27日下午11:57 • 人工智能 • 阅读 83

Word2vec

谷歌2013年提出来的NLP工具，它的特点就是可以将 单词转化为向量表示，这样就可以通过 向量与向量之间的距离来度量它们之间的相似度，从而发现他们之间存在的潜在关系。

虽然现在深度学习比较广泛，但是其实word2vec并 不是深度学习，因为在这个word2vec中，只是使用到了 浅层的神经网络，同时它是计算词向量的一种开源工具，当我们说word2vec模型的时候，其实指的使它背后的CBOW和skip-gram算法，而word2vec本身并不是模型或者算法。

它的提出有一个特点，就是在当时可以将文本表示出来，但是表示出来的单词和单词之间，没有相似性的概念，因为它们大多都是用索引表示出来的，在这通过实验证明了一个道理：

大量的数据训练简单的模型比少量的数据训练复杂的模型效果要好很多，例如n-gram，在机器翻译中只有几十万的数据，在语音翻译的文本当中，只有百万级别的字，因此在这些情况下n-gram模型可能就没什么用了，那么这个时候，就需要寻找更先进的技术，在大数据集上训练更加复杂的模型已经变的很现实了，而且这些再大数据集上训练复杂的模型，往往有优于大数据集上训练的简单模型，例如基于神经网络的语言模型要优于n-gram。

而word2vec是在nnlm这个模型结构的基础之上做了相应的拓展。

对比一下word2vec和nnlm的区别：

提出了两种新的模型：CBOW和skip-gram，和nnlm相比，word2vec删除了中间的隐层，这样使得模型显得更加的简单，但是这样可能会没有NNLM更加的精确，但是更好的追求了极限的速度。可以再大量的数据集上更快更高效的训练。最后想要得到的也是权重w。

这两种结构：CBOW和skip-gram，都是利用中心词和上下文的关系，互为输入和输出，上下文就是中心词前后的n个词，实验表明，提高上下文的范围n，可以提升单词向量化的质量，但是同时计算量也会增大。

CBOW：

结构：

第一种模型CBOW它的思想就是，利用中间词的前n个词和后n个词来预测中间词，例如上图，n=2，就是利用当前词的前两个词和后两个词来预测中间的单词。输入层，直接求和变成投影层，其它没有任何操作，然后直接预测中心词。整体的公式表示如下：

其中projection表示投影层，f表示投影层到输出层的一种映射关系，θ是参数。

skip-gram：

结构：

第二种模型就是skip-gram，它的思想正好和CBOW相反，它是通过中间的词来预测，上下文的N个词。如上图所示，通过中心词，来预测上文的前两个，和下文的两个词，输入层也是直接变换到投影层，然后预测上下文的单词，公式可以表达为如下：

同理：projection表示中间的投影层，f其实就是softmax激活函数，θ是权重，output是输出的预测的概率值，也就是说，此表中为每一个词的概率。

我们发现再skip-gram中最终的输出是多个输出，这个时候我们就可以看成多个多分类。

这两种算法的代价稍有不同。

再CBOW中的代价：

Output表示中心词的概率。

而在skip-gram中的代价：

M代表上下文的数量。

Output（j）表示M个上下文中，第j个的词的概率。

这个时候我们发现，其实再最终的输出的时候和NNLM相同都是使用softmax做的输出，但是这样有一个很不好的地方，就是输出的维度太大。这个时候就涉及到了两种优化的方法：

负例采样和层次softmax—霍夫曼树：

霍夫曼树：

层次softmax是一种高效的计算softmax的方法，其中二叉树表示词表中的所有的词，每个词都是叶子节点，同时对于每一个节点，都有唯一的路径能从更节点走到该叶子节点上，该路径就用来估计这个词出现的概率，理论上来说可以使用任何类型的树，再word2vec中使用的是二叉的霍夫曼树，因为在霍夫曼树中，靠近根节点的节点权重都比较高，这样频率高的词，路径就短，同时计算的次数也就会更少，从而提升速度。

霍夫曼树的构建：

负例采样：

负例采样更加的直接，为了解决softmax要计算和更新的大量的参数，负例采样每次只计算或者更新几个参数，也就是说原来进行模型训练的时候，是从所有的词汇当中选取某个或者某些词，而现在变成了从小词集上选取，某个词或者某几个词，这个小的词集是远小于总的词汇表的。从而大大的提升训练的速度。

然后一个线段被分成V分，V代表词表的大小，每段代表一个词，同时，每条线段的长短是不同的，

Counter就是词频，这样我们发现每个词所对应的线段的长短，是和词频是有关的，因此因为词频的不同，词所对应的线段也是各不相同的。

但是我们怎么通过小数去找区间呢？

因此，在word2vec中，是通过用一种查表得方式去实现的，将上述线段上对应M个刻度，那么每个刻度就是1/M。

这样我们就不需要生成0-1之间的小数了，只需要生成，0-M之间的整数即可，这样根据刻度上的M值去查一查对应的I值就可以取到相应的值了。

在word2vec中L上的刻度具体的实现是：

0.75就是一个 经验值，是通过多次的学习得来的。具体它的作用是：它可以降低高频词的出现的概率，同时也能够增加低频词出现的概率。但是总体还不影响数据的分布。

0.5的0.75次方等于0.59。0.8的0.75次方等于0.84。

0.5/0.8 = 5/8=0.625 0.59/0.84=0.7

负采样这个点引入word2vec非常巧妙，两个作用，1.加速了模型计算，2.保证了模型训练的效果。一个是模型每次只需要更新采样的词的权重，不用更新所有的权重。第二，中心词其实只跟它周围的词有关系，位置离着很远的词没有关系，也没必要同时训练更新。

Word2vec和nnlm的对比：

1. 两者本质都是语言模型
1. 词向量只是nnlm的一个产物，虽说word2vec本质也是语言模型，但其更专注于词向量本身，所以有一些优化算法来提高计算效率
1. 计算方面，在利用上下文词预测中心词时，nnlm是把上下文词的向量进行拼接， word2vec是进行sum，并舍弃隐藏层（为了减少计算量）
word2vec的两个加速算法：hierarchical softmax 和negative sampling

论文也对比了训练语料、向量维度以及训练轮次对结果的影响，实验结果表明，训练语料越多效果更好，600维的结果比300维的结果更优，3轮的训练结果比1轮的训练结果更好。

测试结果：

word2vec是2013年提出的模型，限于当时的算力，在大规模的语料上进行训练，确实需要更简单的模型以及一些加速训练方式；之后提出的fasttext在模型结构上可以说跟word2vec一样，主要区别在输入上，fasttext增加了词的形态特征；基于算力的提升，最近的预训练模型参数越来越大，比如BERT、XLNET，甚至有GPT3这种庞然大物。再反过来看word2vec，是不是用现在的算力训练，就不需要层次softmax或者负采样的加速方式了呢？这还是要分情况讨论，虽然说像BERT这样的模型，都是直接用的softmax进行计算，这是因为训练BERT的人（机构、公司）具有远超普通情况下的算力，而且BERT这种输出维度也只有几万大小，词向量的输出维度则会有百万大小（可以想象下词跟字在数量上的差别），所以自己进行预训练的时候，需要根据拥有的算力和输出维度来判断是否要使用加速手段。

Original: https://blog.csdn.net/Mr_Meng__NLP/article/details/122062741
Author: AI_孟菜菜
Title: 史上最小白之《Word2vec》详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528246/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python案例实操3-电影数据分析

Python案例实操3-电影数据分析一、读取数据二、数据处理 * 1.索引重命名 2.合并数据集 3.选取子集 4.缺失值处理 5.数据格式转换三、数据分析及可视化 * 1….

人工智能 2023年7月29日
00109
【MySQL功法】第5话 · SQL单表查询

🍺 写在前面闲话不多说，最近开始写关于数据分析的基础知识，未来对于数据分析的路线规划也在逐步计划中，但是有关【数据库】这类内容肯定是不可缺少的基础知识储备，所以对数据分析有兴趣…

人工智能 2023年7月16日
0057
python3.9版本的pytorch下载与安装

文章目录前言一、下载步骤 * 1.下载anaconda 2.pytorch配置 3.下载pytorch的安装包二.开发环境配置（jupyter/pycharm) * 1. j…

人工智能 2023年7月20日
0058
Survey of Low-Resource Machine Translation阅读笔记

文章目录 * – + 1 Introduction + 2 Data Sources + * 2.1 Searching Existing Data Sources *…

人工智能 2023年7月18日
0056
从「降维打击」谈「降维」

生活中常常听到一个词：降维打击。如何理解？ “王健林的小目标和我的小目标”就是最好的诠释。对于数据来说，虽然不存在「打击」之说，但先对其降一波维，利用可…

人工智能 2023年7月17日
0053
COCO数据集训练TPH-YoloV5

设备：rtx 3060 环境要求：torch >= 1.8.1 其他环境按照源代码的readme安装即可 github地址：本文用COCO数据集来进行训练，TPH-YOLO…

人工智能 2023年7月21日
0049
TCGA数据库与肿瘤数据分析（参考后整理）

1.INTRODUCTION（介绍） 1.数据来源 GDC Legacy Archive GDC Harmonized database 2.barcode 2.Install.p…

人工智能 2023年7月16日
0050
【批量二值化图片并筛选至另一文件夹demo】Python+OpenCV学习小日记

因为做深度学习前期需要处理数据集，想把改进图片质量，把一些亮斑比较多的图片用二值化方法提取出来，并移动至另一文件夹。所以在今天自己写了一点代码，批量完成这项工作。在此做个小记录。 …

人工智能 2023年7月19日
0050
长按发送语音_语音转文字的方法分享！快速帮你将语音转成文字

如今，很多人喜欢在聊天时使用语音消息，但他们没有意识到，在许多情况下，我们无法发送或接收语音消息，所以我们需要将接收到的语音消息转换为文本。但很少有人知道这种方法。我们现在应该做什…

人工智能 2023年5月27日
00110
Python如何读取Excel表内容

用python读取excel表中的数据假如说有如下一张存储了数据的excel表，其中x1-x6是特征，y_label是特征对应的类别标签。我们想要使用python对以下数据进行数…

人工智能 2023年7月3日
0076
软件工程毕业设计课题（71）微信小程序毕业设计PHP校园浴室预约小程序系统设计与实现

项目背景和意义目的：本课题主要目标是设计并能够实现一个基于微信小程序预约订座小程序，前台用户使用小程序，后台管理使用基PHP+MySql的B/S架构；通过后台添加浴室类型、浴室房…

人工智能 2023年6月29日
0090
QEvent（事件）

事件：是对各种应用程序需要知道的由应用程序内部或外部产生的事件或动作的统称。在Qt中任何一个QObject子类实例都可以接收和处理事件。 Qt中事件作为一个对象，继承自QEvent…

人工智能 2023年6月27日
0057
ACL 2022论文盘点出炉！NLP好文一口气读完

©PaperWeekly 原创 · 作者 |王馨月单位 |四川大学研究方向 |自然语言处理机器翻译 1.1 CSANMT 论文标题： Learning to Generali…

人工智能 2023年5月27日
0059
100+个图像数据集

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月16日
0043
配置安装OpenCV(4.5.4)+Opencv_contrib(4.5.4)+CUDA(v11.5)

属性管理器配置打开VS > 新建 > 空项目。把 Debug x86改成 Release x64；点击视图 > 其他窗口 > 属性管理器；点击项目名…

人工智能 2023年6月20日
00101
opencv面试知识点

文章目录一、opencv基础 * 1、OpenCV中cv::Mat的深拷贝和浅拷贝问题 2、opencv常用数据结构和函数 – 2.1、QImage和Mat之间的转换…

人工智能 2023年6月17日
00102

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

史上最小白之《Word2vec》详解

大家都在看