详解word2vec

2023年5月28日下午1:28 • 大数据 • 阅读 102

1.嵌入是用向量表示一个物体

2.用数值表示标识符，在机器学习领域称为 词嵌入 ，也称 分布式表示

3.词嵌入通常有两种方法——基于平台的Embedding学习，基于 预训练模型

4.word2vec是最开始提出的embedding预训练模型

5.word2vec有两种： CBOW 和 Skip-Gram

6.word2vec 数据集的一个样本 仅选输入词前后各c个词和输入词进行组合

7.word2vec利用神经网络进行权重更新

8. Hierarchical Softmax 和 negative sampling 是word2vec两种优化策略

嵌入，英文是Embedding，是用向量表示一个物体，这个物体可以是一个单词、一条语句、一个序列、一件商品、一个动作、一部电影等。在机器学习领域，我们把这些统一称为标识符(token)，由于数学只认识数字，因此我们 用数值表示这些标识符，也即通常说的 词嵌入 ，又称为 分布式表示.

传送门：

词嵌入（Word Embedding）

最先开始的embedding是 word2vec，我们再详细介绍一次该算法，开始之前，先简单说明一下序列问题的处理步骤。

序列问题

序列，简单来说就是一串元素按照某种性质进行排列。比如数学常见的数列，还有生活中常见的网页浏览、商品浏览，按照时间生成的时间序列……

拿到一份语言材料，要对它进行任务工作，一般需要进行一定的特征工程，流程通常可以表示为下图：

词嵌入是处理序列问题中最具魅力的一环，对于词嵌入的方法，通常有两种—— 1.利用平台的Embedding层学习，2.使用预训练的词嵌入

对于第一种方法，通过是利用PyTorch、TensorFlow等平台学习，首先初始化词向量，然后平台不断学习得到。比如PyTorch的简单Embedding：

import torch
import jieba
import numpy as np
from torch import nn

raw_text = '越努力越幸运'
words = list(jieba.cut(raw_text))
word_to_ix = {i:word for i,word in enumerate(set(words))}#索引化

embeds = nn.Embedding(4,3)
keys = word_to_ix.keys()
keys_list = list(keys)
tensor_value = torch.LongTensor(keys_list)
embeds(tensor_value)

第二种嵌入是预训练嵌入——利用较大语料库训练好的预训练模型，把词嵌入加载到当前任务中。预训练模型有很多，最原始的是word2vec，我们先展开介绍这个模型。

CBOW与Skip-Gram

word2vec实质分两种，一种是 根据上下文预测目标值，即Continuous Bag-Of-Words Model，简称 CBOW；另外一种是 根据目标值生成上下文，称为 Skip-Gram模型，我们在词嵌入（Word Embedding）文章中详细介绍了它的原理。这两种是相反的过程，我们举一个例子来说明Skip-Gram模型的具体过程，CBOW模型就不再赘述了。在此之前，再强调一下该模型的做出的三个假设：

一个词汇只与其上下文c个词汇有关（称为窗口，window size）
每个单词在窗口下的2c个单词的联合条件概率相互独立且同分布
*给定每个单词，在窗口下每个单词的条件概率分布相互独立且同分布

对于下面语料库（句子）：

natural language processing and machine learning is fun and exciting

首先，要将这条语句生成一个由序列（输入，输出）构成的数据集，假设取定window size = 2，那么这个 数据集的一个样本 仅选输入词前后各2个词和输入词进行组合 构成：

这条语句一共10个单词，所以数据集是由10个样本构成，从#1~#10.注意，输出标签y不再是一个文本，可能是两个，也可能是三个，这里最多是四个。

接着就是把这些文本变成数字形式表示，利用one-hot编码，虽然该语句一共10个单词，但只有9个互不相同的单词，所以每一个词向量维度应该是9。

我们列出#1~#5前五个样本的向量表示，剩下五个类推：

这样子，就从文本型语句转换为训练集的向量表示。

进行了预处理后的数据集，就可以输入神经网络进行训练，输入是X，输出是Y，隐藏层只有一层，由于输出向量维度是多维的，所以采取softmax激活函数，执行DNN的前向传播与反向传播，然后通过梯度下降更新 隐藏层系数矩阵W1和 输出层系数矩阵W2：

传送门：多层感知机（MLP）

这里需要注意的是，由于输出的Y是多个的，在计算损失的时候是多个Y的和。这里以样本1举例，假设经过softmax输出层为：

由于样本的输出有两个，所以分布计算损失再求和（以残差为例）：

word2vec优化策略

word2vec算法每次迭代要更新两个矩阵:隐藏层系数矩阵W1和输出层系数矩阵W2，如果词汇量V很大的时候，每次更新矩阵就要消耗巨大的资源，特别的是W2，还需要计算梯度。为了提高效率，word2vec有两种优化策略： Hierarchical Softmax和 Negative Sampling（负采样）。这两种策略出发点一致：不再显式使用W2矩阵，即不再完全计算或更新W2矩阵。

Hierarchical Softmax(简称HS)是用于加速神经语言模型Softmax的一种方式，HS的实质是 基于哈尔曼树（一种二叉树）将计算量大的部分变为一种二分类问题，它将 通过W2连接输出层改为隐藏层直接与下面二叉树根节点相连：

这里，白色的叶子节点代表词汇表所有的词汇（假设长度为V），黑色节点表示非叶子节点。用n(w,j)表示从根节点到叶子节点w的路径上的第j个非叶子节点，并且每个非叶子节点对应一个与隐藏层维度相同的向量。

训练一个神经网络意味着要输入训练样本并不断调整神经元权重， 每训练一个样本，该样本的权重就会调整一次，从神经网络训练流程可以看出来：

词汇表的大小决定了Skip-Gram神经网络权重矩阵的具体规模，这些权重需要经过上亿次的训练样本来调整，这需要非常消耗资源，在实际中效率会非常低下。而 负采样只需要每次更新一个训练样本的一小部分权重，并且能改善所得到的词向量的质量。

word2vec的 负样本是one-hot编码后的为0的那些位置的样本，每次让一个训练样本仅仅更新一小部分的权重参数，从而降低梯度下降过程中的计算量。

参考资料：

《深入浅出Embedding》

Original: https://blog.csdn.net/qq_27388259/article/details/118257571
Author: 整得咔咔响
Title: 详解word2vec

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531794/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【NLP_事件抽取】基于条件随机场模型

数据预处理 #!/usr/bin/env python coding=utf-8 from string import punctuation import re import c…

大数据 2023年5月28日
0079
大数据学习笔记——————-(5)

第5章 Spark调度与高级编程 Spark应用程序用spark-submit这个shell命令把spark应用程序部署在集群上。通过统一的接口使用各自的集群管理器。因此，不必每一…

大数据 2023年5月26日
0048
qt使用数据库sqlite

使用QSQL数据库需要添加操作 1.在.Pro文件中添加 ; 2.在头文件中添加需要使用的类头文件数据库所有类 ; 重要类和函数函数： QSqlDatabase类 1.连接数据库…

大数据 2023年11月10日
0033
GNN NLP(15) Hierarchical Heterogeneous Graph Representation Learning for Short Text Classification

EMNLP2021. 目录 Method * Word-Level Component Graphs – Node Embedding Learning Graph C…

大数据 2023年5月28日
0098
基于NLP的软件分析和程序漏洞挖掘（二）

找到NLP在软件分析和漏洞挖掘的契合点之后，我们需要去调研这方面现有的研究情况。发现已经有人使用NLP来对二进制代码进行分析，主要有3种方向上使用NLP分析二进制代码，但大多数都是…

大数据 2023年5月28日
0064
【傻瓜式教程】Windows下安装Hive MySQL版【附安装Hadoop教程】全网最详细的图文教程

大家早上好，本人姓吴，如果觉得文章写得还行的话也可以叫我吴老师。欢迎大家跟我一起走进数据分析的世界，一起学习！感兴趣的朋友可以关注我或者我的数据分析专栏，里面有许多优质的文章跟大家…

大数据 2023年11月13日
0042
十几年老Java咳血推荐，你薪资涨一波没毛病！小AD以为我端午都干嘛去了？

大数据 2023年11月16日
0039
数据清洗之 csv文件读写

csv文件读写 pandas内置了10多种数据源读取函数，常见的就是CSV和EXCEL 使用read_csv方式读取。结果为dataframe格式在读取csv文件时，文件名称尽量…

大数据 2023年5月25日
0097
2022年SQL经典面试题总结（带解析）

一、选择题（1）基础题 1、要求删除商品表中价格大于3000的商品，下列SQL语句正确的是（） A、DELETE FROM 商品 WHERE 价格>3000 B、DELET…

大数据 2023年11月12日
0035
485. Max Consecutive Ones

Max Consecutive Ones 原创 mb6304a73bed12a2022-08-23 19:21:18博主文章分类：LeetCode ©著作权文章标签 git py…

大数据 2023年5月24日
0088
Kotlin 协程和 Android SQLite API 中的线程模型，零基础入门android逆向视频课程

moneyDao.decrease(federalAccount, amount) moneyDao.increase(taxpayer.account, amount) // 等…

大数据 2023年11月10日
0041
我挖掘Kafka底层原理！发现了它火爆宇宙的3个真相！

目前市面上各种中间件层出不穷，我们在做具体的选型时难免会纠结，在这里阐述点粗浅的看法，其实每个中间件在其设计上，都有其独有的特点或优化点，这些恰好应该是我们所关注的，这样才能做到物…

大数据 2023年5月28日
0078
Flink中Window详解之Window的聚合函数AggregateFunction

Flink中Window详解之Window的聚合函数AggregateFunction 原创 wx62be9d88ce2942022-07-01 17:46:01博主文章分类：大数…

大数据 2023年5月25日
0078
17道Redis 面试题

大数据 2023年11月14日
0031
(5)数据存储

文章目录 * – 5.1 数据存储方式 – 5.2 文件存储 – + 5.2.1 将数据存入到文件中 + * 内部存储 * 外部存储 + 5.2…

大数据 2023年11月12日
0039
Linux系统挂载数据盘

参考：http://help.aliyun.com/knowledge_detail/5974154.html?spm=5176.788314850.3.2.hUqwXo 1、在阿…

大数据 2023年6月3日
0062

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

详解word2vec

大家都在看