Word2Vec之CBOW详解

2023年5月28日下午12:34 • 大数据 • 阅读 92

CBOW介绍

CBOW分为输入层 Input layer 、隐藏层 Hidden layer 、输出层 Output layer 。

; 一、输入层 Input layer

1、输入的是 One-hot 编码的 vector 。

什么是 One-hot 编码？
One-hot 编码又称一位有效编码，是将文字数字化的过程。举个例子，一个 corpus （语料库）为” I drink coffee everyday “。假设将单词放入数组 str ，则该数组 str 长度为4， vector 也就是4维向量。str[0]=”I”，str[1]=”drink”，str[2]=”coffee”，str[3]=”everyday”。把他转换成One-hot编码就是

单词One-hot 编码I[1,0,0,0]drink[0,1,0,0]coffee[0,0,1,0]everyday[0,0,0,1]

2、输入层总共有 C 个 V 维 vector 。C 是由 window size （上下文窗口大小）决定的，window size 代表我们从 target word 的一边（左边或右边）选取词的数量。假设 target word 是 coffee ， window size 为2，那么则在 coffee 左侧和右侧分别选取2个词，则 C=2+2=4。V 表示语料库中词的个数，即 One-hot vector 的维度 V（ window size*2=C

二、隐藏层 Hidden layer

1、矩阵 W 是 V 行 N 列

V 表示语料库中词的个数，即 One-hot vector 的维度 V
N 是一个任意数字，即最后得到的词向量维度为 N

2、每个 input vector 分别乘以 W 可以分别得到维度为 N 的词向量，然后再求平均值得到隐藏层向量。
3、隐藏层向量乘 W’ （ N 行 V 列），得到一个维度为 V 的向量。

三、输出层 Output layer

输出层是一个 softmax 回归分类器，它的每个结点将会输出一个0-1之间的值（概率），这些所有输出层神经元结点的概率之和为1。

; 四、I drink coffee everyday 示例图

五、参考文章

1、CBOW 与 skip-gram
2、word2vec是如何得到词向量的？
3、快速笔记：NLP 中的有用术语和概念：BOW、POS、Chunking、Word Embedding
4、理解 Word2Vec 之 Skip-Gram 模型

Original: https://blog.csdn.net/qq_44997147/article/details/120875909
Author: Feather_74
Title: Word2Vec之CBOW详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531520/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

2021SC@SDUSC-山东大学软件工程与实践-Senta(2)

Senta中的语义表示模型ERNIE 知识增强的语义表示模型 ERNIE（Enhanced Representation through kNowledge IntEgration…

大数据 2023年5月28日
00145
1. 大数据概述

一、列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述 1. HDFS（Hadoop分布式文件系统） Hadoop分布式文件系统是Hadoo…

大数据 2023年6月3日
0097
Spark内存资源分配——spark.executor.memory等参数的设置方法

大数据 2023年11月16日
0064
Hive中索引的使用

一、索引的作用 Hive支持索引，但是Hive的索引与关系型数据库中的索引并不相同，比如，Hive不支持主键或者外键。 Hive索引可以建立在表中的某些列上，以提升一些操作的效率，…

大数据 2023年11月13日
0048
我眼中的大数据（二）——HDFS

Hadoop的第一个产品是HDFS，可以说分布式文件存储是分布式计算的基础，也可见分布式文件存储的重要性。如果我们将大数据计算比作烹饪，那么数据就是食材，而Hadoop分布式文件系…

大数据 2023年6月2日
0082
生物信息软件/流程dockerfile打包参考

生信软件、流程依赖的东西太多，docker打包镜像一不小心就是上Gb大小。镜像太大很多缺点：上传、拉取慢；费宽带；占空间。。。 docker已广泛应用在IT，生信只是沾了点光，所…

大数据 2023年5月29日
0081
Docker 常用命令

操作容器启动容器并启动bash（交互方式）: $docker run -i -t /bin/bash 启动容器以后台方式运行(更通用的方式）： $docker run -d -i…

大数据 2023年5月29日
0069
大数据学习笔记——————-(30)

第30章 HBASE架构与安装 30.1 HBase架构在 HBase中，表分割成区域并由区域服务器提供服务。区域被列族垂直划分为” Stores“。 …

大数据 2023年5月26日
00100
☀️从0到1部署Hadoop☀️基于网站日志进行大数据分析【❤️建议收藏❤️】

目录基于Hadoop部署实践对网站日志分析 1.项目概述 2.安装及部署 2.1 VMware安装 2.2 Ubuntu安装 2.3…

大数据 2023年5月24日
0082
基于sqlite+uinapp实现的简单增删改查

基于sqlite+uinapp实现的简单增删改查 * – 基本了解 – 封装增、删、改、查操作类 – 基本用法 – 常用用法介绍最…

大数据 2023年11月12日
0035
hive的列转行&行转列&拼接函数

列转行（一列转多行）常用的列转行函数有：lateral view explode(array或map类型的字段) tableAlias AS columnAlias可以理解为，一…

大数据 2023年11月12日
0053
Redis架构之哨兵机制与集群

Redis架构之哨兵机制与集群哨兵机制 1、介绍： Sentinel（哨兵）是redis高可用性解决方案：由一个或多个由一个或多个Sentinel 实例组成的Sentinel …

大数据 2023年6月2日
0090
算法面试之transformer的结构和位置编码

1.结构 Encoder和Decoder均由6个相同的层组成，可将上图简化为下图表示：（Encoder的输出与每个Decoder相连）Encoder的每一层又包含两个sub-lay…

大数据 2023年5月28日
0076
Redis原理篇（三）通信协议

大数据 2023年11月16日
0036
httpd

httpd httpd 1.httpd简介 2.httpd的特性 2.1 httpd2.4版本型新添加的模块 3.httpd基础 3.1 httpd自带的工具程序 3.2 rpm包…

大数据 2023年5月27日
0074
CentOS8.1安装Docker及Docker-compose

在新主机上首次安装 Docker Engine-Community 之前，需要设置 Docker 仓库。之后，您可以从仓库安装和更新 Docker. 设置仓库安装所需的软件包使…

大数据 2023年5月29日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31