[词嵌入] Pytorch中Embedding Layer 原理和用法

2023年5月28日上午6:28 • 人工智能 • 阅读 65

1.利用Pytorch和Tensorflow，自带的编码方式
2.使用one-hot编码
3.使用预训练模型，使词嵌入之间有更好的语义信息(ELMo,Bert)

1.准备好所要使用的语料库
2.构建字典，使语料库中的每个词都对应一个索引
3.利用Embedding Layer对输入的自然语言做embedding，作为网络的第一层
4.训练模型，更新第3步输入的权重

值得注意的是：embedding layer只是对词进行权重初始化，所初始化的权重是符合正态分布。所以可以看出一个句子中的词与词之间是没有任何关系的。所以word2vec，Glove之类的方式是远远要比这种方式有效的多。

官方给出的embedding的参数如下：

torch.nn.Embedding(num_embeddings, embedding_dim, padding_idx=None, max_norm=None, norm_type=2.0, scale_grad_by_freq=False, sparse=False, _weight=None, device=None, dtype=None)

num_embeddings : 构建语料库字典的大小
embedding_dim : 每个词向要编码成向量的长度
padding_idx:输出遇到此下标时用0填充(非必要参数)
max_norm：对词嵌入进行归一化，使他们的范数小于max_norm(非必要参数)
norm_type: max_norm在计算范数时的范数类型，如：可以选择1范数，2范数
scale_grad_by_freq：将通过小批量中单词频率的倒数来缩放梯度。这里的词频是指输入的句子。
sparse：如果为True，则与权重矩阵相关的梯度转变为稀疏张量。这里的稀疏张量是指方向传播的时候只更新当前使用此的权重矩阵，加快更新速度。这里 和word2vec的负采样有相似之处

假设我们的语料库如下(引用自狄更斯双城记)：

那是最美好的时代，那是最糟糕的时代；那是智慧的年头，那是愚昧的年头；那是信仰的时期，那是怀疑的时期；那是光明的季节，那是黑暗的季节；那是希望的春天，那是失望的冬天；我们拥有一切，我们一无所有；我们全都在直奔天堂，我们全都在直奔相反的方向一一简而言之，那时跟现在非常相像，某些最喧嚣的权威坚持要用形容词的最高级来形容它。说它好，是最高级的；说它不好，也是最高级的这里是引用

想要做embedding的句子为：

失望之冬，希望之春

import torch.nn as nn

corpus = "那是最美好的时代，那是最糟糕的时代；那是智慧的年头，那是愚昧的年头；那是信仰的时期，那是怀疑的时期；那是光明的季节，那是黑暗的季节；那是希望的春天，那是失望的冬天；我们拥有一切，我们一无所有；我们全都在直奔天堂，我们全都在直奔相反的方向一一简而言之，那时跟现在非常相像，某些最喧嚣的权威坚持要用形容词的最高级来形容它。说它好，是最高级的；说它不好，也是最高级的"

word_dict = {}
word_set = set()
for it in corpus:
    word_set.add(it)
index = 0
for it in word_set:
    word_dict[index] = it
    index = index + 1

所建立好的语料字典大致如下：
{0: ‘词’,
1: ‘期’,
2: ‘头’,
3: ‘所’,
4: ‘言’,
5: ‘持’,
…

81: ‘疑’,
82: ‘方’}

在建立好字典之后，我们就可以做embedding了先设置embedding layer的参数：
1. 字典的长度为： len(word_dict)
2.假设我们想要为 每个字符编码的长度为：3。即一个词用长度为3的向量表示
3.其他设为默认


input = "失望之冬，希望之春"

raw_input = []
for it in input:
    index_it = list(word_dict.keys())[list(word_dict.values()).index(it)]
    raw_input.append(index_it)

embedding  = nn.Embedding(len(word_dict),3)

print(embedding(input_emb))

最终得到的结果是9×3的权重矩阵，这也是我们往后输入到神经网络的矩阵的维度：

tensor([[-0.5556, -0.5511, -1.4122],
[ 0.5721, -1.1856, 0.1831],
[-0.8368, 1.1271, -1.7927],
[-2.0651, -0.3584, 0.2892],
[ 0.3897, -0.4211, -0.7246],
[-0.5848, -0.1685, 0.8156],
[ 0.5721, -1.1856, 0.1831],
[-0.8368, 1.1271, -1.7927],
[-1.1437, -0.1087, -0.8976]])

Original: https://blog.csdn.net/sinat_40258777/article/details/122388863
Author: 赛中原
Title: [词嵌入] Pytorch中Embedding Layer 原理和用法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530225/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

（一）一元线性回归方程 & 梯度下降

学习目标： I. 理解一元线性回归 II. 学会用 “梯度下降法” 和 “相关系数法”求解线性模型 III. 学会用代码来实现该…

人工智能 2023年6月17日
0057
@新金融人，点击翻开未来金融新画卷

简介：@新金融人，点击翻开未来金融新画卷正值”十四五”开局之年，金融行业立足新发展阶段、贯彻新发展理念，守正创新，助推经济社会发展行稳致远。数字创新与转型…

人工智能 2023年6月1日
00118
查看yolov5/lite各层参数量和各层FLOPs

我会简述如何得到v5模型中各层的参数量和计算量（烂大街的参量表），然后再将如何得到各层的计算量FLOPs（基本没人教怎么获得各层FLOPs，花我一番功夫，其实特别简单，轮子U神都造…

人工智能 2023年6月22日
00100
FCN全卷积网络理解及代码实现（来自pytorch官方实现）

视频链接：https://www.bilibili.com/video/BV1J3411C7zd?vd_source=a0d4f7000e77468aec70dc618794d26…

人工智能 2023年5月26日
0094
机载 LiDAR 点云数据分类

1、加载MicroStation的TSCAN模块。图1 加载TSCAN模块2、加载点云数据从TerraScan 菜单栏选择 File→Read Points 即可打开选择文件对话框…

人工智能 2023年7月3日
0060
DeepMind新突破！首次用深度学习从第一性原理计算分子能量

人工智能学习离不开实践的验证，推荐大家可以多在FlyAI-AI竞赛服务平台多参加训练和竞赛，以此来提升自己的能力。FlyAI是为AI开发者提供数据竞赛并支持GPU离线训练的一站式服…

人工智能 2023年6月10日
0093
Opencv中的开运算和闭运算操作讲解（python实现）

文章目录 * – 1.首先了解腐蚀和膨胀原理 – 2.开运算 – + （1）为什么开运算可以去白噪点呢？ + （2）.函数讲解 + （3）代码实…

人工智能 2023年5月26日
00100
隐藏通知内容什么意思_原来华为手机隐藏5个技巧，难怪别人都说华为好用，涨知识了…

原来华为手机隐藏5个技巧，难怪别人都说华为好用，涨知识了！我们身边的很多朋友已经开始陆续换成华为手机了，所以今天我们就来说说为什么用过华为手机的人都说好用，并整理了6个贴心贴心的…

人工智能 2023年5月27日
00197
【数字图像处理】基于MATLAB GUI的数字图像处理程序

文章目录写在前面 1. 系统简介 2. 功能设计 3. 系统展示 * 3.1 首页 3.2 预处理 – 3.2.1 几何变换 3.2.2 添加噪声 3.2.3 图像平…

人工智能 2023年6月18日
0093
ViT理解

最近在阅读transformer的第一篇文章ViT，也作个笔记，供学习使用。希望阅读者有CNN的基础，如YOLO,MobileNets，ResNet等,不然读起来可能比较吃力。当然…

人工智能 2023年6月20日
0080
【ORB-SLAM3】BOW词袋模型

基于视觉的闭环检测可以描述为，给定一张输入图像，在历史图像数据库中高效准确地搜索出与之相似的图像。而通常的穷举搜索法效率低下，类帧差法受制于图像视角变化、光照变化、曝光等因素无法稳…

人工智能 2023年6月2日
0091
基于python地铁客流量分析平台

http://ym6se2.natappfree.cc import requestsimport pandas as pdimport timeimport csv def ds…

人工智能 2023年7月7日
0064
Yolov7实战，实现网页端的实时目标检测

关注并星标从此不迷路计算机视觉研究院计算机视觉研究院专栏作者：Edison_G 今天给大家分享的是yolov7网络实践，并且可以做成web端，只要你输入图像，选择对应模型就…

人工智能 2023年6月17日
0083
python怎么处理通达信ctp接口数据？

通达信ctp接口使用的socket数据处理又叫套接字，可以理解为是一个应用程序的地址，是实现网络通信的关键。我们可以通过IP找到一台主机，可以通过主机的端口找到该主机上的某个应用程…

人工智能 2023年7月8日
0091
Kubernetes add cluster.

1.create serviceaccount 2.get token and sa from secret 3.add cluster 4.check configuration…

人工智能 2023年7月30日
0070
Python 绘制数据图表

Python 绘制数据图表 matplotlib绘图库模块安装 pip install matplotlib 导入pyplot子模块 import matplotlib.pyplo…

人工智能 2023年7月29日
0064

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

[词嵌入] Pytorch中Embedding Layer 原理和用法

大家都在看